Skip to content

requests + BeautifulSoup

requests 常用方法

  • GET 请求方式获取 URL 位置的资源
  • HEAD 获取资源的头部信息
  • POST 请求方式获取 URL 位置的资源

方法介绍

  • 基本语法
js
url = "http://www.netbian.com/fengjing/";
response = requests.get(url);
  • 常用参数

    1. url
      字符串类型,请求地址

    2. params
      字典类型,用来携带查询参数
      该方法会自动对 params 字典进行编码,然后和 url 拼接
      requests.get(url, params)

    3. headers
      字典类型,请求头,用来携带请求头部信息

    4. cookies
      字典类型,携带登录状态等信息

    5. proxies
      字典类型,用来设置代理 ip 服务器,获取和使用方法同上

    6. timeout
      整数类型,用于设定请求超时时间,单位为妙

  • response 常用属性和方法

    1. status_code 属性
      http 请求的返回状态,若为 200 则表示请求成功

    2. text 属性
      http 响应内容的字符串形式,即返回的页面内容

    3. content 属性
      http 响应的二进制形式,语法同上

    4. encoding 属性
      用来设置 response 的编码形式,如果请求的页面中包含中文,那么就需要设置 encoding 属性

    5. raise_for_status() 方法
      该方法判断 status_code 是否等于 200,如果不等于,则抛出异常。

    6. json() 方法
      获取 http 响应内容的 json 格式数据

selenium + PyQuery