Python之爬虫requests请求

/request的安装是pip install requests/

requests 库获取网页html代码的

request.get()用于请求目标网站

r=request.get('网址')
print(r.status_code)      //打印状态码
print(r.url)              //打印请求的url
print(r.headers)         //打印头信息
print(r.cookies)         //打印coolie信息
print(r.text)             //以文本方式打印网页源码

基本的get请求

(1)、无参数:

improt requests     //引入request
r=requests.get('网址')   //配置url
print(r.url);

(2)、有参数:

第一种直接将参数放在url内

import requests
r=requests.get(网址?键=值&键=值)
print(r.url)

第二种就是将参数填写在dict中,发起请求时params参数指定为dict

improt requests
payload={                    //为get请求配置参数
    'key1':'value1',
    'key2':'value2',
    }
r=requests.get('网址',params=payload)
print(r.url)

设置header

import requests
headers={
    '键':'值',
    '键':'值',
    '键':'值'
    }
r=reuqests.get('网址',header=headers)
print(r.text)

基本post请求

(1)、有数据:
        import request
        payload={
            '键':'值'
            }
        r=requests.post('网址',data=payload)
        print(r.text)

(2)、有数据(json格式)
        import requests
        import json 
        payload={
            '键':'值',
            '键':'值'
            }
        r=requests.post('网址',data=json.dumps(payload))
        print(r.text)

(3)、上传文件
        import requests
        url='网址'
        files={
            'file':open('text.txt','rb')
        }
        r=requests.post(url.files=files)
        print(r.text)

请求超时配置:

import requests
url='网址'
r=requests.get(url,timeout=1000)
print(r.text)

代理IP

import requests
pro={
    'https':'http//IP地址'
}
r=request.post('网址',proxies=proxies)
print(r.status_code)
Fork me on GitHub