Python之爬虫requests请求

发表于 2018-01-26 | 分类于 Python

/request的安装是pip install requests/

requests 库获取网页html代码的

request.get()用于请求目标网站

r=request.get('网址')
print(r.status_code)      //打印状态码
print(r.url)              //打印请求的url
print(r.headers)         //打印头信息
print(r.cookies)         //打印coolie信息
print(r.text)             //以文本方式打印网页源码

基本的get请求

（1）、无参数：

improt requests     //引入request
r=requests.get('网址')   //配置url
print(r.url);

（2）、有参数：

第一种直接将参数放在url内

import requests
r=requests.get(网址?键=值&键=值）
print(r.url)

第二种就是将参数填写在dict中，发起请求时params参数指定为dict

improt requests
payload={                    //为get请求配置参数
    'key1':'value1',
    'key2':'value2',
    }
r=requests.get('网址'，params=payload)
print(r.url)

import requests
headers={
    '键':'值',
    '键':'值',
    '键':'值'
    }
r=reuqests.get('网址',header=headers)
print(r.text)

基本post请求

（1）、有数据：
        import request
        payload={
            '键':'值'
            }
        r=requests.post('网址',data=payload)
        print(r.text)

（2）、有数据（json格式）
        import requests
        import json 
        payload={
            '键':'值',
            '键':'值'
            }
        r=requests.post('网址',data=json.dumps(payload))
        print(r.text)

（3）、上传文件
        import requests
        url='网址'
        files={
            'file':open('text.txt','rb')
        }
        r=requests.post(url.files=files)
        print(r.text)

请求超时配置：

import requests
url='网址'
r=requests.get(url,timeout=1000)
print(r.text)

代理IP

import requests
pro={
    'https':'http//IP地址'
}
r=request.post('网址',proxies=proxies)
print(r.status_code)

Fork me on GitHub