使用scrapy进行框架的爬虫以及BS库的知识

BeautifulSoup库的使用:

1.解析HTML代码:
    <p class="title"> adfasdfasd</p>

    这里的class="title" 是attributes
    这里的p是name

2.进行准确查找:
    soup.body.contents[1]

3.爬取网站进行标签树的遍历:
    for child in soup.body.children:
        print(child)

4.查找

    find_all(name,attr,recursive,string,**kwargs)
    这里的name就是HTML中的标签
    attrs就是标签里的相关属性

    当然也可以直接通过属性来查找:
    find_all(attr="name")
    find_all('a',attrs={'class':'cp-feedback'})

Scrapy爬虫框架(重用命令以及类):

1.命令格式:
    scrapy <command> [options] [args]

2.常用到的命令:
    startproject 创建一个工程  scrapy startproject name dir
    genspider  创建一个爬虫  scrapy genspider name
    crawl  运行一个爬虫  scrapy crawl name

3.常用到的scrapy类

    Request 这是url提交类
    Response 这是爬取内容的封装类
    Item  是从HTML中提取的内容,并进行保存
Fork me on GitHub