BeautifulSoup库的使用:
1.解析HTML代码:
<p class="title"> adfasdfasd</p>
这里的class="title" 是attributes
这里的p是name
2.进行准确查找:
soup.body.contents[1]
3.爬取网站进行标签树的遍历:
for child in soup.body.children:
print(child)
4.查找
find_all(name,attr,recursive,string,**kwargs)
这里的name就是HTML中的标签
attrs就是标签里的相关属性
当然也可以直接通过属性来查找:
find_all(attr="name")
find_all('a',attrs={'class':'cp-feedback'})
Scrapy爬虫框架(重用命令以及类):
1.命令格式:
scrapy <command> [options] [args]
2.常用到的命令:
startproject 创建一个工程 scrapy startproject name dir
genspider 创建一个爬虫 scrapy genspider name
crawl 运行一个爬虫 scrapy crawl name
3.常用到的scrapy类
Request 这是url提交类
Response 这是爬取内容的封装类
Item 是从HTML中提取的内容,并进行保存