一篇文章教会你利用Python网络爬虫获取分类图片

2020-07-14 16:56

Python进阶学习交流

关注

【四、涉及的库和网站】

1、网址如下：

https：／／www．doutula．com／photo／list／？page＝｛｝

2、涉及的库：requests、lxml、fake＿useragent、time、os

3、软件：PyCharm

【五、项目实施】

1、我们定义一个class类继承object，然后定义init方法继承self，再定义一个主函数main继承self。导入需要的库和网址，创建保存文件夹。import requests， osfrom lxml import etreefrom fake＿useragent import UserAgentimport timeclass bnotiank（object）： def ＿＿init＿＿（self）： os．mkdir（＂图片＂）＃在创建文件夹记住只有第一次运行加上，如果多次运行请注释掉本行。 def main（self）： passif ＿＿name＿＿＝＝＇＿＿main＿＿＇： Siper＝bnotiank（） Siper．main（）

2、随机UserAgent ，构造请求头，防止反爬。 ua ＝ UserAgent（verify＿ssl＝False） for i in range（1， 50）： self．headers ＝｛＇User－Agent＇： ua．random ｝

3、发送请求，获取响应，页面回调，方便下次请求。＇＇＇发送请求获取响应＇＇＇ def get＿page（self， url）： res ＝ requests．get（url＝url， headers＝self．headers） html ＝ res．content．decode（＂utf－8＂） return html

4、定义parse＿page函数，获取二级页面地址，for遍历获取需要的字段。

def parse＿page（self， html）： parse＿html ＝ etree．HTML（html） image＿src＿list ＝ parse＿html．xpath（＇／／p／a／＠href＇）＃ print（image＿src＿list）

5、对二级页面发生请求，xpath解析数据，获取大图片链接。

reo ＝ parse＿html1．xpath（＇／／div／／div［＠class＝＂content＂］＇）＃父结点 for j in reo： d ＝ j．xpath（＇．／／article［＠class＝＂article－content＂］／／p／img／＠src＇）［0］ text ＝ parse＿html1．xpath（＇／／h1［＠class ＝＂article－title＂］／／a／text（）＇）［0］．strip（）

6、请求图片地址，写入文档。

html2 ＝ requests．get（url＝d， headers＝self．headers）．content dirname ＝＂．／d／＂＋ text ＋＂．jpg＂＃定义图命名 with open（dirname，＇wb＇） as f： f．write（html2） print（＂％s 【下载成功！！！！】＂％ text）

7、调用方法，实现功能。 url ＝ self．url．format（page） print（url） html ＝ self．get＿page（url） self．parse＿page（html）

8、设置延时。（防止ip被封）。

time．sleep（1）＂＂＂时间延时＂＂＂

【六、效果展示】

1、点击绿色小三角运行输入起始页，终止页。