一篇文章教会你利用Python网络爬虫获取分类图片
2020-07-14 16:56
Python进阶学习交流
关注
【一、项目背景】
博海拾贝是一支互联网从业者在线教育的团队,扎根于中国教育行业以及互联网行业的创新和眼球中,打造专业体系化的互联网人在线教育平台。精心创作许多精彩的文章,提供了很多有趣的图片。
今天来教大家如何使用Python来爬取博海拾贝的图片,分类保存,写入文档。
【二、项目目标】
创建一个文件夹, 分类保存所有文章图片。下载成功,结果显示控制台。
【三、项目分析】
1、如何找到真正访问的地址,多网页请求?
滑动鼠标,观察网站,右键F12 。鼠标滚轮滑动加载新内容。如图:
点开随机网页 , 点开Request URL ,观察网址的规律。
https://bh.sb/page/1/
https://bh.sb/page/2/
https://bh.sb/page/3/
https://bh.sb/page/4/
观察到,每增加一页page/{}/自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。
2. 反爬处理
1)获取正常的 http请求头,并在requests请求时,设置这些常规的http请求头。
2)使用 fake_useragent ,产生随机的UserAgent进行访问。
声明:
本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
最新活动更多
-
即日-1.24立即参与>>> 【限时免费】安森美:Treo 平台带来出色的精密模拟
-
2月28日火热报名中>> 【免费试用】东集技术年终福利——免费试用活动
-
即日-3.21立即报名 >> 【深圳 IEAE】2025 消费新场景创新与实践论坛
-
4日10日立即报名>> OFweek 2025(第十四届)中国机器人产业大会
-
7.30-8.1火热报名中>> 全数会2025(第六届)机器人及智能工厂展
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论