examples-of-web-crawlers 是一个对新手非常友好的Python爬虫项目,包含了很多实用的例子。以下是一些非常有趣的 Python 爬虫例子,主要爬取淘宝、天猫、微信、微信读书、豆瓣和 QQ 等平台的数据。这些爬虫代码通用性较高,时效性较长,对新手非常友好,使用了简单的 Python 代码,并配有详细的注释,方便初学者学习和掌握爬虫技术。感兴趣的朋友可以根据需求进一步优化代码。
这些爬虫项目的亮点在于代码逻辑清晰且具有实际操作意义,能够帮助用户快速掌握网页数据抓取的核心知识。同时,代码结构简洁明了,配有详细注释,让新手也能轻松理解其工作原理。通过这些示例代码,不仅可以完成目标数据的抓取,还能学习到更多关于网络请求和数据解析的技巧。
这些爬虫的代码设计以简洁为主,并尽可能减少复杂性。初学者可以通过运行这些代码,感兴趣的同学可以访问相关资源或代码分享网站,深入学习爬虫的优化技巧,并根据实际需求对这些示例代码进行扩展和改进。
Github地址:https://github.com/shengqiangzhang/examples-of-web-crawlers
Gitee地址(国内):https://gitee.com/shengqiangzhang/examples-of-web-crawlers
1.淘宝模拟登录
点击这里下载下载chrome浏览器
查看chrome浏览器的版本号,点击这里下载对应版本号的chromedriver驱动
pip安装下列包
pip install selenium
点击这里登录微博,并通过微博绑定淘宝账号密码
在main中填写chromedriver的绝对路径
在main中填写微博账号密码
#改成你的chromedriver的完整路径地址
chromedriver_path = "/Users/bird/Desktop/chromedriver.exe"
#改成你的微博账号
weibo_username = "改成你的微博账号"
#改成你的微博密码
weibo_password = "改成你的微博密码"
2.天猫商品数据爬虫
点击这里下载下载chrome浏览器
查看chrome浏览器的版本号,点击这里下载对应版本号的chromedriver驱动
pip安装下列包
pip install selenium
pip install pyquery
点击这里登录微博,并通过微博绑定淘宝账号密码
在main中填写chromedriver的绝对路径
在main中填写微博账号密码
#改成你的chromedriver的完整路径地址
chromedriver_path = "/Users/bird/Desktop/chromedriver.exe"
#改成你的微博账号
weibo_username = "改成你的微博账号"
#改成你的微博密码
weibo_password = "改成你的微博密码"
3.爬取淘宝我已购买的宝贝数据
点击这里下载下载chrome浏览器
查看chrome浏览器的版本号,点击这里下载对应版本号的chromedriver驱动
pip安装下列包
pip install selenium
pip install pyquery
点击这里登录微博,并通过微博绑定淘宝账号密码
在main中填写chromedriver的绝对路径
在main中填写微博账号密码
#改成你的chromedriver的完整路径地址
chromedriver_path = "/Users/bird/Desktop/chromedriver.exe"
#改成你的微博账号
weibo_username = "改成你的微博账号"
#改成你的微博密码
weibo_password = "改成你的微博密码"
4.每天不同时间段通过微信发消息提醒女友
有时候,你很想关心她,但是你太忙了,以至于她一直抱怨,觉得你不够关心她。你暗自下决心,下次一定要准时发消息给她,哪怕是几句话,可是你又忘记了。你觉得自己很委屈😭,但是她又觉得你不负责。现在,再不用担心了,用python就可以给女友定时发提示消息了,而且不会漏过每一个关键时刻,每天早上起床、中午吃饭、晚上吃饭、晚上睡觉,都会准时发消息给她了,而且还可以让她学习英语单词哦!
在生日来临之时,自动发祝福语。在节日来临之时,比如**三八妇女节、女神节、情人节、春节、圣诞节**,自动发问候语哦,再也不用担心他说你没有仪式感了😀
最重要的时候,实时可以知道女友的情感情绪指数哦,再也不用担心女友莫名其妙生气了。
pip安装下列包
pip install wxpy
pip install requests
设置以下内容
设置config.ini相关信息
5.爬取5K分辨率超清唯美壁纸
壁纸的选择其实很大程度上能看出电脑主人的内心世界,有的人喜欢风景,有的人喜欢星空,有的人喜欢美女,有的人喜欢动物。然而,终究有一天你已经产生审美疲劳了,但你下定决定要换壁纸的时候,又发现网上的壁纸要么分辨率低,要么带有水印。
这里有一款Mac下的小清新壁纸神器Pap.er,可能是Mac下最好的壁纸软件,自带5K超清分辨率壁纸,富有多种类型壁纸,当我们想在Windows或者Linux下使用的时候,就可以考虑将5K超清分辨率壁纸爬取下来。
6.爬取豆瓣排行榜电影数据(含GUI界面版)
这个项目源于大三某课程设计。平常经常需要搜索一些电影,但是不知道哪些评分高且评价人数多的电影。为了方便使用,就将原来的项目重新改写了。当做是对爬虫技术、可视化技术的实践了。主要是通过从排行榜和从影片关键词两种方式爬取电影数据。
打开Chrome浏览器,在网址栏输入chrome://version/查询当前Chrome版本
打开http://chromedriver.storage.googleapis.com/index.html,下载对应版本的chromedriver驱动,下载完成后务必解压
打开当前目录下的文件getMovieInRankingList.py,定位到第107行,将executable_path=./chromedriver.exe修改为你的chromedriver驱动路径
执行命令pip install -r requirement.txt安装程序所需的依赖包
执行命令python main.py运行程序
包含功能
根据关键字搜索电影
根据排行榜(TOP250)搜索电影
显示IMDB评分及其他基本信息
提供多个在线视频站点,无需vip
提供多个云盘站点搜索该视频,以便保存到云盘
提供多个站点下载该视频
等待更新