Learn the web crawler.
12306
查询 该目录下都是一些查询的脚本.
监票脚本
movies 该目录下是一个基于Flask的web程序,功能是资源搜索,详细功能我在我的公众号中已经介绍了。效果图如下:
Qzone是一个爬取QQ空间的爬虫,爬取了QQ好友的全部说说,留言,以及个人信息等数据,在我的博客中对该爬虫的思路等进行了简单的介绍 ,可以参考我的这篇文章<爬取QQ空间>
2019 年 8 月 18 日 代码再次重构,说实话我不想再继续这个项目了,因为太恶心了。。。一方面来自于空间方面(对方随便加点手段,我们就要绞尽脑汁),另一方面是要面对自己之前所写的代码(这个更恶心,看自己之前的代码有点怀疑人生,简直不忍直视,甚至想重新写一遍)。
代码已经重构,通过正则表达式。功能相同,代码优雅了一些。同时理解上也难了一些,老版本可以从我的公众号<一个简单程序员>上输入“QQ空间”获取, 欢迎关注,与我交流。
注: del_mood和del.board 是一个批量化删除说说和留言的程序(全部删除),涉及到说说和留言删除,无法恢复,谨慎使用!
谨慎使用!!!!
爬虫QZone通过Phantomjs模拟登录获取Cookies进行操作,爬取了全部好友的个人说说:
留言爬取的内容包括
个人档的爬取包括
数据统一存储在mongodb中,分了四个表,分别是black(记录无法访问空间的好友), information(存储个人信息的表), board(存储留言的表), mood(存储说说的表).
另外点赞的人的爬取需要加上时间限制(大于3秒请求不会出现问题),如果不加的话,会出现系统繁忙等问题。(亲身经历)
该项目我会不断完善的,如果有什么好的建议或者疑问可以在issues中提,我会尽力解决。
我的公众号: 一个简单程序猿