zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目
zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式抓取爬虫项目,主要功能是抓取知乎用户、话题、问题、答案、文章等数据,如果觉得不错,请给个star。
zhihu/src/main/resources/application.yaml
redis、mongodb相关配置,application.yaml
zhihu/src/main/resources/mongo-init.sql
mongodb脚步,mongo-init.sql
/var/www/logs
logback-spring.xml
https://www.zhihu.com/api/v4/members/${userid}/followees
参数名 | 类型 | 必填 | 值 | 说明 |
---|---|---|---|---|
include | String | 是 | data[*]answer_count,articles_count |
需要返回的字段(这个值可以改根据需要增加一些字段,见如下示例url) |
offset | int | 是 | 0 | 偏移量(通过调整这个值可以获取到一个用户的所有关注用户 资料) |
limit | int | 是 | 20 | 返回用户数(最大20,超过20无效) |
https://www.zhihu.com/api/v4/members/wo-yan-chen-mo/followees?include=data[*].educations,employments,answer_count,business,locations,articles_count,follower_count,gender,following_count,question_count,voteup_count,thanked_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20