A configurable web spider with a easy-to-use web console
新功能:
新增ajax网页渲染器,ajax网页轻松采集;
升级ES至5.2版本;
修正一些BUG;
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。
新功能:
新增定时任务循环,一次提交,无人值守,自动采集;
新增jetty支持,不再强制使用tomcat作为容器;
优化模板无法采集到数据时的提示;
修正去重策略的问题;
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。
新功能:
修复BUG:
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。
新功能:
升级内核至Webmagic 0.6版本;
增加文章详情页面,可以查看相关网页、该网页的命名实体词,抓取时间、动态字段等等元信息;
增加HTTP代理配置;
完善了文档,增加了二次开发接口说明、更多的常见问题解答;
点击每一篇文章后面的 Go
按钮就会跳转至文章详情页。右侧展示的是相关的文章,下面的表格中展示了当前网页的一些元信息。
详情页中的人名、地名、机构名称都是可以点击的,之后将跳转至相关信息分析页面,可以看出人物、地点之间的关联关系。
修复BUG:
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm
此版本中新增功能如下:
修复了如下BUG:
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm
Gather Platform第一个正式版本发布,相较之前的版本,Gather Platform删除了对于Elasticsearch的依赖,做成可选的配置,默认将网页输出至本地磁盘的文件中. 预编译版本及相关依赖下载地址: 链接:https://pan.baidu.com/s/1i4IoEhB 密码:v3jm