Gsh199449 Spider Versions Save

A configurable web spider with a easy-to-use web console

V0.6

7 years ago

新功能:

  • 新增ajax网页渲染器,ajax网页轻松采集;

  • 升级ES至5.2版本;

  • 修正一些BUG;

预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。

V0.5.1

7 years ago

新功能:

  • 新增定时任务循环,一次提交,无人值守,自动采集;

  • 新增jetty支持,不再强制使用tomcat作为容器;

  • 优化模板无法采集到数据时的提示;

  • 修正去重策略的问题;

预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。

V0.4

7 years ago

新功能:

  • 新增爬虫模板批量启动,在爬虫模板管理界面可以勾选多个爬虫批量启动。

修复BUG:

  • 修正模态框堆叠问题;
  • 修正更新webmagic版本带来的jar包冲突问题;
  • 修正默认分类字段无效的问题;
  • 修正导出数据内存溢出问题。

预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。

V0.3

7 years ago

新功能:

  • 升级内核至Webmagic 0.6版本;

  • 增加文章详情页面,可以查看相关网页、该网页的命名实体词,抓取时间、动态字段等等元信息;

  • 增加HTTP代理配置;

  • 完善了文档,增加了二次开发接口说明、更多的常见问题解答;

    点击每一篇文章后面的 Go 按钮就会跳转至文章详情页。右侧展示的是相关的文章,下面的表格中展示了当前网页的一些元信息。

    showWebpageById

    详情页中的人名、地名、机构名称都是可以点击的,之后将跳转至相关信息分析页面,可以看出人物、地点之间的关联关系。

    showRelatedInfo

修复BUG:

  • 修正停止爬虫时的空指针异常
  • 增加配置文件读取时的编码配置
  • 修复了Windows的适配问题
  • 修复了大数据量导出时的内存溢出问题

预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm

V0.2

7 years ago

此版本中新增功能如下:

  • 数据导出功能,方便进行后期数据分析;
  • 更新了爬虫模板配置系统,简化配置;
  • 升级Webmagic到0.6.0版本;

修复了如下BUG:

  • 修复了不使用ES时的空指针问题;
  • 去除示例模板中的ID;

预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm

V0.1

7 years ago

Gather Platform第一个正式版本发布,相较之前的版本,Gather Platform删除了对于Elasticsearch的依赖,做成可选的配置,默认将网页输出至本地磁盘的文件中. 预编译版本及相关依赖下载地址: 链接:https://pan.baidu.com/s/1i4IoEhB 密码:v3jm