Gecco Versions Save

Easy to use lightweight web crawler(易用的轻量化网络爬虫)

1.3.0

6 years ago

1.新增bigDecimalTypeHandle 2.使用自定义的正则表达式规则。类似Jersey的@Path语法。如:http://test.com/{code:[0-9]+}.html 3.升级jdk到1.8 4.新增bigDecimalTypeHandle

1.2.10

6 years ago

1.支持jsonbean嵌套htmlbean 2.修改HttpPostRequest的field为String类型 3.@RequestParameter注解增加对HttpPost的field的支持

1.2.5

7 years ago

1、@Gecco注解支持多个matchUrl,一个spiderbean可以同时匹配多种形式的url 2、jd地址全部升级为https,jd demo改成https 3、升级cglib,fastjson,jsoup等到最新版本 4、整理javadoc,去除错误和警告

1.2.4

7 years ago

1、修复GeccoEngine生命周期EventListener,onStart无效的bug 2、修改图片自动下载方式,对@Image提供单独的渲染器ImageFieldRender 3、修复大规模爬取时有时httpclient阻塞的bug 4、优化异常处理,RenderException将不会中断渲染和pipeline处理,而是记录日志 5、升级guava到最新的19.0版本

1.2.3

7 years ago

1.增加proxysLoader,支持自定义代理ip加载,FileProxys代替Proxys 2.增加派生队列和初始队列上下文,DeriveSchedulerContext代替SchedulerContext,增加StartSchedulerContext提供初始化队列运行时入队机制 3.添加引擎生命周期监听器(米林pull request) 4.删除警告信息,带有注解完善(米林pull request) 5.增加停止爬虫engineStop()和是否开启代理proxy()API 6.添加自定义注解和渲染支持(米林pull request)

1.2.2

7 years ago

1.修复UniqueSpiderScheduler的排序错误 2.DynamicGecco稳定版,支持动态改变抓取规则 3.JsonPipeline,提供运行时生产SpiderBean时使用 4.支持tomcat等非双亲委派模型的ClassLoader

1.2.0

7 years ago

1、HttpClientDownloader保证inputstream能重复使用,@shangjian提供修改思路 2、支持一个Before/AfterDownloader对应多个SpiderBean 3、Gecco的动态编程是新版本的核心功能,Gecco支持动态生成SpiderBean包括类,属性,注解。可以不需要预先定义SpiderBean即可完成抓取。详细情况可以参考http://my.oschina.net/u/2336761/blog/706041

1.1.3

7 years ago

1.处理jsonp的时候分号的问题修复 2.支持自定义下载重试次数定义,GeccoEngine.retry(count) 3.HttpClientDownloader支持response的Set Cookie自动存储 4.修改以支持JSON的JsonBean递归解析 by shangjian

1.1.2

7 years ago

1.更新fastjson,jsoup,cglib最新版本 2.jsonp判断方式修改 3.@Html支持outer 4.修改jd的demo 5.相同matchUrl 给出警告 6.修改UniqueSpiderScheduler判断唯一性的bug(尽快更新)

1.1.1

7 years ago

1.@Gecco不填写matchUrl时,支持匹配所有格式url的通用抓取 2.默认使用UniqueSpiderScheduler队列管理避免重复HttpRequest的抓取 3.修改table tr列表不能解析的问题 4.增加@Ajax请求支持Html格式内容解析