Gecco Versions Save

Easy to use lightweight web crawler(易用的轻量化网络爬虫)

1.1.0

8 years ago

1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理 2.HttpClientDownloader支持类似12306网站非信任ssl证书 3.JsonBean支持嵌套解析 4.修复部分网站302无法跳转的bug 5.优化debug日志输出

1.0.9

8 years ago

1、@Image注解增加图片自动下载到本地的方法@Image(download="d:/gecco/jd/img") 2、GeccoEngine改为线程方式,通过start()支持非阻塞方式运行 3、支持debug模式,GeccoEngine.debug(true) 4、简化spring项目启动Gecco的方式,详细请查看:http://www.geccocrawler.com/sysc-6/ 5、文档有较大的完善,http://www.geccocrawler.com/tag/sysc/ 6、非循环模式等待执行完毕后释放httpclient、jmx等所有资源 7、修复demo中的bug

1.0.8

8 years ago

1.GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取 2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置 3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件 4.HttpResponse增加释放raw的方法 5.GeccoEngine增加close方法,爬取结束后可以释放downloader下载资源

1.0.7

8 years ago

增加jmx监控,监控指标包括: 1、爬虫基本信息 2、下载监控 3、内容抽取监控

1.0.6

8 years ago

1、修改request的原始流raw被关闭的bug 2、将downloader关联到gecco上,@Gecco增加downloader和timeout选项

1.0.5

8 years ago

1、修复redirect的相对url的bug 2、增加了支持htmlunit的插件 3、增加抓取JD全部商品的demo

1.0.4

8 years ago

1、简单易用,使用jquery的css selector风格抽取元素 2、支持页面中的异步ajax请求 3、支持页面中的javascript变量抽取 4、利用Redis实现分布式抓取 5、支持下载时UserAgent随机选取 6、支持下载代理服务器随机选取 7、支持结合Spring开发业务逻辑

1.0.3

8 years ago

1、支持多userAgent随机轮询 2、支持多proxy随机轮询 3、支持302跳转 4、抓取间隔时间在1秒左右随机变化 5、将默认的downloader改成httpclient

1.0.2

8 years ago

1、增加自定义PipelineFactory功能 2、修改Schduler策略,对于start请求采用深度优先策略,对于start派生出来的子请求采用广度优先策略