Xxl Crawler Versions Save

A distributed web crawler framework.（分布式爬虫框架XXL-CRAWLER）

1.3.0

1 year ago

1、开源协议：由 GPLv3 调整为 Apache2.0 开源协议；
2、版本升级：依赖版本升级，如jsoup、htmlunit、selenium等;
3、代码重构：优化代码结构，提升系统可维护性；

v1.2.2

5 years ago

新特性

1、系统底层重构，规范包名；
2、采集线程白名单过滤优化，避免冗余失败重试；
3、增强JS渲染方式采集能力，原生新提供 "SeleniumPhantomjsPageLoader"，支持以 "selenisum + phantomjs" 方式采集页面数据；
4、支持采集非Web页面，如JSON接口等，直接输出响应数据；选择 "NonPageParser" 即可；

v1.2.1

6 years ago

新特性

1、JS渲染：支持JS渲染方式采集数据，可参考 "爬虫示例6"； 2、抽象并设计PageLoader，方便自定义和扩展页面加载逻辑，如JS渲染等。底层提供 "JsoupPageLoader(默认/推荐)"，"HtmlUnitPageLoader"两种实现，可自定义其他类型PageLoader如 "Selenium" 等； 3、修复Jsoup默认加载1M的限制； 4、爬虫线程中断处理优化；

v1.2.0

6 years ago

版本新特性：

1、爬虫Builder底层API优化；
2、支持设置请求Headers；
3、支持设置多UserAgent轮询；
4、失败重试：支持请求失败后主动重试，并支持设置重试次数；
5、动态参数：支持运行时动态调整请求参数；
6、分布式支持：支持自定义RunData(运行时数据模型)并结合Redis或DB共享运行数据来实现分布式。默认提供LocalRunData单机版爬虫。

v1.1.0

6 years ago

版本特性：

1、页面默认cssQuery调整为html标签；
2、升级Jsoup至1.11.1版本；
3、修复PageVO注解失效的问题；
4、属性注解参数attributeKey调整为selectVal；
5、代理IP：对抗反采集策略规则WAF；
6、动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

v1.0.0

6 years ago

版本特性：

1、面向对象：通过VO对象描述页面信息，提供注解方便的映射页面数据，爬取结果主动封装Java对象返回；
2、多线程；
3、扩散全站：将会以现有URL为起点扩散爬取整站；
4、去重：防止重复爬取；
5、URL白名单：支持设置页面白名单正则，过滤URL；
6、异步：支持同步、异步两种方式运行；
7、自定义请求信息，如：请求参数、Cookie、userAgent等；
8、轻量级：底层实现仅依赖jsoup，简洁高效；
9、超时控制：支持设置爬虫请求的超时时间；
10、主动停顿：爬虫线程处理完页面之后进行主动停顿，避免过于频繁被拦截；
11、单个页面支持抽取多个PageVO；