A scalable web crawler framework for Java.
Full Changelog: https://github.com/code4craft/webmagic/compare/WebMagic-0.9.1...WebMagic-0.10.0
Full Changelog: https://github.com/code4craft/webmagic/compare/WebMagic-0.9.0...WebMagic-0.9.1
Full Changelog: https://github.com/code4craft/webmagic/compare/WebMagic-0.8.0...WebMagic-0.9.0
Full Changelog: https://github.com/code4craft/webmagic/compare/WebMagic-0.7.5...WebMagic-0.7.6
Full Changelog: https://github.com/code4craft/webmagic/compare/WebMagic-0.7.3...WebMagic-0.7.5
本次更新增加了Downloader模块的一些功能。
#609 修复HttpRequestBody没有默认构造函数导致无法反序列化的bug。
#631 HttpRequestBody的静态构造函数不再抛出UnsupportedEncodingException
受检异常。
#571 Page对象增加bytes属性,用于获取二进制数据。下载纯二进制页面时,请设置request.setBinarayContent(true)
,这样对于二进制内容不会尝试转换为String,减小开销。
#629 在HttpUriRequestConverter中会自动对一些导致URI异常的字符进行转移或过滤。
#610 自动识别编码时,可以识别Content-Type中charset为大写的情况。 #627 支持为Request单独设置页面编码,兼容同一站点多种编码方式的情况。 #613 Page对象增加charset属性,其值为request/site中设置的charset,或者为自动检测的charset(未定义时)。
#606 升级jsonpath到2.4.0 #608 升级jsoup到1.10.3
此次更新修复了0.7.0-0.7.1版本的若干bug。
此次更新包含几个比较大的Bugfix,以及一些遗留问题的改进。
<html>
标签导致无法解析的情况。#589ObjectFormatter
部分,修复了ObjectFormatter无法初始化参数的bug。 #570此次更新重写了HttpClientDownloader,完善了POST等其他Http Method的支持,并重写了代理API,更加简单和便于扩展。
Request request = new Request("http://xxx/path");
request.setMethod(HttpConstant.Method.POST);
request.setRequestBody(HttpRequestBody.json("{'id':1}","utf-8"));
ProxyProvider
,支持自由扩展HttpClientDownloader httpClientDownloader = new HttpClientDownloader();
SimpleProxyProvider proxyProvider = SimpleProxyProvider.from(new Proxy("127.0.0.1", 1087), new Proxy("127.0.0.1", 1088));
httpClientDownloader.setProxyProvider(proxyProvider);
SimpleHttpClient simpleHttpClient = new SimpleHttpClient();
GithubRepo model = simpleHttpClient.get("github.com/code4craft/webmagic",GithubRepo.class);