Releases · xuxueli/xxl-crawler · GitHub

15 Oct 18:03

xuxueli

XXL-CRAWLER v1.3.0，分布式爬虫框架 Latest

Latest

1、开源协议：由 GPLv3 调整为 Apache2.0 开源协议；
2、版本升级：依赖版本升级，如jsoup、htmlunit、selenium等;
3、代码重构：优化代码结构，提升系统可维护性；

Assets 2

24 Oct 00:25

xuxueli

XXL-CRAWLER v1.2.2，分布式爬虫框架

新特性

1、系统底层重构，规范包名；
2、采集线程白名单过滤优化，避免冗余失败重试；
3、增强JS渲染方式采集能力，原生新提供 "SeleniumPhantomjsPageLoader"，支持以 "selenisum + phantomjs" 方式采集页面数据；
4、支持采集非Web页面，如JSON接口等，直接输出响应数据；选择 "NonPageParser" 即可；

Assets 2

07 Feb 11:10

xuxueli

XXL-CRAWLER v1.2.1，面向对象的分布式爬虫框架

新特性

1、JS渲染：支持JS渲染方式采集数据，可参考 "爬虫示例6"；
2、抽象并设计PageLoader，方便自定义和扩展页面加载逻辑，如JS渲染等。底层提供 "JsoupPageLoader(默认/推荐)"，"HtmlUnitPageLoader"两种实现，可自定义其他类型PageLoader如 "Selenium" 等；
3、修复Jsoup默认加载1M的限制；
4、爬虫线程中断处理优化；

Assets 2

14 Dec 09:30

xuxueli

XXL-CRAWLER v1.2.0，面向对象的分布式爬虫框架

版本新特性：

1、爬虫Builder底层API优化；
2、支持设置请求Headers；
3、支持设置多UserAgent轮询；
4、失败重试：支持请求失败后主动重试，并支持设置重试次数；
5、动态参数：支持运行时动态调整请求参数；
6、分布式支持：支持自定义RunData(运行时数据模型)并结合Redis或DB共享运行数据来实现分布式。默认提供LocalRunData单机版爬虫。

Assets 2

08 Nov 08:07

xuxueli

XXL-CRAWLER v1.1.0，面向对象的分布式爬虫框架

版本特性：

1、页面默认cssQuery调整为html标签；
2、升级Jsoup至1.11.1版本；
3、修复PageVO注解失效的问题；
4、属性注解参数attributeKey调整为selectVal；
5、代理IP：对抗反采集策略规则WAF；
6、动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

Assets 2

31 Oct 12:06

xuxueli

XXL-CRAWLER v1.0.0，面向对象的分布式爬虫框架

版本特性：

1、面向对象：通过VO对象描述页面信息，提供注解方便的映射页面数据，爬取结果主动封装Java对象返回；
2、多线程；
3、扩散全站：将会以现有URL为起点扩散爬取整站；
4、去重：防止重复爬取；
5、URL白名单：支持设置页面白名单正则，过滤URL；
6、异步：支持同步、异步两种方式运行；
7、自定义请求信息，如：请求参数、Cookie、userAgent等；
8、轻量级：底层实现仅依赖jsoup，简洁高效；
9、超时控制：支持设置爬虫请求的超时时间；
10、主动停顿：爬虫线程处理完页面之后进行主动停顿，避免过于频繁被拦截；
11、单个页面支持抽取多个PageVO；

Assets 2