XXL-CRAWLER v1.2.1,面向对象的分布式爬虫框架
新特性
1、JS渲染:支持JS渲染方式采集数据,可参考 "爬虫示例6";
2、抽象并设计PageLoader,方便自定义和扩展页面加载逻辑,如JS渲染等。底层提供 "JsoupPageLoader(默认/推荐)","HtmlUnitPageLoader"两种实现,可自定义其他类型PageLoader如 "Selenium" 等;
3、修复Jsoup默认加载1M的限制;
4、爬虫线程中断处理优化;
1、JS渲染:支持JS渲染方式采集数据,可参考 "爬虫示例6";
2、抽象并设计PageLoader,方便自定义和扩展页面加载逻辑,如JS渲染等。底层提供 "JsoupPageLoader(默认/推荐)","HtmlUnitPageLoader"两种实现,可自定义其他类型PageLoader如 "Selenium" 等;
3、修复Jsoup默认加载1M的限制;
4、爬虫线程中断处理优化;