AbotX 2.1.12 Ultimate
一个强大的 C# 网络爬虫,使高级爬虫功能易于使用。AbotX通过提供一组强大的包装器和扩展 来构建在开源Abot C# Web Crawler之上,Ω578867473
同时抓取多个站点,暂停/恢复实时抓取,在处理之前渲染 javascript,简化的可插拔性/可扩展性,避免被网站屏蔽,自动调整速度/并发性
并行爬虫引擎
爬虫实例可以快速爬取单个站点。但是,如果您必须快速爬取 10,000 个站点,则需要 ParallelCrawlerEngine。它允许您同时抓取可配置数量的站点以最大化吞吐量。
轻松覆盖
Easy Override 允许您在易于使用的对象包装器中轻松插入关键接口的任何实现,该包装器为您处理嵌套依赖项。不管有多深。
暂停和恢复
有时您可能需要暂时暂停爬网以清除计算机上的磁盘空间或运行资源密集型实用程序。无论出于何种原因,您都可以自信地暂停和恢复爬虫,它会像什么都没发生一样继续运行。
Javascript 渲染
当今互联网上的许多网页都使用 javascript 来创建最终页面渲染。大多数网络爬虫不呈现 javascript,而只是处理服务器发回的原始 html。使用此功能在处理之前呈现 javascript。
自动节流
您抓取的大多数网站都无法或不会处理网络爬虫的负载。如果被抓取的网站显示出压力或不愿响应 http 请求频率的迹象,自动限制会自动减慢抓取速度。
自动调节
当您要抓取/处理的网站都需要不同级别的机器资源时,很难预测您的机器可以处理什么。自动调优会自动监控主机的资源使用情况,并调整爬取速度和并发性以最大限度地提高吞吐量而不会超出它。