我正在使用Apache Nutch 1.10来抓取网页并提取页面中的内容.一些链接包含在ajax调用时加载的动态内容. Nutch无法抓取并提取ajax的动态内容.我怎么解决这个问题?有什么解决方案吗?如果是,请帮助我解答.
提前致谢.
解决方法:
大多数Web爬网程序库都不提供开箱即用的javascript呈现.您通常必须插入另一个提供js渲染的库或产品,如Selenium或PhantomJS.
这是一个tutorial using nutch and Selenium.
2023-01-07 20:07:55
我正在使用Apache Nutch 1.10来抓取网页并提取页面中的内容.一些链接包含在ajax调用时加载的动态内容. Nutch无法抓取并提取ajax的动态内容.我怎么解决这个问题?有什么解决方案吗?如果是,请帮助我解答.
提前致谢.
解决方法:
大多数Web爬网程序库都不提供开箱即用的javascript呈现.您通常必须插入另一个提供js渲染的库或产品,如Selenium或PhantomJS.
这是一个tutorial using nutch and Selenium.