java – 使用Nutch如何抓取ujng ajax的网页的动态内容?

我正在使用Apache Nutch 1.10来抓取网页并提取页面中的内容.一些链接包含在ajax调用时加载的动态内容. Nutch无法抓取并提取ajax的动态内容.我怎么解决这个问题?有什么解决方案吗?如果是,请帮助我解答.

提前致谢.

解决方法:

大多数Web爬网程序库都不提供开箱即用的javascript呈现.您通常必须插入另一个提供js渲染的库或产品,如Selenium或PhantomJS.

这是一个tutorial using nutch and Selenium.

上一篇:Java基础-SSM之Spring快速入门篇


下一篇:04 Hadoop思想与原理