转载自:http://peigang.iteye.com/blog/1563288
从nutch-.3开始 本地抓取(单击) 和 分布式抓取(集群)所使用的配置文件和命令单独分开。
资源:
下载地址:http://archive.apache.org/dist/nutch/1.7/
apache-nutch-1.7-bin.tar 这个是部署的可执行的
apache-nutch-1.7-src.tar 这个用于导入eclipse进行开发
Ant 后会生成两个文件夹
apache-nutch-1.7\build
apache-nutch-1.7\runtime
将
build\apache-nutch-1.7.jar
build\apache-nutch-1.7.job
apache-nutch-1.7\runtime
复制到apache-nutch-1.7-bin.tar解压出来的文件夹。
运行的命令:
单机:runtime/local/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100
集群: runtime/deploy/bin/nutch crawl urls -dir crawl -depth 2 -threads 3 -topN 100
异常:
依然会Job failed!
解决方案:
修改 \apache-nutch-1.7\runtime\local\conf\nutch-default.xml
apache-nutch-1.7\runtime\local\plugins
类似之前1.2版本的 job failed ,只是这次修改的是local下的单机版专用的conf文件
存储位置:
http://10.0.0.75/newSvn/Search/CrawlerEngine/Platform/Distribute/nutch/Codes/branches/apache-nutch-1.7.rar