nutch 1.7导入Eclipse

2021-07-11 06:19:33

1.下载Nutch1.7的包 apache-nutch-1.7-src.zip，解压之后应该包括 bin，conf，src等目录

2.将解压之后的 apache-nutch-1.7 文件夹放到eclipse的workspace中

3.创建工程(工程类型是 java Project from existing Ant Buildfile) 选择apache-nutch-1.7/build.xml, Project Name为apache-nutch-1.7

4.右键 conf目录 bulidPath --> use as sourceFolder,并修改项目的编码方式为UTF8

5. 修改conf下的nutch-site.xml，在configuration标签对中添加如下代码:

<name>http.agent.name</name>

</property>

6. 用ant编译build.xml,勾选jar, job 和runtime(默认就勾选上了)

7. 将生成的build/ jar job plugins复制到根目录下面

注意，每次修改了conf目录中的配置文件，必须重新编译，重新把jar job plugins复制一份，修改才能生效

.在工程的根目录下建立urls文件夹，其中新建一个seed.txt文件,里边就是我们需要爬取的目标网站，如果需要爬多个网站，每个网站占一行

9.修改crawl-urlfilter.txt,只过滤我们想要的网站(下边的正则表达式表示只过滤以.163结束的URL地址)

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/

10.手动运行 org.apache.nutch.crawl包里边的Crawl.java 需要一下的参数

Usage: Crawl <urlDir> -solr <solrURL> [-dir d] [-threads n] [-depth i] [-topN N]

urlDir指的是需要爬取的url地址(就是上边我们建立的urls文件夹里seed.txt里的URL)这里我们写 urls

sorlURL是slor服务的地址，暂时可以不管

-dir是爬取之后的文件存放的位置我们可以再建一个和urls平级的文件夹 dir

-threads 是抓取的时候启动的线程的数量

-depth 指的是抓取的深度

-topN 每次抓取的最大page数量

为Crewl.java 添加如下运行参数 Crawl urls -dir dir -threads 2 -depth 3 -topN 5 然后就可以抓取了

在windows下可能会遇到的问题：

1 fail to set permissions of path\ staging 0700

nutch1.4往上的版本会有这个问题，hadoop设置的文件权限问题，linux下没有问题，

解决的办法参看CSDN的这篇文章：http://blog.csdn.net/mengfei86/article/details/8155544 修改一下Hadoop-core1.2.0的源代码，注释掉检查文件权限的那段代码，重新编译一下。替换掉apache-nutch-1.7/build/lib下的Hadoop-core-1.2.0.jar即可。

码农公寓

1 fail to set permissions of path\ staging 0700

相关文章