转自:
http://www.itshehui.com/forum.php?mod=viewthread&tid=320&extra=page%3D1要的运行环境:
1、Tomcat(Web服务器),可以下载最新的Tomcat6
2、Jdk(java sdk),下载java6
3、cygwin(在windows下运行unix shell command需要),下载最新版本2.578
4、Nutch,下载0.9版本
把上面的软件下载安装好,还需要设置些环境变量:
JAVA_HOME,设置成你安装的Jdk的路径,比如D:\soft\jdk6
NUTCH_JAVA_HOME,设置成和JAVA_HOME一样
TOMCAT_HOME,设置Tomcat的安装目录,比如D:\Soft\Tomcat60
把这些添加到Path中,%JAVA_HOME%\bin;TOMCAT_HOME%\bin\
CLASSPATH,添加 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
接下来还要做下面一些修改:
以下假定Nutch的安装目录是D:\soft\nutch09,Tomcat安装目录D:\Soft\Tomcat60
1、修改nutch下的conf/crawl-urlfilter.txt文件,将# accept hosts in MY.DOMAIN.NAME这行下的
MY.DOMAIN.NAME修改成你想抓取的域名,比如修改成下面这样的:
+^http://([a-z0-9]*\.)*sina.com/,表示要抓取新浪的网页
2、打开Cygwin
cd d:nutch
在此目录下执行
bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >& crawl.log
对刚才设置的网站网页进行抓取,结果保存在D:\soft\nutch09\crawled文件夹下。
3、在nutch安装目录下新建一个urls目录,在urls目录下新建一个urls.txt文件,在此文件中添加如下这样一行数据:http://www.sina.com/,注意此处添加的url地址必须是在crawl-urlfilter.txt文件指定的域名下的。
4、将D:\soft\nutch09\nutch-0.9.war改名为nutch.war,并复制到D:\Soft\Tomcat60 \webapps目录下
5、进入在Tomcat安装,在conf目录下新建一个nutch.xml文件,并输入以下内容:
<Context path="" debug="5" privileged="true" docBase="nutch"/>
6、启动Tomcat,待nutch.war解压后,打开D:\Soft\Tomcat60\webapps\nutch\WEB-INF \classes\nutch-site.xml文件,将nutch-default.xml文件中的内容粘贴到nutch-site.xml文件中,找到nutch-site文件中的searcher.dir项,将它的value值改成 D:\soft\nutch09\crawled\ ,即刚才抓取结果存放的位置;找到http.agent.name属性,value值改成Nutch;找到http.robots.agents属性,value值改成Nutch,*;找到 http.agent.description属性,value值改成Nutch Search Engineer;找到http.agent.url属性,value值改成http://lucene.apache.org/nutch/bot.html;找到http.agent.email属性,value值改成nutch-agent@lucene.apache.org;找到http.agent.version属性,value值改成Nutch-0.9
7、在D:\Soft\Tomcat60\webapps\nutch\zh\include下面新建header.jsp,把header.html文件中的内容粘贴过来,并在header.jsp最顶端添加以下内容:<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>,打开D:\Soft\Tomcat60\webapps\nutch\search.jsp文件,将<jsp:include page="<%= language + "/include/header.html"%>"/>此行中的header.html改成header.jsp,并将函数
queryfocus()中的代码注释掉
8、修改D:\Soft\Tomcat60\conf\server.xml文件,找到以下段并修改成
<Connector port="8088" protocol="HTTP/1.1" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
9、重启Tomcat,浏览器中输入:http://localhost:8088/nutch/,输入你要搜索的内容,就可以看到搜索结果了。
补记:对于要抓取多个网站的页面,以前版本需要分多个步骤才能完成,0.9版本可以不需要那么繁琐了,可以在conf/crawl- urlfilter.txt文件里添加多条网站域名Filter,然后再在urls.txt里添加上对应的域名。命令行就和抓取一个网站的一样就行了;而且要启用hadoop多个Node进行分布式抓取,只需要在相关的配置文件里配置好各个Node的相关信息,Nutch就会自动分布运行了。
分享到:
相关推荐
nutch1.4 在windows下的安装配置环境搭建
eclipse配置nutch,eclipse配置nutch
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
windows下nutch的安装配置以及与tomcat的集成.doc
NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.
nutch2.2.1安装步骤,需要自己下载以下软件: apache-ant-1.10.5-bin.tar.gz apache-nutch-2.2.1-src.tar.gz apache-tomcat-8.5.39.tar.gz jdk-8u201-linux-x64.tar.gz solr-4.10.3.zip
本来有机会接个搜索引擎项目但最终因价格问题双方谈崩为此我感到深深遗憾失去了个极好实战机 会但我不想因此放弃对搜索引擎学习和实战在...Nutch还是先从安装和使用Nutch开始吧以下是我在xp sp2环境下安装Nutch过程记录
nutch 1.4 在windows下安装配置
图解搜索引擎nutch配置,自己制作的教程。因为在网上搜索到的教程很多都是粗略,对于初学nutch搜索引擎很难配置好,所以自己亲自打造了一篇图解教程!希望你能够配置成功!
windows下安装nutch 各异常说明
Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
该文档主要介绍了nutch的安装与配置的过程,以及如何实现网内与往外的抓取。
Nutch的配置文件主要有三类: 1.Hadoop的配置文件,Hadoop-default.xml和Hadoop-site.xml。 2.Nutch的配置文件,Nutch-default.xml和Nutch-site.xml。 3.Nutch的插件的配置文件,这些插件的配置文件在加载插件的时候...
nutch配置nutch-default.xml
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
北京邮电大学研究生课程实验指导书。 在windows上配置测试Nutch 用于学习nutch配置的各种问题 分为本地抓取,局域网抓取和互联网抓取三部分
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据