操作系统:Windows 10专业版 
ANT版本:apache-ant-1.9.7-bin.zip 
JDK版本:jdk-8u65-windows-x64.exe 
Solr版本:solr-4.9.1.zip 
Nutch版本:apache-nutch-1.6-bin.tar.gz 
Tomcat版本:apache-tomcat-9.0.0.M8-windows-x64.zip 
Eclipse版本:eclipse-jee-mars-1-win32-x86_64.zip 
下面是安装的Eclipse插件:
IvyDE插件: 
Ivy: 
plugins: 
org.apache.ivy.eclipse.ant_2.4.0.final_20141213170938.jar 
org.apache.ivy_2.4.0.final_20141213170938.jar 
features: 
org.apache.ivy.feature_2.4.0.final_20141213170938.jar
IvyDE: 
plugins:org.apache.ivyde.eclipse_2.2.0.final-201311091524-RELEASE.jar 
features:org.apache.ivyde.feature_2.2.0.final-201311091524-RELEASE.jar
双击”jdk-8u65-windows-x64.exe”即可进行安装,我们一路点击Next,默认安装在C盘,下面是我们安装完JDK的目录。 
    
下面配置JAVA环境变量:右击->我的电脑->属性->高级系统设置->高级->环境变量。
JAVA_HOME=C:\Program Files\Java\jdk1.8.0_65如下: 
 
备注:JAVA_HOME的变量值后千万不能加分号。
CLASSPATH=.;%JAVA_HOME%\lib;%JAVA_HOME%\jre\lib如下: 
 
备注:要加圆点.表示当前路径。
NUTCH_JAVA_HOME=%JAVA_HOME%PATH=……;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin如下: 
 
备注:追加时,用”;”与前面的值进行分割。
把”apache-ant-1.9.7-bin.zip”解压到”C:\NutchWorkPlat”中,并重新命名为”ant”。 
下面配置ANT环境变量:右击->我的电脑->属性->高级系统设置->高级->环境变量。
ANT_HOME= C:\NutchWorkPlat\ant如下: 
 
备注:ANT_HOME的变量值后千万不能加分号。
PATH=……;%ANT_HOME%\bin;%ANT_HOME%\lib如下: 
 
备注:追加时,用”;”与前面的值进行分割。
把"org.apache.ivyde.eclipse_2.2.0.final-201311091524-RELEASE.jar"复制到Eclipse安装目录的"plugins"中。
把"org.apache.ivyde.feature_2.2.0.final-201311091524-RELEASE.jar"解压到Eclipse安装目录的"features"中。
备注:是解压之后放到目录"features"中,而不是直接把jar包放到里面,不然启动Eclipse后,打开WindowàShow ViewàError log后,提示"Unable to find feature.xml in directory"。
把”org.apache.ivy.eclipse.ant_2.4.0.final_20141213170938.jar”和”org.apache.ivy_2.4.0.final_20141213170938.jar”复制到Eclipse安装目录的”plugins”中。
把”org.apache.ivy.feature_2.4.0.final_20141213170938.jar”解压到Eclipse安装目录的”features”中。
完成以上步骤之后,重启Eclipse,打开Windowàpreference对话框里看到ivy一栏;打开Help->About Eclipse->Installation->Plug-ins列表里也可以看到两个ivy,一个ivyDe。 
  
把”apache-tomcat-9.0.0.M8-windows-x64.zip”解压到”C:\NutchWorkPlat”目录下,并重新命名为”tomcat”。 
进入”C:\NutchWorkPlat\tomcat\bin”点击”startup.bat”,然后出现如下界面。 
然后在浏览器输入”http://localhost:8080/“,出现如下界面,表示安装成功。 
正Eclipse->Help->Install New Software里面,选择Add,分别填上如下内容:
Name:Tomcat
Location:http://tomcatplugin.sf.net/update如下: 
选择OK,勾选Tomcat Plugin后选择Next进行安装: 
安装完成之后重启Eclipse。
打开Window->preference对话框里看到tomcat一栏,点击tomcat,把刚才解压的tomcat进行关联,操作如下: 
点击工具栏的”Start Tomcat”即可启动Tomcat。 
然后在Eclipse控制台会输出启动Tomcat的相关信息。 
此时可以再次在浏览器输入”http://localhost:8080/“进行验证是否启动成功。
nutch是在hadoop基础上做的,由于hadoop只在linux上运行,里面涉及到大量的操作linux程序,所以我们在Windows部署的时候必须先安装cygwin环境,模拟linux操作。
在上图所示的对话框中,直接点击”下一步”,界面出现三种安装模式: 
Install from Internet,这种模式直接从Internet安装,适合网速较快的情况; 
Download Without Installing,这种模式只从网上下载Cygwin的组件包,但不安装; 
Install from Local Directory,这种模式与上面第二种模式对应,当你的Cygwin组件包已经下载到本地,则可以使用此模式从本地安装Cygwin。
我们这里选择第一种”Install from Internet”方式进行安装,然后一直使用默认值,选择”下一步”,直到出现如下图所示对话框: 
进入”Select Packages”对话框后,其实直接点击”下一步”,进行默认安装即可,为了以后再cygwin下面搭建hadoop环境,所以安装了一些软件。 
 - OpenSSL  
 - sed  
 - vim
必须保证”Net Category”下的”OpenSSL”被安装,如下图所示: 
 
如果还打算在eclipse 上编译Hadoop,则还必须安装”Base Category”下的”sed”,如下图所示: 
另外,还建议将”Editors Category”下的vim 安装,以方便在Cygwin 上直接修改配置文件,如下图所示: 
建议安装在”Devel Category”下的subversion,如下图所示: 
当完成上述操作后,点击”Select Packages”对话框中”下一步”,进入Cygwin 安装包下载过程。
当安装完Cygwin软件之后,我们还需要对其设置它的环境变量。
CYGWIN_HOME= C:\cygwin64如下: 
PATH=……;% CYGWIN_HOME %\bin如下: 
<?xml version="1.0" encoding="UTF-8"?>
<Context docBase="C:\NutchWorkPlat\tomcat\webapps\solr.war" debug="0"
crossContext="true" >
    <Environment name="solr/home" type="java.lang.String"
   value="C:\NutchWorkPlat\tomcat\solr" override="true" />
</Context><queryResponseWriter
name="velocity"
class="solr.VelocityResponseWriter" enable="${solr.velocity.enabled:true}"/>把 enable=”${solr.velocity.enabled:true}中的true修改为false。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
    <property>
        <name>http.agent.name</name>
        <value>My Nutch Spider</value>
    </property>
    <property>
        <name>plugin.folders</name>
        <value>./src/plugin</value>
    </property>
</configuration>备注:其中”http.agent.name”和”plugin.folders”必须设置,不然会出现”Job Failure”。
Program Arguments:urls -dir data -depth 3 -threads 5 -topN 100
VM arguments:-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log通过上面的步骤之后,指定的网页已经抓取到本地了,现在我们就为我们下载的网页建立索引。
备注:如果Tomcat已经起来了,在第一步完成之后,也应该重启使其有效,如果不起动Tomcat,在建立索引时会失败。
Program Arguments:
http://localhost:8080/solr/ data/crawldb -linkdb data/linkdb data/segments/*
VM arguments:-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log 
下面是Eclipse控制台输出信息:
SolrIndexer: starting at 2016-06-18 14:45:41
Adding 352 documents
SolrIndexer: finished at 2016-06-18 14:45:56, elapsed: 00:00:14
下面就是查询结果,以XML结果显示。 
 
到目前为止,Nutch二次开发的前期工作已经准备完毕,并在上面进行简单的抓取,后面我们将对Nutch的源码以及工作原理相结合进行分析。进一步认识Nutch。
[Nutch]Nutch+Eclipse+Tomcat+Solr+Cygwin搭建Windows开发环境
原文:http://blog.csdn.net/kandy_ye/article/details/51706253