Nutch學習之Win7環境下在eclipse中搭建Nutch+solr+tomcat

    Nutch學習之Win7環境下在eclipse中搭建Nutch+solr+tomcat(一)

    最近,因爲工作的需要,要獲取一些旅遊景點的信息(主要是某省的旅遊景點,大大小小大概有幾千個)。在網上查閱了相關資料後,果斷選擇了Nutch(至於爲什麼,我也說不出來,可能就是眼緣吧 ^_^)。完成工作後,有點時間就把自己的工作記錄下來,以便以後查閱!

    當然第一步就是環境的搭建了。我所用的是Win7環境,故搭建起來比較繁瑣。就我瞭解Linux下會很方便。這一節將介紹在win7環境下eclipse中搭建Nutch的方法,爲以後進行Nutch二次開發做好準備工作。

一、軟件及環境

1. 操作系統: Win7操作系統
2. nutch版本:apache-nutch-1.4-bin.zip
3. solr版本:apache-solr-3.5.0.zip
4. Tomcat版本:apache-tomcat-7.0.54-windows-x86.zip
5. eclipse版本:elipse-jee-indigo-SR1-win32.zip
6.  jdk版本:jdk1.7.0_07
7. cygwin:
8. Ant版本:apache-ant-1.8.3-bin.zip

1.1 JDK安裝

   jdk安裝方法很簡單,這裏不再贅述,記得最後要進行環境變量的配置!

1.2 cygwin安裝配置

    cygwin安裝有兩種方式,一種是直接下載安裝包,還有一種是在線安裝,我選擇的是後一種。由於Nutch是在hadop基礎上的,而hadoop是在Linux環境下運行的,故在Windows下安裝Nutch,必須安裝cygwin來模擬Linux。
安裝過程不是很複雜,注意幾點就可以了:因爲我是在線安裝,故應選擇Install from Internet ;進入“select packages”對話框時,要選擇相應的包,默認時是沒有添加的,必須保證“Net Category”下的“OpenSSL”被安裝,如下圖所示:

如果還打算在eclipse 上編譯Hadoop,則還必須安裝“Base Category”下的“sed”,如
下圖所示:

另外,還建議將“Editors Category”下的vim安裝,以方便在Cygwin 上直接修改配置文件,如下圖所示:

下面就簡單了,直接“下一步”,然後選擇一個鏡像安裝。
接下來就是cygwin的環境變量配置。其實,就是將F:\Cygwin\bin添加到Path環境變量中,即可。
驗證是否安裝成功,可以使用命令:cygcheck -c cygwin,如果出現以下畫面,就說明安裝成功!


1.3 Ant安裝

   將apache-ant-1.8.3-bin.zip解壓到F:\NutchWorkPlat並重命名爲ant,接下來配置環境變量即可。F:\NutchWorkPlat\ant\bin和F:\NutchWorkPlat\ant\lib添加到Path環境變量中。

1.4 eclipse 及插件安裝

    在官網下載一個eclipse,無需安裝,只需把它解壓即可,我這裏解壓到 F:\NutchWorkPlat\eclipse 打開即可。
下面在eclipse中安裝相關的插件
IvyDE安裝配置:所需的jar包目錄如下

把“org.apache.ivyde.eclipse_2.2.0.final-201311091524-RELEASE.jar”複製到Eclipse安裝目錄的“plugins”中。
把“org.apache.ivyde.feature_2.2.0.final-201311091524-RELEASE.jar”解壓到Eclipse安裝目錄的“features”中。
把“org.apache.ivy.eclipse.ant_2.3.0.final_20130110142753.jar”和“org.apache.ivy_2.3.0.final_20130110142753.jar”複製到Eclipse安裝目錄的“plugins”中
把“org.apache.ivy.feature_2.3.0.final_20130110142753.jar”解壓到Eclipse安裝目錄的“features”中。
完成以上步驟之後,重啓Eclipse,打開Window -> preference對話框裏看到ivy一欄;打開Help -> About Eclipse -> Installation-> Plug-ins列表裏也可以看到兩個ivy,一個ivyDe。

1.5 Tomcat安裝配置

    將apache-tomcat-7.0.54-windows-x86.zip解壓到F:\NutchWorkPlat ,並重命名爲tomcat。進入“E:\NutchWorkPlat\tomcat\bin”點擊“startup.bat”,tomcat會啓動。然後在瀏覽器中輸入http://localhost:8080,會出現以下畫面:

接着安裝Tomcat的Eclipse插件,並讓Eclipse與Tomcat結合,把“tomcatPluginV33.zip”後的“com.sysdeo.eclipse.tomcat_3.3.0”複製到“E:\NutchWorkPlat\eclipse\plugins”中,然後重啓Eclipse。
打開Windowpreference對話框裏看到tomcat一覽,點擊tomcat,把剛纔解壓的tomcat進行關聯,操作如下。

此時eclipse界面中會出現,點擊Start Tomcat,在控制檯會出現tomcat啓動的相關信息,再在瀏覽器輸入http://localhost:8080,查看tomcat啓動情況。
這個我在配置的時候,最後發現在eclipse的界面中沒有出現三個小貓按鈕,查其原因:因爲我的eclipse是下載了一個直接解壓後就能用的包。所以只需把elipse安裝目錄下的configuration裏面的東西都刪掉,再重新從壓縮包裏解壓出相應的目錄即可。分析原因可能是因爲程序在啓動時,沒有把新解壓進去的tomcat插件configure,所以導致始終不能出現tomcat圖標。
下一篇將介紹,將nutch和solr部署到eclipse中......

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章