Nutch導入eclipse

Nutch導入eclipse
    最近在開始研究nutch剛把它在eclipse中跑起來,方便研究源碼吧。本文針對的是nutch1.1版本。如有不對的地方歡迎指證。
直接導入eclipse.1.首先下載nutch的最新版本, http://apache.etoak.com/nutch/ 本文寫作時nutch的最新版本爲1.1。所以本文以下所述均針對nutch1.1。(注意筆者在下載時發現該版本的src包有問題。換成bin包後正常)
2.在eclipse中新建立一個Java Project. 名字自己定義(Nutch). 選擇"Create project from existing source",指向自己nutch-1.0的目錄.

3.單點finish完成。這時就把nutch的整個工程全部導入到了 eclipse中了。


4.此時還需將conf文件下的所有配置文件加入到classPath中。
右鍵conf――>Build PathàUse as Source Folder
5.修改配置文件
conf/nutch-site.xml    <configuration>中加入以下內容。
<property>
           <name>http.agent.name</name>
           <value>test</value>
           <description>
                 HTTP 'User-Agent' request header. MUST NOT be empty - please
                 set this to a single word uniquely related to your
                 organization. NOTE: You should also check other related
                 properties: http.robots.agents http.agent.description
                 http.agent.url http.agent.email http.agent.version and set
                 their values appropriately.
           </description>
      </property>
      <property>
           <name>http.agent.description</name>
           <value>test</value>
           <description>
                 Further description of our bot- this text is used in
                 the User-Agent header. It appears in parenthesis after the
                 agent name.
           </description>
      </property>
      <property>
           <name>http.agent.url</name>
           <value>www.163.com</value>
           <description>
                 A URL to advertise in the User-Agent header. This will
                 appear in parenthesis after the agent name. Custom dictates
                 that this
                 should be a URL of a page explaining the purpose and
                 behavior of this
                 crawler.
           </description>
      </property>
      <property>
           <name>http.agent.email</name>
           <value>[email protected]</value>
           <description>
                 An email address to advertise in the HTTP 'From' request
                 header and User-Agent header. A good practice is to mangle     this
                 address (e.g. 'info at example dot com') to avoid spamming.
           </description>
      </property>
conf/nutch-default.xml
<property>
            <name>plugin.folders</name>
  <value>./src/plugin</value><!—修改部分-->
conf/crawl-urlfilter.txt
    #accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/      ---寫入想抓取的網站正則表達式
6.在工程的根目錄下建立urls文件夾,其中新建一個url.txt文件,該文件中寫入想抓取的網站URL,如:http://www.163.com/
7.執行nutch的 crawl命令。

至此nutch導入eclipse中運行成功。

手動複製導入nutch代碼到eclipse中.(目錄結構更清楚)通過以上方式雖然可以成功的將nutch導入eclipse中,但工程目錄結構極爲不適合,所以筆者又以手動的方式將nutch的源代碼導入eclipse中,使目錄更清晰。具體步驟如下:
1.在eclipse中新建立一個Java Project. 名字自己定義(Nutch). 選擇"Create New project in WorkSpace".點擊完成。
2.將解壓後的nutch目錄下的\src\java\中的代碼全部複製到新建工程中的src下。
將解壓後的nutch目錄下的lib、plugins、conf三個文件夾複製到新建工程的根目錄下(與src同級)
3.右鍵工程properties, 切換到"Libraries"選擇"Add Class Folder..." 按鈕,從列表中選擇"conf". 將 conf加入到classpath中。

4.修改配置文件
(1)conf/nutch-site.xml 同上.
(2)conf/nutch-default.xml
<property>
         <name>plugin.folders</name>
           <value> ./plugins</value><!—小心這裏路徑變了,筆者曾在此費了大半天時間-->
(3) conf/crawl-urlfilter.txt 同上。
(4)新建urls。同上


佈署nutch搜索到tomcat.1.安裝WAR文件
     將WAR文件$nutch$/nutch-*.war拷貝到目錄$tomcat$/webapps/.這樣就可以通過URL: http://127.0.0.1:8080/nutch 來打開搜索主頁面。
注意:如果你的tomcat中的默認JDK不是1.6。啓動tomcat時就會報“錯誤的版本”的異常。這時就需要修改tomcat的JDK版本。

配置tomcat使用特定的java sdk版本的方法非常簡單:
1、修改tomcat/bin/catalina.bat,增加 set JAVA_HOME=XXXXXX,其中XXXXXX爲jdk 的路徑,如c:\j2sdk1_6
2、修改tomcat/bin/setclasspath.bat,同樣增加 set JAVA_HOME=XXXXXX
其實這個問題是很初級的,但是一般人常常忘了步驟2,導致的結果就是特定版本的java啓動tomcat,但是jdk用的還是系統默認的(在系統的JAVA_HOME中的設置)。

2. 指定搜索數據目錄
需要爲搜索服務程序指定數據文件的位置。
假設WAR文件保存爲nutch.war,重啓動Tomcat,解壓縮成目錄$tomcat$/webapps/nutch/。
打開文件$tomcat$/webapps/nutch/WEB-INF/classes/nutch-site.xml,添加searcher.dir屬性,例如數據文件保存在/local/nutch/crawl目錄中,則添加:
   <property>
      <name>searcher.dir</name>
      <value>/local/nutch/crawl</value>
   </property>
   這樣search.jsp就知道數據文件的在哪裏了.
==============================================

另一版本去百度或谷歌搜索“win7下cygwin+MyEclipse8.5+Nutch1.2+Tomcat6.26安裝配置”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章