Nutch全文搜索學習筆記

Nutch 1.3 學習筆記1
--------------------

1. Nutch是什麼?

Nutch是一個開源的網頁抓取工具，主要用於收集網頁數據，然後對其進行分析，建立索引，以提供相應的接口來對其網頁數據進行查詢的一套工具。其底層使用了Hadoop來做分佈式計算與存儲，索引使用了Solr分佈式索引框架來做，Solr是一個開源的全文索引框架，從Nutch 1.3開始，其集成了這個索引架構

2. 在哪裏要可以下載到最新的Nutch?

在下面地址中可以下載到最新的Nutch 1.3二進制包和源代碼
http://mirror.bjtu.edu.cn/apache//nutch/

3. 如何配置Nutch?

3.1 對下載後的壓縮包進行解壓，然後cd $HOME/nutch-1.3/runtime/local

3.2 配置bin/nutch這個文件的權限，使用chmod +x bin/nutch

3.3 配置JAVA_HOME，使用export JAVA_HOME=$PATH

4. 抓取前要做什麼準備工作?

4.1 配置http.agent.name這個屬性，如下

[html] view plain copy print ?

<PRE class=html name="code"><property>
    <name>http.agent.name</name>
    <value>My Nutch Spider</value>
</property></PRE><BR>
<BR>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
<property>
    <name>http.agent.name</name>
    <value>My Nutch Spider</value>
</property>
<property>
 	<name>http.agent.name</name>
 	<value>My Nutch Spider</value>
</property>

4.2 建立一個地址目錄,mkdir -p urls

在這個目錄中建立一個url文件，寫上一些url，如

[html] view plain copy print ?

http://nutch.apache.org/
http://nutch.apache.org/

4.3 然後運行如下命令

[html] view plain copy print ?

bin/nutch crawl urls -dir crawl -depth 3 -topN 5
bin/nutch crawl urls -dir crawl -depth 3 -topN 5

注意，這裏是不帶索引的，如果要對抓取的數據建立索引，運行如下命令

[html] view plain copy print ?

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

5. Nutch的抓取流程是什麼樣子的？

5.1 初始化crawlDb，注入初始url

[html] view plain copy print ?

<PRE class=html name="code">bin/nutch inject
Usage: Injector <crawldb> <url_dir></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
bin/nutch inject
Usage: Injector <crawldb> <url_dir>
bin/nutch inject 
Usage: Injector <crawldb> <url_dir>

在我本地運行這個命令後的輸出結果如下：

[html] view plain copy print ?

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch inject db/crawldb urls/
Injector: starting at 2011-08-22 10:50:01
Injector: crawlDb: db/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Injector: Merging injected urls into crawl db.
Injector: finished at 2011-08-22 10:50:05, elapsed: 00:00:03

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch inject db/crawldb urls/
		Injector: starting at 2011-08-22 10:50:01
		Injector: crawlDb: db/crawldb
		Injector: urlDir: urls
		Injector: Converting injected urls to crawl db entries.
		Injector: Merging injected urls into crawl db.
		Injector: finished at 2011-08-22 10:50:05, elapsed: 00:00:03

5.2 產生新的抓取urls

[html] view plain copy print ?

bin/nutch generate
Usage: Generator <crawldb> <segments_dir> [-force] [-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter] [-noNorm][-maxNumSegments num]

bin/nutch generate
Usage: Generator <crawldb> <segments_dir> [-force] [-topN N] [-numFetchers numFetchers] [-adddays numDays] [-noFilter] [-noNorm][-maxNumSegments num]

本機輸出結果如下：

[html] view plain copy print ?

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch generate db/crawldb/ db/segments
Generator: starting at 2011-08-22 10:52:41
Generator: Selecting best-scoring urls due for fetch.
Generator: filtering: true
Generator: normalizing: true
Generator: jobtracker is 'local', generating exactly one partition.
Generator: Partitioning selected urls for politeness.
Generator: segment: db/segments/20110822105243 // 這裏會產生一個新的segment
Generator: finished at 2011-08-22 10:52:44, elapsed: 00:00:03

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch generate db/crawldb/ db/segments
		Generator: starting at 2011-08-22 10:52:41
		Generator: Selecting best-scoring urls due for fetch.
		Generator: filtering: true
		Generator: normalizing: true
		Generator: jobtracker is 'local', generating exactly one partition.
		Generator: Partitioning selected urls for politeness.
		Generator: segment: db/segments/20110822105243   // 這裏會產生一個新的segment
		Generator: finished at 2011-08-22 10:52:44, elapsed: 00:00:03

5.3 對上面產生的url進行抓取

[html] view plain copy print ?

bin/nutch fetch
Usage: Fetcher <segment> [-threads n] [-noParsing]

		bin/nutch fetch
		Usage: Fetcher <segment> [-threads n] [-noParsing]

這裏是本地的輸出結果：

[html] view plain copy print ?

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch fetch db/segments/20110822105243/
Fetcher: Your 'http.agent.name' value should be listed first in 'http.robots.agents' property.
Fetcher: starting at 2011-08-22 10:56:07
Fetcher: segment: db/segments/20110822105243
Fetcher: threads: 10
QueueFeeder finished: total 1 records + hit by time limit :0
fetching http://www.baidu.com/
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=1
-finishing thread FetcherThread, activeThreads=0
-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
-activeThreads=0
Fetcher: finished at 2011-08-22 10:56:09, elapsed: 00:00:02

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch fetch db/segments/20110822105243/
		Fetcher: Your 'http.agent.name' value should be listed first in 'http.robots.agents' property.
		Fetcher: starting at 2011-08-22 10:56:07
		Fetcher: segment: db/segments/20110822105243
		Fetcher: threads: 10
		QueueFeeder finished: total 1 records + hit by time limit :0
		fetching http://www.baidu.com/
		-finishing thread FetcherThread, activeThreads=1
		-finishing thread FetcherThread, activeThreads=
		-finishing thread FetcherThread, activeThreads=1
		-finishing thread FetcherThread, activeThreads=1
		-finishing thread FetcherThread, activeThreads=0
		-activeThreads=0, spinWaiting=0, fetchQueues.totalSize=0
		-activeThreads=0
		Fetcher: finished at 2011-08-22 10:56:09, elapsed: 00:00:02

我們來看一下這裏的segment目錄結構

[html] view plain copy print ?

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ ls db/segments/20110822105243/
content crawl_fetch crawl_generate

	lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ ls db/segments/20110822105243/
	content  crawl_fetch  crawl_generate

5.4 對上面的結果進行解析

[html] view plain copy print ?

<PRE class=html name="code">bin/nutch parse
Usage: ParseSegment segment</PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
bin/nutch parse
Usage: ParseSegment segment
bin/nutch parse
Usage: ParseSegment segment

本機輸出結果：

[html] view plain copy print ?

<PRE class=html name="code">lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch parse db/segments/20110822105243/
ParseSegment: starting at 2011-08-22 10:58:19
ParseSegment: segment: db/segments/20110822105243
ParseSegment: finished at 2011-08-22 10:58:22, elapsed: 00:00:02</PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch parse db/segments/20110822105243/
ParseSegment: starting at 2011-08-22 10:58:19
ParseSegment: segment: db/segments/20110822105243
ParseSegment: finished at 2011-08-22 10:58:22, elapsed: 00:00:02
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch parse db/segments/20110822105243/
ParseSegment: starting at 2011-08-22 10:58:19
ParseSegment: segment: db/segments/20110822105243
ParseSegment: finished at 2011-08-22 10:58:22, elapsed: 00:00:02

我們再來看一下解析後的目錄結構

[html] view plain copy print ?

<PRE class=html name="code">lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ ls db/segments/20110822105243/
content  crawl_fetch  crawl_generate  crawl_parse  parse_data  parse_text</PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ ls db/segments/20110822105243/
content crawl_fetch crawl_generate crawl_parse parse_data parse_text
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ ls db/segments/20110822105243/
content  crawl_fetch  crawl_generate  crawl_parse  parse_data  parse_text

這裏多了三個解析後的目錄。

5.5 更新外鏈接數據庫

[html] view plain copy print ?

bin/nutch updatedb
Usage: CrawlDb <crawldb> (-dir <segments> | <seg1> <seg2> ...) [-force] [-normalize] [-filter] [-noAdditions]

	bin/nutch updatedb
	Usage: CrawlDb <crawldb> (-dir <segments> | <seg1> <seg2> ...) [-force] [-normalize] [-filter] [-noAdditions]

本機輸出結果：

[html] view plain copy print ?

<PRE class=html name="code">lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch updatedb db/crawldb/ -dir db/segments/
CrawlDb update: starting at 2011-08-22 11:00:09
CrawlDb update: db: db/crawldb
CrawlDb update: segments: [file:/home/lemo/Workspace/java/Apache/Nutch/nutch-1.3/db/segments/20110822105243]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: false
CrawlDb update: URL filtering: false
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2011-08-22 11:00:10, elapsed: 00:00:01</PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch updatedb db/crawldb/ -dir db/segments/
CrawlDb update: starting at 2011-08-22 11:00:09
CrawlDb update: db: db/crawldb
CrawlDb update: segments: [file:/home/lemo/Workspace/java/Apache/Nutch/nutch-1.3/db/segments/20110822105243]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: false
CrawlDb update: URL filtering: false
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2011-08-22 11:00:10, elapsed: 00:00:01
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch updatedb db/crawldb/ -dir db/segments/
CrawlDb update: starting at 2011-08-22 11:00:09
CrawlDb update: db: db/crawldb
CrawlDb update: segments: [file:/home/lemo/Workspace/java/Apache/Nutch/nutch-1.3/db/segments/20110822105243]
CrawlDb update: additions allowed: true
CrawlDb update: URL normalizing: false
CrawlDb update: URL filtering: false
CrawlDb update: Merging segment data into db.
CrawlDb update: finished at 2011-08-22 11:00:10, elapsed: 00:00:01

這時它會更新crawldb鏈接庫，這裏是放在文件系統中的，像taobao抓取程序的鏈接庫是用redis來做的，一種key-value形式的NoSql數據庫。

5.6 計算反向鏈接

[html] view plain copy print ?

<PRE class=html name="code">bin/nutch invertlinks
Usage: LinkDb <linkdb> (-dir <segmentsDir> | <seg1> <seg2> ...) [-force] [-noNormalize] [-noFilter]</PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
bin/nutch invertlinks
Usage: LinkDb <linkdb> (-dir <segmentsDir> | <seg1> <seg2> ...) [-force] [-noNormalize] [-noFilter]
bin/nutch invertlinks
Usage: LinkDb <linkdb> (-dir <segmentsDir> | <seg1> <seg2> ...) [-force] [-noNormalize] [-noFilter]

本地輸出結果：

[html] view plain copy print ?

<PRE class=html name="code">lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch invertlinks db/linkdb -dir db/segments/
LinkDb: starting at 2011-08-22 11:02:49
LinkDb: linkdb: db/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: adding segment: file:/home/lemo/Workspace/java/Apache/Nutch/nutch-1.3/db/segments/20110822105243
LinkDb: finished at 2011-08-22 11:02:50, elapsed: 00:00:01</PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
[html] view plain copy print ?
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch invertlinks db/linkdb -dir db/segments/
LinkDb: starting at 2011-08-22 11:02:49
LinkDb: linkdb: db/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: adding segment: file:/home/lemo/Workspace/java/Apache/Nutch/nutch-1.3/db/segments/20110822105243
LinkDb: finished at 2011-08-22 11:02:50, elapsed: 00:00:01
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch invertlinks db/linkdb -dir db/segments/
LinkDb: starting at 2011-08-22 11:02:49
LinkDb: linkdb: db/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: adding segment: file:/home/lemo/Workspace/java/Apache/Nutch/nutch-1.3/db/segments/20110822105243
LinkDb: finished at 2011-08-22 11:02:50, elapsed: 00:00:01

5.7 使用Solr爲抓取的內容建立索引

[html] view plain copy print ?

bin/nutch solrindex
Usage: SolrIndexer <solr url> <crawldb> <linkdb> (<segment> ... | -dir <segments>

	bin/nutch solrindex
	Usage: SolrIndexer <solr url> <crawldb> <linkdb> (<segment> ... | -dir <segments>

Nutch端的輸出如下：

[html] view plain copy print ?

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch solrindex http://127.0.0.1:8983/solr/ db/crawldb/ db/linkdb/ db/segments/*
lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch solrindex http://127.0.0.1:8983/solr/ db/crawldb/ db/linkdb/ db/segments/*
[html] view plain copy print ?

SolrIndexer: starting at 2011-08-22 11:05:33
SolrIndexer: starting at 2011-08-22 11:05:33
[html] view plain copy print ?

SolrIndexer: finished at 2011-08-22 11:05:35, elapsed: 00:00:02
SolrIndexer: finished at 2011-08-22 11:05:35, elapsed: 00:00:02

Solr端的部分輸出如下：

[html] view plain copy print ?

INFO: SolrDeletionPolicy.onInit: commits:num=1
commit{dir=/home/lemo/Workspace/java/Apache/Solr/apache-solr-3.3.0/example/solr/data/index,segFN=segments_1,version=1314024228223,generation=1,filenames=[segments_1]
Aug 22, 2011 11:05:35 AM org.apache.solr.core.SolrDeletionPolicy updateCommits
INFO: newest commit = 1314024228223
Aug 22, 2011 11:05:35 AM org.apache.solr.update.processor.LogUpdateProcessor finish
INFO: {add=[http://www.baidu.com/]} 0 183
Aug 22, 2011 11:05:35 AM org.apache.solr.core.SolrCore execute
INFO: [] webapp=/solr path=/update params={wt=javabin&version=2} status=0 QTime=183
Aug 22, 2011 11:05:35 AM org.apache.solr.update.DirectUpdateHandler2 commit
INFO: start commit(optimize=false,waitFlush=true,waitSearcher=true,expungeDeletes=false)

	INFO: SolrDeletionPolicy.onInit: commits:num=1
        commit{dir=/home/lemo/Workspace/java/Apache/Solr/apache-solr-3.3.0/example/solr/data/index,segFN=segments_1,version=1314024228223,generation=1,filenames=[segments_1]
	Aug 22, 2011 11:05:35 AM org.apache.solr.core.SolrDeletionPolicy updateCommits
	INFO: newest commit = 1314024228223
	Aug 22, 2011 11:05:35 AM org.apache.solr.update.processor.LogUpdateProcessor finish
	INFO: {add=[http://www.baidu.com/]} 0 183
	Aug 22, 2011 11:05:35 AM org.apache.solr.core.SolrCore execute
	INFO: [] webapp=/solr path=/update params={wt=javabin&version=2} status=0 QTime=183
	Aug 22, 2011 11:05:35 AM org.apache.solr.update.DirectUpdateHandler2 commit
	INFO: start commit(optimize=false,waitFlush=true,waitSearcher=true,expungeDeletes=false)

5.8 在Solr的客戶端查詢
在瀏覽器中輸入

[html] view plain copy print ?

http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/

查詢條件爲baidu

輸出的XML結構爲

如果你要以HTML結構顯示把Solr的配置文件solrconfig.xml中的content改爲如下就可以
<field name="content" type="text" stored="true" indexed="true"/>

[html] view plain copy print ?

<PRE class=html name="code"><response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
<lst name="params">
<str name="indent">on</str>
<str name="start">0</str>
<str name="q">baidu</str>
<str name="version">2.2</str>
<str name="rows">10</str>
</lst>
</lst>
<result name="response" numFound="1" start="0">
<doc>
<float name="boost">1.0660036</float>
<str name="digest">7be5cfd6da4a058001300b21d7d96b0f</str>
<str name="id">http://www.baidu.com/</str>
<str name="segment">20110822105243</str>
<str name="title">百度一下，你就知道</str>
<date name="tstamp">2011-08-22T14:56:09.194Z</date>
<str name="url">http://www.baidu.com/</str>
</doc>
</result>
</response>
</PRE><BR>
<PRE></PRE>
<PRE class=html name="code" sizcache="0" sizset="68"><PRE class=html name="code" sizcache="0" sizset="69"><BLOCKQUOTE style="BORDER-BOTTOM-STYLE: none; PADDING-BOTTOM: 0px; BORDER-RIGHT-STYLE: none; MARGIN: 0px 0px 0px 40px; PADDING-LEFT: 0px; PADDING-RIGHT: 0px; BORDER-TOP-STYLE: none; BORDER-LEFT-STYLE: none; PADDING-TOP: 0px" sizcache="0" sizset="69"><PRE class=html name="code"></PRE><BR>
<H3><A name=t14></A>6 參考</H3>
http://wiki.apache.org/nutch/RunningNutchAndSolr
<PRE></PRE>
<SPAN style="FONT-FAMILY: Arial,Verdana,sans-serif"><SPAN style="WHITE-SPACE: normal"></SPAN></SPAN>
<PRE></PRE>
<BLOCKQUOTE></BLOCKQUOTE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<BLOCKQUOTE></BLOCKQUOTE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
</BLOCKQUOTE></PRE></PRE>

[html] view plain copy print ?

<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
<lst name="params">
<str name="indent">on</str>
<str name="start">0</str>
<str name="q">baidu</str>
<str name="version">2.2</str>
<str name="rows">10</str>
</lst>
</lst>
<result name="response" numFound="1" start="0">
<doc>
<float name="boost">1.0660036</float>
<str name="digest">7be5cfd6da4a058001300b21d7d96b0f</str>
<str name="id">http://www.baidu.com/</str>
<str name="segment">20110822105243</str>
<str name="title">百度一下，你就知道</str>
<date name="tstamp">2011-08-22T14:56:09.194Z</date>
<str name="url">http://www.baidu.com/</str>
</doc>
</result>
</response>

<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
<lst name="params">
<str name="indent">on</str>
<str name="start">0</str>
<str name="q">baidu</str>
<str name="version">2.2</str>
<str name="rows">10</str>
</lst>
</lst>
<result name="response" numFound="1" start="0">
<doc>
<float name="boost">1.0660036</float>
<str name="digest">7be5cfd6da4a058001300b21d7d96b0f</str>
<str name="id">http://www.baidu.com/</str>
<str name="segment">20110822105243</str>
<str name="title">百度一下，你就知道</str>
<date name="tstamp">2011-08-22T14:56:09.194Z</date>
<str name="url">http://www.baidu.com/</str>
</doc>
</result>
</response>

[html] view plain copy print ?

<PRE class=html name="code" sizcache="0" sizset="69"><BLOCKQUOTE style="BORDER-BOTTOM-STYLE: none; PADDING-BOTTOM: 0px; BORDER-RIGHT-STYLE: none; MARGIN: 0px 0px 0px 40px; PADDING-LEFT: 0px; PADDING-RIGHT: 0px; BORDER-TOP-STYLE: none; BORDER-LEFT-STYLE: none; PADDING-TOP: 0px" sizcache="0" sizset="69"><PRE class=html name="code"></PRE><BR>
<H3><A name=t14></A>6 參考</H3>
http://wiki.apache.org/nutch/RunningNutchAndSolr
<PRE></PRE>
<SPAN style="FONT-FAMILY: Arial,Verdana,sans-serif"><SPAN style="WHITE-SPACE: normal"></SPAN></SPAN>
<PRE></PRE>
<BLOCKQUOTE></BLOCKQUOTE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<BLOCKQUOTE></BLOCKQUOTE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
</BLOCKQUOTE></PRE>

[html] view plain copy print ?

<BLOCKQUOTE style="BORDER-BOTTOM-STYLE: none; PADDING-BOTTOM: 0px; BORDER-RIGHT-STYLE: none; MARGIN: 0px 0px 0px 40px; PADDING-LEFT: 0px; PADDING-RIGHT: 0px; BORDER-TOP-STYLE: none; BORDER-LEFT-STYLE: none; PADDING-TOP: 0px" sizcache="0" sizset="69"><PRE class=html name="code"></PRE><BR>
<H3><A name=t14></A>6 參考</H3>
http://wiki.apache.org/nutch/RunningNutchAndSolr
<PRE></PRE>
<SPAN style="FONT-FAMILY: Arial,Verdana,sans-serif"><SPAN style="WHITE-SPACE: normal"></SPAN></SPAN>
<PRE></PRE>
<BLOCKQUOTE></BLOCKQUOTE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
<BLOCKQUOTE></BLOCKQUOTE>
<PRE></PRE>
<PRE></PRE>
<PRE></PRE>
</BLOCKQUOTE>

[html] view plain copy print ?
6 參考
http://wiki.apache.org/nutch/RunningNutchAndSolr

Nutch全文搜索學習筆記

1. Nutch是什麼?

2. 在哪裏要可以下載到最新的Nutch?

3. 如何配置Nutch?

3.1 對下載後的壓縮包進行解壓，然後cd $HOME/nutch-1.3/runtime/local

3.2 配置bin/nutch這個文件的權限，使用chmod +x bin/nutch

3.3 配置JAVA_HOME，使用export JAVA_HOME=$PATH

4. 抓取前要做什麼準備工作?

4.2 建立一個地址目錄,mkdir -p urls

4.3 然後運行如下命令

5. Nutch的抓取流程是什麼樣子的？

5.1 初始化crawlDb，注入初始url

5.2 產生新的抓取urls

5.3 對上面產生的url進行抓取

5.4 對上面的結果進行解析

6 參考

985 碩士程序員，空窗 4 個月沒有 Offer！

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

爲何我建議你學會抄代碼

抖音面試：說說延遲任務的調度算法？

在實踐中謀發展

如何把本地 PDF 文件添加到 iOS 的 iBooks

代碼審查的價值——爲何做、何時做、如何做？

JooMe的聯合創始人朱峯：wifi背後的營銷機會

Java多線程併發訪問解決方案

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結