nutch1.0中索引的更新和維護

原創

2020-02-23 02:38

1、寫一個維護腳本，定時運行，是個好辦法

 #!/bin/bash

# Set JAVA_HOME to reflect your systems java configuration
export JAVA_HOME=/usr/lib/j2sdk1.5-sun 

# Start index updation，只查找最熱門的前1000條記錄,由此創建新的segment
bin/nutch generate crawl.mydomain/db crawl.mydomain/segments -topN 1000
#得到最新的segment目錄名
s=`ls -d crawl.virtusa/segments/2* | tail -1`
echo Segment is $s
bin/nutch fetch $s
bin/nutch updatedb crawl.mydomain /db $s
bin/nutch analyze crawl.mydomain /db 5
bin/nutch index $s
#刪除重複記錄
bin/nutch dedup crawl.mydomain /segments crawl.mydomain/tmpfile 

# Merge segments to prevent too many open files exception in Lucene
#合併成一個新的segment
bin/nutch mergesegs -dir crawl.mydomain/segments -i -ds
s=`ls -d crawl.mydomain/segments/2* | tail -1`
echo Merged Segment is $s

rm -rf crawl.mydomain/index

2、以上是在urls文件內容沒有變化的時候採用的辦法，如果我加入的新的URL在urls文件裏，那麼在運行generate以前，要執行下面一命令：
#bin/nutch inject crawl.mydomain/db -urlfile urls
在generate的時候，如果不加topN參數，那麼crawl只會去處理新加的或原來由於其它原因沒有fetch的url或page，所以我感覺，腳本1和用2修改的腳本交替運行，會有很好的效果。

轉載自http://blog.sina.com.cn/s/blog_587422ce010004ew.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

好消息！DolphinScheduler官網集成LLM模型問答AI kapa.ai

不少小夥伴可能發現了，Apache DolphinScheduler官網最近默默上線了kapa.ai作爲LLM的問答AI。集成kapa.ai之後，社區用戶可以點擊Apache DolphinScheduler官網首頁右下角的「Ask A

2024-05-28 21:22:12

記一次攻防演練中的若依（thymeleaf 模板注入）getshell

記一次攻防演練中幸運的從若依弱口令到後臺getshell的過程和分析。 0x01 漏洞發現首先，我會先把目標的二級域名拿去使用搜索引擎來搜索收集到包含這個目標二級域名的三級域名或者四級域名的網站。這樣子可以快速的定位到你所要測試的漏洞

2024-05-27 23:16:06

本地緩存Ehcache的應用實踐

java本地緩存包含多個框架，其中常用的包括：Caffeine、Guava Cache和Ehcache，其中Caffeine號稱本地緩存之王，也是近年來被衆多程序員推崇的緩存框架，同時也是SpringBoot內置的本地緩存實現。但是除了

京東雲開發者

2024-05-31 23:55:56

一站式鏈路追蹤：阿里雲的端到端解決方案

作者：涯海炎炎夏日，當你打開外賣 APP 購買奶茶卻發現下單失敗；五一佳節，當你自駕遊途中發現導航響應緩慢，頻繁錯過路口；深更半夜，當你輔導孩子功課，卻發現 GPT 應用遲遲無法應答。不知你有沒有想過，這些程序運行的背後到底是怎樣的世界，

2024-05-31 21:13:44

com.fasterxml.jackson.databind.JsonMappingException: Invalid UTF-8 start byte 0xb1

在windows環境，springboot 處理提交的json數據報錯“com.fasterxml.jackson.databind.JsonMappingException: Invalid UTF-8 start byte 0xb1”。

2024-05-30 22:15:03

雲效 Flow 配置備忘

腳本項目根目錄下創建shell文件夾，創建 cabinet.sh 腳本： #!/bin/bash # 應用名 APP_NAME=cabinet-service-test PROG_NAME=$0 ACTION=$1 APP_START

2024-05-30 11:43:23

Dolphinscheduler不重啓加載Oracle驅動

轉載自劉茫茫看山問題背景某天我們的租戶反饋數據庫連接缺少必要的驅動，我們通過日誌查看確實是缺少部分數據庫的驅動，因爲DolphinScheduler默認只帶了Oracle和MySQL的驅動，並且需要將pom文件中的test模式去掉纔可以

2024-05-28 21:22:10

記錄一次cnvd事件型證書漏洞挖掘

事件起因是因爲要搞畢設了，在爲這個苦惱，突然負責畢設的老師說得到cnvd下發的證書結合你的漏洞挖掘的過程是可以當成畢設的，當時又學習了一段時間的web滲透方面的知識，於是踏上了廢寢忘食的cnvd證書漏洞挖掘的日子。前言：聽羣友們說，一般可

2024-05-28 11:16:19

構建強韌：愛奇藝VRS系統可用性建設實踐

導語：愛奇藝作爲網絡視頻播放平臺，其核心服務是播放用戶選擇的視頻內容。VRS（Video Relay Service）是公司所有平臺播放功能的入口服務，它的主要功能包括播放策略控制（播控）、碼流選擇和下發視頻文件地址等。VRS

2024-05-28 02:22:00

spring源碼閱讀之bean加載過程(一)

如果想要閱讀源碼,首先要選擇版本,然後將源代碼下載到本地,導入idea中,話不多說,直接看步驟吧這裏我選擇5版本, 下載源碼默認是main分支,看想學習的分支,比如我切換到5版本,截圖如下: 2.安裝gradle 3

2024-05-27 23:55:57

今天！通義靈碼在北京、成都、杭州三城開講啦

通義靈碼自從入職阿里雲以來備受行業關注。5 月 24 日，阿里雲工程師奔赴北京、成都、杭州三城，向企業和開發者介紹並演示通義靈碼，通義靈碼依然是大家話題的C位，並收穫了衆多粉絲。 @杭州阿里雲金融創新峯會今天，2024 阿里雲金融創新峯

2024-05-27 21:13:46

關於在SpringBoot3.2中使用grpc插件生成*ServiceGrpc.java報錯找不到符號的一種解決方案

今天想在Springboot多模塊項目中讓兩個子模塊通過rpc交互，引入了grpc相關依賴，加好了插件，編譯生成了代碼，結果生成的*ServiceGrpc.java就報錯“”找不到符號”了，一看是找不到這個註解： @javax.annot

2024-05-27 13:48:34

聊聊Spring中的數據綁定 --- WebDataBinder、ServletRequestDataBinder、WebBindingInitializer 文章源於Ai生成

每篇一句大魔王張怡寧：女兒，這堆金牌你拿去玩吧，但我的銀牌不能給你玩。你要想玩銀牌就去找你王浩叔叔吧，他那銀牌多前言爲了講述好Spring MVC最爲複雜的數據綁定這塊，我前面可謂是做足了功課，對此部分知識此處給小夥伴留一個學

2024-05-27 10:53:57

hadoop-2單節點和hive安裝

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

對話阿里云云原生產品負責人李國強：推進可觀測產品與OpenTelemetry開源生態全面融合

5 月 22 日，在最新一期的飛天發佈時刻上，阿里雲宣佈多款可觀測產品全面升級，其中一項是應用實時監控服務 ARMS 在業內率先推進了與 OpenTelemetry 開源生態的全面融合，極大豐富了可觀測的數據類型及規模，大幅增強了 ARMS

2024-05-24 21:13:50

24小時熱門文章

最新文章

最新評論文章