nutch全网爬行的底层命令

原創

2018-08-25 03:05

最近在研究nutch，找到了关于使用底层命令进行全网爬行的资料。

首先获得网址集，使用http://rdf.dmoz.org/rdf/ 目录下的content.example.txt 文件做测试，建立文件夹dmoz

命令：bin/nutch org.apache.nutch.tools.DmozParser content.example.txt >dmoz/urls

注射网址到crawldb数据库：

命令：bin/nutch inject crawl/crawldb dmoz

创建抓取列表：

命令：bin/nutch generate crawl/crawldb crawl/segments

把segments下的文件保存到变量s1中，供以后调用：

命令：s1=`ls -d crawl/segments/2* | tail -1`

命令：echo $s1

注`不是单引号，而是左上角跟~一个键位的那个

运行fetcher获取这些url信息：

命令：bin/nutch fetch $s1

更新数据库，把获取的页面信息存进数据库中：

命令：bin/nutch updatedb crawl/crawldb $s1

第一次抓取结束。

接下来选择分值排在前10的url来进行第二次和第三次抓取：

命令：bin/nutch generate crawl/crawldb crawl/segments -topN 10

命令：s2=`ls -d crawl/segments/2* | tail -1`

命令：echo $s2

命令：bin/nutch fetch $s2

命令：bin/nutch updatedb crawl/crawldb $s2

命令：bin/nutch generate crawl/crawldb crawl/segments -topN 10

命令：s3=`ls -d crawl/segments/2* | tail -1`

命令：echo $s3

命令：bin/nutch fetch $s3

命令：bin/nutch updatedb crawl/crawldb $s3

根据segments的内容更新linkdb数据库：

命令：bin/nutch invertlinks crawl/linkdb crawl/segments/*

建立索引：

命令：bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*

可以通过此命令进行查询：

命令：bin/nutch org.apache.nutch.searcher.NutchBean faq 此处的faq代表所要搜索的关键词

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

faiss简单测试方法

先把倉庫克隆到本地，我這邊還需要改cmake環境，在project上面加 set(CMAKE_CUDA_COMPILER /usr/local/cuda-11.8/bin/nvcc) 構建 mkdir build cmake -B bui

2024-04-28 14:29:59

WPF & Prism

WPF編程-Prism 世有伯樂，然後有千里馬。千里馬常有，而伯樂不常有。一、背景 Winform和WPF 1. WinForms和WPF 技術架構： WinForms是基於傳統的窗體和控件的技術，使用的是類

2024-04-28 14:25:08

一个库帮你轻松的创建漂亮的.NET控制台应用程序

前言做過.NET控制檯應用程序的同學應該都知道原生的.NET控制檯應用程序輸出的內容都比較的單調，假如要編寫漂亮且美觀的控制檯輸出內容或者樣式可能需要花費不少的時間去編寫代碼和調試。今天大姚給大家分享一個.NET開源且免費的類庫幫你輕鬆的

2024-04-28 14:22:48

35K*14 薪，入职了！这公司只要不裁员，我能一直呆下去！

大家好，我是R哥。說說最近的面試輔導，有個學員進了某個知名互聯網公司，拿到了 35K*14 薪的好成績，有不少粉絲留言問我，現在行情這麼差，他是怎麼做到的？這篇拿他這個案例完整回顧一下吧，我管他叫小Y吧。背景溝通說下小Y的基本情況吧

2024-04-28 14:22:17

电脑刷新率的选择

選120hz的比60hz更護眼.

張博的博客

2024-04-28 14:20:47

Python 潮流周刊#48：Python 3.14 的发布计划

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期分享了 12 篇文

豌豆花下貓

2024-04-28 14:20:07

gpu机器没有开启ipv6

參考： https://blog.csdn.net/asdfaa/article/details/137884414 檢查系統是否支持 IPv6,查看被禁用了在啓用 IPv6 之前，首先要確保您的系統支持 IPv6。要檢查內核

2024-04-28 14:14:47

pl0词法分析器

pl/0詞法分析器下面是這個分析器的功能： 1、待分析的簡單語言的詞法（1）關鍵字： begin if then while do end 所有關鍵字都是小寫。（2）運算符和界符： := + – * / < <= <> > >=

2024-04-28 14:14:06

VS2008 LIB的升级改造

今天用VS2019編譯一個在VS2008下Coding的工程的時候，VS給出了一堆鏈接錯誤信息，如下圖所示的一些錯誤： Error 47 error LNK2019: unresolved external symbol "public

2024-04-28 14:14:06

Windows平台NASM汇编与C混合调用

Windows平臺NASM彙編與C混合調用 tonyblackwhite 之前介紹了Windows平臺下，用微軟宏彙編MASM與C混合調用的方法。MASM是微軟獨有的，Linux沒法用，我喜歡學一個能夠應用於兩種平臺的，所以還是更鐘情於開源

2024-04-28 14:14:06

程序员想通过产品挣钱，首先你产品的目标客户得不差钱（在线客服系统外传1）

在線客服系統我利用業餘時間斷斷續續做了好幾年，從一開始的追求完美，到後來的集中精力解決核心問題，從一開始的在每一個用戶身上投入大量時間，到後來學會分辨什麼是有價值客戶，學到很多，成長很多。有許多工程技術上很好，很優秀的產品，甚至一定程度上

2024-04-28 14:14:06

springboot~redis的hash结构为key设置过期策略

redis配置文件開啓鍵過期 # The "notify-keyspace-events" takes as argument a string that is composed # of zero or multiple charac

2024-04-28 14:13:26

如何开发一个符合人性的机器人通知功能

國內的IT企業逐漸的都有各種IM機器人，這些IM機器人會不斷的吐數據，但是這些吐數據最後都成了像垃圾消息或者周扒皮一樣的催命通知，完全沒有人性。我非常痛恨這種把IM裏不斷被催的方式，這種方式雖然能起作用，但是人在這種環境下工作真的就成了工具

2024-04-28 14:09:16

【转】[WPF] 复制文本到剪贴板

來自：阿里的通義靈碼以下是幾種常見的複製數據類型到剪切板的方法：複製文本到剪切板 using System.Windows.Forms; // 對於Windows Forms應用 // 或者 using System.Windows

2024-04-28 14:05:45

Python: Regular expressions

@staticmethod def strSplit(textSource: str, patterns: str)->list: """ 分割字符串 :param

®Geovin Du Dream Park™

2024-04-28 14:01:24

24小時熱門文章

最新文章

最新評論文章