CentOS环境安装Solr4.7.0+Apache Nutch 1.7 + IK2012中文分词笔记

原創

fiveminus

2020-06-25 20:18

系统环境基于Java，本文不做讲解

Solr4.7下载地址：http://archive.apache.org/dist/lucene/solr/4.7.0/

Nutch1.7下载地址：http://archive.apache.org/dist/nutch/1.7/

下载二进制文件包：

wget http://archive.apache.org/dist/nutch/1.7/apache-nutch-1.7-bin.tar.gz

wget http://archive.apache.org/dist/lucene/solr/4.7.0/solr-4.7.0.tgz

文件解压：

tar -zxvf apache-nutch-1.7-bin.tar.gz

tar -zxvfsolr-4.7.0.tgz

1.Nutch安装以及配置

Nutch配置文件修改：

nano /apache-nutch-1.7/conf/nutch-site.xml

内容如下：

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>http.agent.name</name>

<value>Friendly Crawler</value>

</property>

<name>parser.skip.truncated</name>

<value>false</value>

</property>

</configuration>

创建抓取目录：

mkdir urls

新增种子文件：

nano seed.txt

写入 http://www.csdn.com

2.Solr安装配置

cd solr-4.7.0/example

java -jar start.jar

验证Solr登陆

http://127.0.0.1:8983/solr

3.集成Solr+Nutch

cd solr/collection1/conf

nano schema.xml

在<field>...</field>中新增以下字段：

注意修改title和content的stored属性为true，并修改multiValued属性为false，不然后面无法做高亮显示。

4.Nutch抓取文件并索引到Solr

cd /apache-nutch-1.7

rm -rf crawl

bin/nutch crawl urls -dir crawl -depth 2 -topN 5 -solr http://localhost:8983/solr/collection1

出现crawl finished: crawl表示抓取成功

5.IK2012分词器安装

下载IK2012分词器，解压后我们得到：

复制IKAnalyzer2012FF_u1.jar到 example/solr-webapp/webapp/WEB_INF/lib下

复制IKAnalyzer.cfg.xml,stopword.dic到 example/solr/collection1/conf 下

nano example/solr/collection/conf/schema.xml

在<types>...</types>新增如下代码：

</fieldType>

修改title，content，text的属性type="text_ik"，至此完成分词功能。

CentOS环境安装Solr4.7.0+Apache Nutch 1.7 + IK2012中文分词笔记

【SQL进阶】CASE语句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

IONIC WebApp之請求返回數據獲取不到

IONIC WebApp之對象存儲

IONIC WebApp之防止短時間內按鈕多次點擊

IONIC WebApp之雙擊返回退出

CentOS環境安裝Solr4.7.0+Apache Nutch 1.7 + IK2012中文分詞筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

CentOS环境安装Solr4.7.0+Apache Nutch 1.7 + IK2012中文分词 笔记

CentOS环境安装Solr4.7.0+Apache Nutch 1.7 + IK2012中文分词笔记