Lucene6.0分析（一）——數據分析接口

原創

2020-02-21 19:10

Analyer作爲數據分析的主要數據模型，他通過TokenStreams分析文本。也可以說它是從文本中提取索引字段的一種策略。爲了實現分析的目的，內部採用TokenStreamComponents組件進行實現。Analyzer本身集成自Closable接口，即調用Close方法，可以釋放資源。該對象通過tokenStream方法獲取TokenStream對象。

TokenStream方法的處理流程先通過reuseStrategy獲取TokenStreamComponents對象。如果對象爲空，創建該對象，並根據字段設置Analyzer對象；如果對象不爲空，則直接將Reader直接寫入TokenStreamComponents。

StandAnalyzer是作爲標準的一個文本分析器，其處理的流程包括字符小寫和停用詞處理。而其中的路程處理上採用流式的管道處理。即首先將字符按照字符的分割規範將其處理爲流式的字符流，根據字符處理流在進行大小寫和停用詞的處理。流程的處理需要StandardTokenizer和Tokenizer兩個對象。StandardTokenizer是將是將輸入字符轉換爲流式字符，其中具體的實施類爲StandardTokenizerImpl。管道處理類都繼承自TokenFilter，StandAnalyzer的流式處理採用LowerCaseFilter和StopFilter對象。處理完成後返回TokenStreamComponents，Lucene根據TokenStreamComponenets構造索引字段。

發佈了43 篇原創文章 · 獲贊 15 · 訪問量 3萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【Lucene】分詞器詳解，常用的分詞器，IKANalyzer

【Lucene】分詞器詳解，常用的分詞器，IKANalyzer1. 分詞器詳解1.1 分詞器的作用1.2 分詞器API1.2.1 示例1.2.2 Analyzer1.2.3 createComponents(String fiel

私忆一秒钟

2020-07-05 06:33:12

【Lucene】索引庫的基本操作（增刪改查）

【Lucene】索引庫的基本操作（增刪改查）1. 增加1.1 Field域的屬性1.2 添加文檔實現2. 刪除2.1 刪除全部2.2 指定條件刪除3. 修改4. 查詢4.1 使用TermQuery查詢4.2 數值範圍查詢4.3 使

私忆一秒钟

2020-07-05 06:33:12

【Lucene】全文檢索簡介，Lucene實現流程，入門案例

【Lucene】全文檢索簡介，Lucene實現流程，入門案例1. 前言2. 全文檢索簡介2.1 數據分類2.2 結構化數據搜索2.3 非結構化數據查詢方法2.3.1 順序掃描法(Serial Scanning)2.3.2 全文檢索

私忆一秒钟

2020-07-05 06:33:12

Lucene的介紹與使用

爲什麼要學習Lucene？原來的方式實現搜索功能，我們的搜索流程如下圖：如果用戶比較少而且數據庫的數據量比較小，那麼這種方式實現搜索功能在企業中是比較常見的。但是數據量過多時，數據庫的壓力就會變得很大，查詢速度會變得非常慢。我們需要

2020-07-07 19:09:23

spring+hibernate+compass

首先是spring與compass的集成配置文件：applicationContext-compass.xml Xml代碼 <? xml version = "1.0" encoding = "UTF

2020-07-07 17:30:57

如何提高Lucene建立索引的速度 How to make indexing faster

How to make indexing faster Here are some things to try to speed up the indexing speed of your Lucene application. Pl

2020-07-03 09:13:19

Lucene基本使用和代碼實現

目錄 Lucene:全文檢索技術一、Lucene的介紹 1.1背景 1.2優點 1.3Lucene的缺點 1.4全文檢索二、Lucene的基本使用流程 2.1Lucene檢索過程 2.2獲取文檔 2.3分析文檔（分詞） 2

yang13563758128

2020-06-30 09:09:10

Lucene3.6 之 Filter

1、TermRangeFilter A Filter that restricts search results to a range of term values in a given field. This filter match

2020-06-30 01:12:47

Lucene 分詞

分詞的基本原理： 1、分詞是用來對文本按語言特徵按算法進行過濾、分組處理的一種技術。 2、分詞的對象是文本，而不是圖像動畫腳本等等。 3、分詞的方式就是過濾和分組。 4、過濾主要把文本中那些沒有實際意義的字或詞過濾掉。

2020-06-29 04:47:38

Lucene 搜索二

Lucene分頁搜索的實現： [java] view plaincopy package com.qianyan.lucene; import java.io.IOException; impo

2020-06-29 04:47:38

Lucene 基本概念

首先、要做一個自己的企業內部搜素引擎呢，要認識Lucene： 1、Lucene的貢獻者Doug Cutting是一位自身全文索引/檢索專家，曾經是V-Twin搜索引擎（Apple的Copland操作系統的成就之一）的主要開發者

2020-06-29 04:47:38

集成Nutch和Solr

兩年前集成Nutch 和Solr 這兩個Apache Lucene 項目組下的子項目實在是件困難的事情，需要打很多補丁(patches),爲他們的聯姻搜尋各種必需的組件(required components)。今非昔比，時下，在Solr

2020-06-29 04:40:23

拆解Cluene系列(6)——Analyzer的職責鏈模式

職責鏈模式(Chain of Responsibility)：使多個對象都有機會處理請求，從而避免請求的發送者和接收者之間的耦合關係。將這些對象連成一條鏈，並沿着這條鏈傳遞該請求，直到有一個對象處理它爲止。關於職責鏈模式，可以參考博文：

聪明的狐狸

2020-06-28 04:55:22

【Lucene基本知識】

Lucene只是一個提供索引和查詢的類庫，並不是一個完整的企業級應用，企業需要根據自己的應用場景進行如數據獲取、數據預處理、用戶界面提供等工作。搜索引擎Solr和ElasticSearch都是基於Lucene的企業級應用。 Re

2020-06-27 17:09:47

Lucene 4 Demo

轉載出處：http://www.cnblogs.com/xing901022/p/3933675.html 講解之前，先來分享一些資料　　首先呢，學習任何一門新的亦或是舊的開源技術，百度其中一二是最簡單的辦法，先了解其中的

2020-06-27 14:54:24

24小時熱門文章

最新文章

最新評論文章