用lucene與ictclas4j建立自己的全文檢索

原創

2020-07-02 16:48

     lucene是個不錯的逆向索引模塊，而且是開源java的（注意，它盡是個模塊不是套搜索引擎系統，基於它的nutch系統纔是定位於這一目標的）。lucene解決了建索引、檢索、存儲（分佈式存儲要靠另外個咚咚hadoop）等問題。但對於中文檢索中的分詞問題，沒給出個好的解析器。
     ictclas4j是個根據中科院的概率分析系統老版寫的java分詞系統。存在兩個問題，一是隻解決了單句分詞問題，缺乏詞的位置信息。二是存在個bug（包括中科院的那個VC版的），具體bug久了記不清，好像是在分有"/"的句子時會有問題。
     將lucene與ictclas4j還要解決個解析器結構問題。主要是由於lucene處理是採用流式結構，就相當於一個字符流流過解析器，然後不斷從中取出詞。然後，ictclas4j是基於句的。因此需要有個緩衝，先從字符流取出一個完整的句子，然後交給ictclas4j分詞，ictclas4j給出一串詞，然後解析器一個給向lucene返回詞，直到取完，然後再從頭開始，讀字符流、斷句....
     這其中有兩個問題，一是從流中讀數據，讀過了就不能再讀了，但你又無法確定讀多少一句句子結束。這個問題可參看“編譯原理”中詞法分析中的雙緩衝結構解決。二是斷句問題。斷句目前只有通過標點、空格等字符方式斷。
     另外，lucene用於網頁分析，不妨用nekohtml.jar解析HTML文件提取其中的文本，其他開源的幾個好像有點不夠魯棒。當然nekohtml.jar也不是全能的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

require(‘module‘).globalPaths.push(‘「%= htmlWebpackPlugin.options.nodeModules.replace(/\\/g, ‘\\\\

<% if (htmlWebpackPlugin.options.nodeModules) { %> <!-- Add `node_modules/` to global paths so `require` work

2020-07-08 11:54:33

Electron 案例 # 本地音樂播放器開發教程

文中就部分關鍵代碼作了解釋。完整代碼見文末附錄。進程間通信原型圖功能流程

2020-07-08 11:54:32

Html Webpack Plugin: ReferenceError: process is not defined

修改ejs文件將<% if (!process.browser) {%> 改成： <% if (!require(‘process’).browser) { %>

2020-07-08 11:54:32

electron-vue項目引入element-ui

參考： https://www.jianshu.com/p/1defe83929f3 npm install element-ui main.js import ElementUI from 'element-ui' impor

2020-07-08 11:54:31

不可忽視URL漏洞

/* written by Jaron(賈俊) ,2003-11-04 *//* 原出處：B/S WEB技術中文網 http://www.jaron.cn ;*//* 歡迎訪問我的網站： http://www.jaron.cn http

2020-07-08 09:02:08

ASP.NET中上傳文件的方法（一）

先介紹一個也許是最簡單的。1：新建一個WebForm，命名。2：從控件工具箱中拖一個File控件(HTML控件），爲其增加Runat=server屬性，增加Name屬性和ID屬性。3：再從Web控件中拖放一個Button控件和一個Labe

2020-07-07 22:36:25

Struts2文件上傳無法取得文件名及文件類型問題的解決

最近寫一網站，用struts2加Common-FileUpload實現照片上傳，在頁面表單裏寫成這樣：<s:file name="uploadPhoto"/>，然後在action中用以下三個屬性： private Fil

2020-07-07 08:00:10

Electron # npm install 卡住

node install.js經常會卡住，處理方法如下： ctrl+c中斷然後cnpm install 或者： npm config set registry https://npm.taobao.org/mirrors/nod

2020-07-07 07:40:33

IE打印控制

網頁打印，可以通過瀏覽器的"打印"功能實現，但"打印模板"機制，卻是 IE 5.5 /6.0 以及 Netscape 6.0 所獨有的；準確一點， IE 5.5 只是一個機制雛形，在 IE

2020-07-07 04:34:34

IDEA搭建Spring + SrpingMVC + Mybatis(逆向工程)

目錄寫在前面的話一、環境描述二、Spring和SpringMVC環境搭建2.1 新建Maven項目2.2 建立項目結構2.3 搭建Spring框架2.3.1 引入Maven依賴2.3.2 添加Spring框架2.3.3 編寫測試類

2020-07-06 21:46:56

SSM自定義filter中注入Bean對象

遇到的問題如題，是一個比較常見的需求吧。其實我要實現的功能是在自己寫的filter中注入一個mapper對象，然後在過filter時候校驗ak，防止多端登錄，在剛開始天真的認爲直接@Autowire就可以了，後來被NullPo

2020-07-06 21:46:46

Memcache介紹、安裝、使用（一）

Memcache基礎 Memcache是由 Danga Interactive 開發並使用 BSD 許可的一種通用的分佈式內存緩存系統, 減少了網站數據庫的負載, 成爲如今世界上大多數高流量網站所使用的緩存解決方案。它可以應對

2020-07-06 20:48:07

Memcache介紹、安裝、使用（三）

Memcache命令操作五種基本 memcached 命令執行最簡單的操作： set 、add、replace、 get、delete 前三個命令屬於對鍵值對修改，格式如下：command < key > < flags

2020-07-06 20:48:07

浮動窗口-javascript

<script language=JScript><!--//可以打包爲js文件;var x0=0,y0=0,x1=0,y1=0;var offx=6,offy=6;var moveable=false;var hover='orang

2020-07-06 11:43:56

SMB架站入門:IBM HTTP Server圖解(Windows下)

基於 Apache 的 IBM HTTP Server 是基於 Apache Group開發的 Apache Web 服務器。IBM Http Se

2020-07-06 11:43:56

24小時熱門文章

Python實現大麥網搶票的四大關鍵技術點解析

最新文章

最新評論文章