用lucene与ictclas4j建立自己的全文检索

原創

2020-07-02 16:48

     lucene是个不错的逆向索引模块，而且是开源java的（注意，它尽是个模块不是套搜索引擎系统，基于它的nutch系统才是定位于这一目标的）。lucene解决了建索引、检索、存储（分布式存储要靠另外个咚咚hadoop）等问题。但对于中文检索中的分词问题，没给出个好的解析器。
     ictclas4j是个根据中科院的概率分析系统老版写的java分词系统。存在两个问题，一是只解决了单句分词问题，缺乏词的位置信息。二是存在个bug（包括中科院的那个VC版的），具体bug久了记不清，好像是在分有"/"的句子时会有问题。
     将lucene与ictclas4j还要解决个解析器结构问题。主要是由于lucene处理是采用流式结构，就相当于一个字符流流过解析器，然后不断从中取出词。然后，ictclas4j是基于句的。因此需要有个缓冲，先从字符流取出一个完整的句子，然后交给ictclas4j分词，ictclas4j给出一串词，然后解析器一个给向lucene返回词，直到取完，然后再从头开始，读字符流、断句....
     这其中有两个问题，一是从流中读数据，读过了就不能再读了，但你又无法确定读多少一句句子结束。这个问题可参看“编译原理”中词法分析中的双缓冲结构解决。二是断句问题。断句目前只有通过标点、空格等字符方式断。
     另外，lucene用于网页分析，不妨用nekohtml.jar解析HTML文件提取其中的文本，其他开源的几个好像有点不够鲁棒。当然nekohtml.jar也不是全能的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

require(‘module‘).globalPaths.push(‘「%= htmlWebpackPlugin.options.nodeModules.replace(/\\/g, ‘\\\\

<% if (htmlWebpackPlugin.options.nodeModules) { %> <!-- Add `node_modules/` to global paths so `require` work

2020-07-08 11:54:33

Electron 案例 # 本地音乐播放器开发教程

文中就部分關鍵代碼作了解釋。完整代碼見文末附錄。進程間通信原型圖功能流程

2020-07-08 11:54:32

Html Webpack Plugin: ReferenceError: process is not defined

修改ejs文件將<% if (!process.browser) {%> 改成： <% if (!require(‘process’).browser) { %>

2020-07-08 11:54:32

electron-vue项目引入element-ui

參考： https://www.jianshu.com/p/1defe83929f3 npm install element-ui main.js import ElementUI from 'element-ui' impor

2020-07-08 11:54:31

不可忽视URL漏洞

/* written by Jaron(賈俊) ,2003-11-04 *//* 原出處：B/S WEB技術中文網 http://www.jaron.cn ;*//* 歡迎訪問我的網站： http://www.jaron.cn http

2020-07-08 09:02:08

ASP.NET中上传文件的方法（一）

先介紹一個也許是最簡單的。1：新建一個WebForm，命名。2：從控件工具箱中拖一個File控件(HTML控件），爲其增加Runat=server屬性，增加Name屬性和ID屬性。3：再從Web控件中拖放一個Button控件和一個Labe

2020-07-07 22:36:25

Struts2文件上传无法取得文件名及文件类型问题的解决

最近寫一網站，用struts2加Common-FileUpload實現照片上傳，在頁面表單裏寫成這樣：<s:file name="uploadPhoto"/>，然後在action中用以下三個屬性： private Fil

2020-07-07 08:00:10

Electron # npm install 卡住

node install.js經常會卡住，處理方法如下： ctrl+c中斷然後cnpm install 或者： npm config set registry https://npm.taobao.org/mirrors/nod

2020-07-07 07:40:33

IE打印控制

網頁打印，可以通過瀏覽器的"打印"功能實現，但"打印模板"機制，卻是 IE 5.5 /6.0 以及 Netscape 6.0 所獨有的；準確一點， IE 5.5 只是一個機制雛形，在 IE

2020-07-07 04:34:34

IDEA搭建Spring + SrpingMVC + Mybatis(逆向工程)

目錄寫在前面的話一、環境描述二、Spring和SpringMVC環境搭建2.1 新建Maven項目2.2 建立項目結構2.3 搭建Spring框架2.3.1 引入Maven依賴2.3.2 添加Spring框架2.3.3 編寫測試類

2020-07-06 21:46:56

SSM自定义filter中注入Bean对象

遇到的問題如題，是一個比較常見的需求吧。其實我要實現的功能是在自己寫的filter中注入一個mapper對象，然後在過filter時候校驗ak，防止多端登錄，在剛開始天真的認爲直接@Autowire就可以了，後來被NullPo

2020-07-06 21:46:46

Memcache介绍、安装、使用（一）

Memcache基礎 Memcache是由 Danga Interactive 開發並使用 BSD 許可的一種通用的分佈式內存緩存系統, 減少了網站數據庫的負載, 成爲如今世界上大多數高流量網站所使用的緩存解決方案。它可以應對

2020-07-06 20:48:07

Memcache介绍、安装、使用（三）

Memcache命令操作五種基本 memcached 命令執行最簡單的操作： set 、add、replace、 get、delete 前三個命令屬於對鍵值對修改，格式如下：command < key > < flags

2020-07-06 20:48:07

浮动窗口-javascript

<script language=JScript><!--//可以打包爲js文件;var x0=0,y0=0,x1=0,y1=0;var offx=6,offy=6;var moveable=false;var hover='orang

2020-07-06 11:43:56

SMB架站入门:IBM HTTP Server图解(Windows下)

基於 Apache 的 IBM HTTP Server 是基於 Apache Group開發的 Apache Web 服務器。IBM Http Se

2020-07-06 11:43:56

24小時熱門文章

最新文章

最新評論文章