PyLucene學習之一

簡介

Lucene是一款高性能的、可擴展的信息檢索工具庫。
信息檢索是指文檔搜索,文檔內信息搜索或者文檔相關的元數據搜索等操作。
Lucene只是搜索程序的核心索引和搜索模塊

搜索程序首先需要實現的功能是索引鏈, 分爲以下幾個步驟:
1. 檢索原始內容
2. 根據原始內容來創建對應的文檔
3. 對創建的文檔進行索引

Raw Content -> Acquire Content -> Build Document -> Analyze Document -> Index Docuement -> Index

爲了快速搜索大量的文本,必須首先建立針對文本索引,將文本內容轉換成能夠進行快速搜索的格式,從而消除慢速順序掃描處理帶來的影響。此過程稱爲索引操作,輸出就是索引。

索引組件:

  1. 獲取內容:爬蟲或者其他方式獲取待索引的文本內容,Lucene並不提供這方面支持
  2. 建立文檔
  3. 文檔分析
    將文本分割成一系列被稱爲語彙單元的獨立的原子元素,這個步驟即決定文檔中的文本域如何分割成語彙單元系列。
  4. 文檔索引

搜索組件:

搜索質量衡量:查準率, 查全率
1. 用戶搜索界面(自己用,可以寫的搓一些)
2. 建立查詢(Luence存在默認的查詢解析器)
3. 搜索查詢
查詢檢索索引並返回與查詢語句匹配的文檔
4. 展現結果

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章