lucene的筆記

1. lucene 的一些概念:
    1. 索引 Index
    2. 分詞 Analyzer----> 詞條 Term 
    3. 存儲 Store 
    4. 文檔 Document 
    5. 字段 Field
    
    
    上邊概念串一串:
        一個 文檔(Document)比如一個博客/文章(Blog/article) 中有多個字段:比如id, title,content
    每個字段中都由字符串組成,我們可以對字段(field)中的字符串進行分詞(analyzer)處理創建詞條(term),
    這些詞條(term)只是一些孤立的字符(你,一,傳,好,...),當需要用這些詞條(term)檢索相關的文檔(document)時,
    要對這些詞條(term)創建索引,讓這些詞條指向包含這些詞條的文檔;或者說是讓這些詞條指向包含這些詞條的
    文檔的存儲位置;
    
    ps: 詞條就是索引
    
    
2. 8月8日新的理解:
    1. 分詞時會對每一個域(field) 分別建立分詞
    2. 建立索引時會存儲兩個東西:
        1. 文檔 對應關係就是 文檔ID---->文檔;
        2. 詞條(term) 與 文檔(document) 映射關係: 
            1. 域(id) 分詞---(一對多)--->文檔id
            2. 域(title) 分詞---(一對多)--->文檔id
            3. 域(content) 分詞---(一對多)--->文檔id
    2. 建立索引時會對文檔(document)的各個域分別進行分詞,
        到映射關係中
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章