搜索引擎基礎---分詞和倒排索引簡述

原創

2020-03-22 12:54

搜索引擎是什麼？

所謂搜索引擎，就是根據用戶需求與一定算法，運用特定策略從互聯網檢索出制定信息反饋給用戶的一門檢索技術。搜索引擎依託於多種技術，如網絡爬蟲技術、檢索排序技術、網頁處理技術、大數據處理技術、自然語言處理技術等，爲信息檢索用戶提供快速、高相關性的信息服務。搜索引擎技術的核心模塊一般包括爬蟲、索引、檢索和排序等，同時可添加其他一系列輔助模塊，以爲用戶創造更好的網絡使用環境--百度百科。

分詞和倒排索引：

分詞可以說是搜索引起的基石，如果一個搜索引擎沒有好的分詞器那麼這個搜索引擎必然是失敗的。

搜索是以詞作爲最小單元，依靠分詞器進行構建，最後會生成一個倒排索引。

分詞器就負責拆分我們的語句。比如“my name is nijunyang”。分詞的時候會處理掉一些區分度不高的詞，英文中“is，are”，中文“的，是”這些之類。

通過分詞之後結果再次指向原來的文檔，通過value反向生成key（多個），這就是倒排索引。而我們以前的那些正向索引是先key-value，一般來說是一一對應，而且key也不是通過value去生成。

爲什麼百度搜索很多時候搜出來的東西不如意，這應該就和分詞器有關係，因爲中文分詞和英文分詞是有很大區別的，中文斷句不同，分出來的key就不一樣。

而且很多語句斷句不同是有歧義的，比如“武漢市長江大橋”——>“武漢市/長江大橋”，“武漢/市長/江大橋”，如果本意是第二種，但是分詞按照第一種，那麼搜索“江大橋”，就搜不到這一條數據。

TF-IDF(term frequency–inverse document frequency): 決定搜索結果的匹配度，當前也可以花錢--比如“莆田系”醫院。

TF: 詞頻，一篇文檔中出現了多少次，這個詞，出現越多說明關聯度越高。

DF:文檔頻率，包含這個詞的文檔總數。如果大家都有這個詞，說明這個詞的區分度並不高，比如：是，的

IDF：逆文檔。1/DF，包含該詞的文檔越少，也就是DF越小，IDF越大，則說明該詞對這篇文檔重要性就越大。

TFIDF: TF*IDF，如果某個詞在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認爲該詞具有很好的類別區分能力

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

搜索引擎基礎---分詞和倒排索引簡述

Spring的@Async使用防坑

分佈式事務(3)---強一致性分佈式事務Atomikos實戰分佈式事務(1)-理論基礎分佈式事務(2)---強一致性分佈式事務解決方案分佈式事務(4)---最終一致性方案之TCC

分佈式事務(4)---最終一致性方案之TCC 分佈式事務(1)-理論基礎分佈式事務(2)---強一致性分佈式事務解決方案分佈式事務(3)---強一致性分佈式事務Atomikos實戰

分佈式事務(2)---強一致性分佈式事務解決方案

(1)分佈式事務理論基礎

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結