搜索引擎基礎---分詞和倒排索引簡述

搜索引擎是什麼?

所謂搜索引擎,就是根據用戶需求與一定算法,運用特定策略從互聯網檢索出制定信息反饋給用戶的一門檢索技術。搜索引擎依託於多種技術,如網絡爬蟲技術、檢索排序技術、網頁處理技術、大數據處理技術、自然語言處理技術等,爲信息檢索用戶提供快速、高相關性的信息服務。搜索引擎技術的核心模塊一般包括爬蟲、索引、檢索和排序等,同時可添加其他一系列輔助模塊,以爲用戶創造更好的網絡使用環境--百度百科。

 

分詞和倒排索引

分詞可以說是搜索引起的基石,如果一個搜索引擎沒有好的分詞器那麼這個搜索引擎必然是失敗的。

搜索是以詞作爲最小單元,依靠分詞器進行構建,最後會生成一個倒排索引。

分詞器就負責拆分我們的語句。比如“my name is nijunyang”。分詞的時候會處理掉一些區分度不高的詞,英文中“is,are”,中文“的,是”這些之類。

 

通過分詞之後結果再次指向原來的文檔,通過value反向生成key(多個),這就是倒排索引。而我們以前的那些正向索引是先key-value,一般來說是一一對應,而且key也不是通過value去生成。

爲什麼百度搜索很多時候搜出來的東西不如意,這應該就和分詞器有關係,因爲中文分詞和英文分詞是有很大區別的,中文斷句不同,分出來的key就不一樣。

而且很多語句斷句不同是有歧義的,比如“武漢市長江大橋”——>“武漢市/長江大橋”,“武漢/市長/江大橋”,如果本意是第二種,但是分詞按照第一種,那麼搜索“江大橋”,就搜不到這一條數據。

 

TF-IDF(term frequency–inverse document frequency): 決定搜索結果的匹配度,當前也可以花錢--比如“莆田系”醫院。

TF: 詞頻,一篇文檔中出現了多少次,這個詞,出現越多說明關聯度越高。

DF:文檔頻率,包含這個詞的文檔總數。如果大家都有這個詞,說明這個詞的區分度並不高,比如:是,的

IDF:逆文檔。1/DF,包含該詞的文檔越少,也就是DF越小,IDF越大,則說明該詞對這篇文檔重要性就越大。

TFIDF: TF*IDF,如果某個詞在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認爲該詞具有很好的類別區分能力

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章