同義詞挖掘

詞典

從百度詞典、金山詞霸的詞條中抓取數據,根據原詞的描述和解釋提取同義詞。這種算法簡單有效,但是挖掘出來的同義詞通常比較書面語。

包括中英文名稱,學名與俗名,全稱與簡稱,常用錯別字等

百科詞條

從百度百科、搜搜百科等百科網站抓取詞條,在詞條中,有“又叫”“別名”等特徵詞,從這些特徵詞之後可以提取該詞條的其他說法。百科挖掘出的詞條通常質量比較高。

元搜索數據

元搜索數據中,原始Query和其召回的文檔存在一定的關係,有些是元搜索引擎做了同義替換或者非必留召回的結果。在這些結果和原始queryterm對齊,從中可以挖掘出來其中隱含的同義詞,爲了提高召回的同義詞的準確率,可以做一些處理:

1.       帶有相同字的term

2.       飄紅的term

3.       簡寫到全稱

4.       上下位位置信息

上下文相關性挖掘

 在所有的文檔中,如果兩個term經常在相同的上下文下出現,那麼這兩個詞是同義詞的可能性較大。基於這個假設,

1.       對文檔進行分詞,統計每個term的上下文,根據一定的策略對上下文進行剪枝。

2.       把剪枝之後的上下文作爲每個term的特徵向量,求term之間兩兩的夾角餘弦。

3.       提取餘弦值比較高的作爲候選同義詞。

這種算法挖掘出的同義詞會出現一些相關詞但不是同義詞的詞對,因此這部分同義詞通常需要一個人工審覈的步驟。

語料對齊

在一個完備的檢索系統中,會記錄點擊日誌和用戶的session日誌。此外,還有不同的anchor指向同一個url。通過這些數據進行語料對齊,可以挖掘出來很多同義詞:

1.       Query<>Query對齊:點擊了相同URLQuery

2.       Query<>Title對齊:某個Query點擊了某個URL

3.       Query<>Query對齊:同一個session內的Query,可能是用戶的自糾錯或者自修改

4.       Title<>Title對齊:被同一個Query點擊的URL

5.       Anchor<>Title對齊:指向了某個URLAnchor

6.       Anchor<>Anchor:指向了同一個URLAnchor

Ref:

http://blog.csdn.net/qq_25138881/article/details/46909727

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章