詞典
從百度詞典、金山詞霸的詞條中抓取數據,根據原詞的描述和解釋提取同義詞。這種算法簡單有效,但是挖掘出來的同義詞通常比較書面語。
包括中英文名稱,學名與俗名,全稱與簡稱,常用錯別字等
百科詞條
從百度百科、搜搜百科等百科網站抓取詞條,在詞條中,有“又叫”“別名”等特徵詞,從這些特徵詞之後可以提取該詞條的其他說法。百科挖掘出的詞條通常質量比較高。
元搜索數據
元搜索數據中,原始Query和其召回的文檔存在一定的關係,有些是元搜索引擎做了同義替換或者非必留召回的結果。在這些結果和原始query做term對齊,從中可以挖掘出來其中隱含的同義詞,爲了提高召回的同義詞的準確率,可以做一些處理:
1. 帶有相同字的term
2. 飄紅的term
3. 簡寫到全稱
4. 上下位位置信息
上下文相關性挖掘
在所有的文檔中,如果兩個term經常在相同的上下文下出現,那麼這兩個詞是同義詞的可能性較大。基於這個假設,
1. 對文檔進行分詞,統計每個term的上下文,根據一定的策略對上下文進行剪枝。
2. 把剪枝之後的上下文作爲每個term的特徵向量,求term之間兩兩的夾角餘弦。
3. 提取餘弦值比較高的作爲候選同義詞。
這種算法挖掘出的同義詞會出現一些相關詞但不是同義詞的詞對,因此這部分同義詞通常需要一個人工審覈的步驟。
語料對齊
在一個完備的檢索系統中,會記錄點擊日誌和用戶的session日誌。此外,還有不同的anchor指向同一個url。通過這些數據進行語料對齊,可以挖掘出來很多同義詞:
1. Query<>Query對齊:點擊了相同URL的Query
2. Query<>Title對齊:某個Query點擊了某個URL
3. Query<>Query對齊:同一個session內的Query,可能是用戶的自糾錯或者自修改
4. Title<>Title對齊:被同一個Query點擊的URL
5. Anchor<>Title對齊:指向了某個URL的Anchor
6. Anchor<>Anchor:指向了同一個URL的Anchor
Ref:
http://blog.csdn.net/qq_25138881/article/details/46909727