詞典

從百度詞典、金山詞霸的詞條中抓取數據，根據原詞的描述和解釋提取同義詞。這種算法簡單有效，但是挖掘出來的同義詞通常比較書面語。

包括中英文名稱，學名與俗名，全稱與簡稱，常用錯別字等

百科詞條

從百度百科、搜搜百科等百科網站抓取詞條，在詞條中，有“又叫”“別名”等特徵詞，從這些特徵詞之後可以提取該詞條的其他說法。百科挖掘出的詞條通常質量比較高。

元搜索數據中，原始Query和其召回的文檔存在一定的關係，有些是元搜索引擎做了同義替換或者非必留召回的結果。在這些結果和原始query做term對齊，從中可以挖掘出來其中隱含的同義詞，爲了提高召回的同義詞的準確率，可以做一些處理：

1. 帶有相同字的term

2. 飄紅的term

3. 簡寫到全稱

4. 上下位位置信息

在所有的文檔中，如果兩個term經常在相同的上下文下出現，那麼這兩個詞是同義詞的可能性較大。基於這個假設，

1. 對文檔進行分詞，統計每個term的上下文，根據一定的策略對上下文進行剪枝。

2. 把剪枝之後的上下文作爲每個term的特徵向量，求term之間兩兩的夾角餘弦。

3. 提取餘弦值比較高的作爲候選同義詞。

這種算法挖掘出的同義詞會出現一些相關詞但不是同義詞的詞對，因此這部分同義詞通常需要一個人工審覈的步驟。

在一個完備的檢索系統中，會記錄點擊日誌和用戶的session日誌。此外，還有不同的anchor指向同一個url。通過這些數據進行語料對齊，可以挖掘出來很多同義詞：

1. Query<>Query對齊：點擊了相同URL的Query

2. Query<>Title對齊：某個Query點擊了某個URL

3. Query<>Query對齊：同一個session內的Query，可能是用戶的自糾錯或者自修改

4. Title<>Title對齊：被同一個Query點擊的URL

5. Anchor<>Title對齊：指向了某個URL的Anchor

6. Anchor<>Anchor：指向了同一個URL的Anchor

Ref：

http://blog.csdn.net/qq_25138881/article/details/46909727