我這裏說個主題(也就是新聞題目)相似計算。
分析:新聞主題大多是經過少量修改,大致狀況是,加轉載,截取主題,換個類似主題。
解決:過濾一些無意義字符,以主題的單個字符爲hashtable主鍵,比較後計算相同key的出現次數,以它爲分子,較小的hashtable長度爲分母,獲得一個比值,將它和一個常量(反覆測試後獲得的相似率)比較,一旦大於就認爲其相似。
實際過程根據自己需要做些小調整,以上計算有最短長度限制(小於該長度的主題不計算)。
很早以前寫得,現在工作中使用的,效果還行。
1、不說"不可能";2、凡事第一反應: 找方法,不找藉口;3、遇到挫折對自己說聲:太好了,機會來了!4、不說消極的話,不落入消極的情緒,一旦發生立即正
http://se.csai.cn/ANALYZE/200904090924001269.htm http://www.docin.com/p-2086224.html