一、 KMeans的優劣
優點:
1.是解決聚類問題的一種經典算法,簡單、快速
2.對處理大數據集,該算法保持可伸縮性和高效率
3.當結果簇是密集的,它的效果較好
缺點
1.必須事先給出k(要生成的簇的數目),而且對初值敏感,對於不同的初始值,可能會導致不同結果。
2.對躁聲和孤立點數據敏感
二、召回率
召回率是指檢索出的 相關文檔數 和 文檔庫中所有的相關文檔數 的比率
三、構建文本分類器的步驟
1.確定分類體系;
2.積累樣本: 從門戶網站爬取指定類別下的文章
3.文本預處理;
4.訓練分類器;
5.測試分類器性能。
四、Lucene的中文分詞器
1.基於字符串匹配的分詞
– paoding
– mmseg4j:MMseg算法
– IK:正向迭代最細粒度切分算法
2.基於統計的分詞
– imdict:採用隱馬爾科夫模型