文本分類機器學習算法摘記

一、 KMeans的優劣

優點:
    1.是解決聚類問題的一種經典算法,簡單、快速
    2.對處理大數據集,該算法保持可伸縮性和高效率
    3.當結果簇是密集的,它的效果較好
缺點
    1.必須事先給出k(要生成的簇的數目),而且對初值敏感,對於不同的初始值,可能會導致不同結果。
    2.對躁聲和孤立點數據敏感


二、召回率

召回率是指檢索出的  相關文檔數  和  文檔庫中所有的相關文檔數  的比率

 

三、構建文本分類器的步驟


1.確定分類體系;
2.積累樣本: 從門戶網站爬取指定類別下的文章
3.文本預處理;
4.訓練分類器;
5.測試分類器性能。

四、Lucene的中文分詞器

 1.基於字符串匹配的分詞
        – paoding
        – mmseg4j:MMseg算法
        – IK:正向迭代最細粒度切分算法
 2.基於統計的分詞
        – imdict:採用隱馬爾科夫模型

發佈了33 篇原創文章 · 獲贊 6 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章