Python 樸素貝葉斯 垃圾短信分類

0.前言

沒寫完.有時間會更新

這是接着我的第一篇博客,搭建好Hadoop僞分佈式後,完成的整個畢設.畢設的主要內容是完成對100W短信進行垃圾短信分類.其中80W是含有標籤0/1的數據,還有20W是無標籤數據.最後的效果評判主要是進行交叉驗證.

1.總體思路

首先是用到的實驗環境和相關技術

1.1實驗環境

Python 3.6.5 + Anaconda3 + Pycharm + Hadoop + spark

僞分佈式的Hadoop搭建參見我的博客

僞分佈式Hadoop的搭建

其實,不用Hadoop + spark也能跑,我只是覺得畢設工作量太少,所以強行加的.

1,2思路

當初也很小白,簡單的思路就是分離數據和標籤文本分詞套用已有的樸素貝葉斯庫---->得出結果.

後來和實驗室的老師交流的過程中才覺得缺了很多步驟.

總體就如圖所示了.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章