0.前言
沒寫完.有時間會更新
這是接着我的第一篇博客,搭建好Hadoop僞分佈式後,完成的整個畢設.畢設的主要內容是完成對100W短信進行垃圾短信分類.其中80W是含有標籤0/1的數據,還有20W是無標籤數據.最後的效果評判主要是進行交叉驗證.
1.總體思路
首先是用到的實驗環境和相關技術
1.1實驗環境
Python 3.6.5 + Anaconda3 + Pycharm + Hadoop + spark
僞分佈式的Hadoop搭建參見我的博客
其實,不用Hadoop + spark也能跑,我只是覺得畢設工作量太少,所以強行加的.
1,2思路
當初也很小白,簡單的思路就是分離數據和標籤、文本分詞、套用已有的樸素貝葉斯庫---->得出結果.
後來和實驗室的老師交流的過程中才覺得缺了很多步驟.
總體就如圖所示了.