垃圾郵件分類 jieba+bayes

原創

Braylon1002

2020-05-02 10:19

文章目錄

簡介

本身我對文本方面的比如自然語言處理什麼的鑽研的不多，這裏是我之前寫的郵件分類，用的方法其實是很簡單的算法，同時這種處理方式可以說是最常用的文本處理技巧。

下下來一個是爲了自己記錄一下，當然如果您剛剛入門機器學習或者NLP，能給您一些幫助也最好不過了。

數據集

垃圾郵件

普通郵件

當然還有測試集：

這裏我使用的數據集中的部分截圖。

代碼

導入庫函數

import jieba
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

讀取數據

停用詞文檔。

stopWordFilePath = 'stopword.txt'
stopList = [word.strip() for word in open(stopWordFilePath, encoding='utf-8').readlines()]
stopList[:4]

ham = []
spam = []
with open('ham_100.utf8', 'r', encoding='utf-8') as f:
    for line in f.readlines():
        ham.append(line)
with open('spam_100.utf8', 'r', encoding='utf-8') as f:
    for line in f.readlines():
        spam.append(line)

ham[:2],spam[:2]

## 讀取測試集
test_data = []
with open('test.utf8', 'r', encoding='utf-8') as f:
    for line in f.readlines():
        test_data.append(line)
cut_test_data = [jieba.cut(item) for item in test_data]
test_data_fin = [' '.join(word) for word in cut_test_data]

分詞並去掉停用詞

cut_ham = [jieba.cut(sentence=str0) for str0 in ham]
train_ham = [' '.join(item) for item in cut_ham]
train_ham[:3]

cut_spam = [jieba.cut(str0) for str0 in spam]
train_spam = [' '.join(item) for item in cut_spam]
train_spam[:4]

這裏使用詞袋處理停用詞。

count = CountVectorizer(stop_words = stopList)
train_X_tmp = train_spam + train_ham
count.fit(train_spam + train_ham + test_data_fin)
train_X = count.transform(train_X_tmp).toarray()

train_X.shape

添加標記 1 ：是垃圾郵件 0 ：不是垃圾郵件

train_y_spam = [1 for i in range(len(train_spam))]
train_y_ham = [0 for i in range(len(train_ham))]

合併數據集

train_y_spam = [1 for i in range(len(train_spam))]
train_y_ham = [0 for i in range(len(train_ham))]

模型構建

mnb = MultinomialNB()
mnb.fit(train_X, train_y)
y_pred = mnb.predict(test_x)
y_pred

for lab, (index, i) in zip(y_pred, enumerate(test_data)):
    print(lab, "第", index+1, "封", i[:20])

算是做個筆記，大家共勉~~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

垃圾郵件分類 jieba+bayes

文章目錄

簡介

數據集

代碼

導入庫函數

讀取數據

分詞並去掉停用詞

模型構建

Python多線程編程深度探索：從入門到實戰

《日本蠟燭圖》讀書筆記 & 技術分析回測

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

拉格朗日乘子法 latex手打公式良心推導

磁盤結構分析圖文並茂

FAT32文件格式分析

networkx igraph相互轉換+效率比較

影響力最大化 CELF 成本效益延遲轉發算法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結