日萌社
人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度學習實戰(不定時更新)
1.1 樸素貝葉斯算法簡介
1.2 概率基礎複習
1.概率定義
- 概率定義爲一件事情發生的可能性
- 扔出一個硬幣,結果頭像朝上
- P(X) : 取值在[0, 1]
2.案例:判斷女神對你的喜歡情況
在講這兩個概率之前我們通過一個例子,來計算一些結果:
問題如下:
- 女神喜歡的概率?
- 職業是程序員並且體型勻稱的概率?
- 在女神喜歡的條件下,職業是程序員的概率?
- 在女神喜歡的條件下,職業是程序員、體重超重的概率?
計算結果爲:
P(喜歡) = 4/7
P(程序員, 勻稱) = 1/7(聯合概率)
P(程序員|喜歡) = 2/4 = 1/2(條件概率)
P(程序員, 超重|喜歡) = 1/4
思考題:在小明是產品經理並且體重超重的情況下,如何計算小明被女神喜歡的概率?
即P(喜歡|產品, 超重) = ?
此時我們需要用到樸素貝葉斯進行求解,在講解貝葉斯公式之前,首先複習一下聯合概率、條件概率和相互獨立的概念。
3.聯合概率、條件概率與相互獨立
- 聯合概率:包含多個條件,且所有條件同時成立的概率
- 記作:P(A,B)
- 條件概率:就是事件A在另外一個事件B已經發生條件下的發生概率
- 記作:P(A|B)
- 相互獨立:如果P(A, B) = P(A)P(B),則稱事件A與事件B相互獨立。
4.貝葉斯公式
4.1 公式介紹
4.2 案例計算
那麼思考題就可以套用貝葉斯公式這樣來解決:
P(喜歡|產品, 超重) = P(產品, 超重|喜歡)P(喜歡)/P(產品, 超重)
上式中,
- P(產品, 超重|喜歡)和P(產品, 超重)的結果均爲0,導致無法計算結果。這是因爲我們的樣本量太少了,不具有代表性。
- 本來現實生活中,肯定是存在職業是產品經理並且體重超重的人的,P(產品, 超重)不可能爲0;
- 而且事件“職業是產品經理”和事件“體重超重”通常被認爲是相互獨立的事件,但是,根據我們有限的7個樣本計算“P(產品, 超重) = P(產品)P(超重)”不成立。
而樸素貝葉斯可以幫助我們解決這個問題。
-
樸素貝葉斯,簡單理解,就是假定了特徵與特徵之間相互獨立的貝葉斯公式。
-
也就是說,樸素貝葉斯,之所以樸素,就在於假定了特徵與特徵相互獨立。
所以,思考題如果按照樸素貝葉斯的思路來解決,就可以是
P(產品, 超重) = P(產品) * P(超重) = 2/7 * 3/7 = 6/49
p(產品, 超重|喜歡) = P(產品|喜歡) * P(超重|喜歡) = 1/2 * 1/4 = 1/8
P(喜歡|產品, 超重) = P(產品, 超重|喜歡)P(喜歡)/P(產品, 超重) = 1/8 * 4/7 / 6/49 = 7/12
那麼這個公式如果應用在文章分類的場景當中,我們可以這樣看:
公式分爲三個部分:
- P(C):每個文檔類別的概率(某文檔類別數/總文檔數量)
- P(W│C):給定類別下特徵(被預測文檔中出現的詞)的概率
- 計算方法:P(F1│C)=Ni/N (訓練文檔中去計算)
- Ni爲該F1詞在C類別所有文檔中出現的次數
- N爲所屬類別C下的文檔所有詞出現的次數和
- 計算方法:P(F1│C)=Ni/N (訓練文檔中去計算)
- P(F1,F2,…) 預測文檔中每個詞的概率
如果計算兩個類別概率比較:
所以我們只要比較前面的大小就可以,得出誰的概率大
4.3 文章分類計算
需求:通過前四個訓練樣本(文章),判斷第五篇文章,是否屬於China類
- 計算結果
P(C|Chinese, Chinese, Chinese, Tokyo, Japan) -->
P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C) / P(Chinese, Chinese, Chinese, Tokyo, Japan)
=
P(Chinese|C)^3 * P(Tokyo|C) * P(Japan|C) * P(C) / [P(Chinese)^3 * P(Tokyo) * P(Japan)]
# 這個文章是需要計算是不是China類,是或者不是最後的分母值都相同:
# 首先計算是China類的概率:
P(Chinese|C) = 5/8
P(Tokyo|C) = 0/8
P(Japan|C) = 0/8
# 接着計算不是China類的概率:
P(Chinese|C) = 1/3
P(Tokyo|C) = 1/3
P(Japan|C) = 1/3
5 小結
- 概率【瞭解】
- 一件事情發生的可能性
- 聯合概率【知道】
- 包含多個條件,且所有條件同時成立的概率
- 條件概率【知道】
- 事件A在另外一個事件B已經發生條件下的發生概率
- 貝葉斯公式【掌握】
1.3 案例:商品評論情感分析
1.api介紹
- sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
- 樸素貝葉斯分類
- alpha:拉普拉斯平滑係數
2.商品評論情感分析
2.1 步驟分析
- 1)獲取數據
- 2)數據基本處理
- 2.1) 取出內容列,對數據進行分析
- 2.2) 判定評判標準
- 2.3) 選擇停用詞
- 2.4) 把內容處理,轉化成標準格式
- 2.5) 統計詞的個數
- 2.6)準備訓練集和測試集
- 3)模型訓練
- 4)模型評估
2.2 代碼實現
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
- 1)獲取數據
# 加載數據
data = pd.read_csv("./data/書籍評價.csv", encoding="gbk")
data
- 2)數據基本處理
# 2.1) 取出內容列,對數據進行分析
content = data["內容"]
content.head()
# 2.2) 判定評判標準 -- 1好評;0差評
data.loc[data.loc[:, '評價'] == "好評", "評論標號"] = 1 # 把好評修改爲1
data.loc[data.loc[:, '評價'] == '差評', '評論標號'] = 0
# data.head()
good_or_bad = data['評價'].values # 獲取數據
print(good_or_bad)
# ['好評' '好評' '好評' '好評' '差評' '差評' '差評' '差評' '差評' '好評' '差評' '差評' '差評']
# 2.3) 選擇停用詞
# 加載停用詞
stopwords=[]
with open('./data/stopwords.txt','r',encoding='utf-8') as f:
lines=f.readlines()
print(lines)
for tmp in lines:
line=tmp.strip()
print(line)
stopwords.append(line)
# stopwords # 查看新產生列表
#對停用詞表進行去重
stopwords=list(set(stopwords))#去重 列表形式
print(stopwords)
# 2.4) 把“內容”處理,轉化成標準格式
comment_list = []
for tmp in content:
print(tmp)
# 對文本數據進行切割
# cut_all 參數默認爲 False,所有使用 cut 方法時默認爲精確模式
seg_list = jieba.cut(tmp, cut_all=False)
print(seg_list) # <generator object Tokenizer.cut at 0x0000000007CF7DB0>
seg_str = ','.join(seg_list) # 拼接字符串
print(seg_str)
comment_list.append(seg_str) # 目的是轉化成列表形式
# print(comment_list) # 查看comment_list列表。
# 2.5) 統計詞的個數
# 進行統計詞個數
# 實例化對象
# CountVectorizer 類會將文本中的詞語轉換爲詞頻矩陣
con = CountVectorizer(stop_words=stopwords)
# 進行詞數統計
X = con.fit_transform(comment_list) # 它通過 fit_transform 函數計算各個詞語出現的次數
name = con.get_feature_names() # 通過 get_feature_names()可獲取詞袋中所有文本的關鍵字
print(X.toarray()) # 通過 toarray()可看到詞頻矩陣的結果
print(name)
# 2.6)準備訓練集和測試集
# 準備訓練集 這裏將文本前10行當做訓練集 後3行當做測試集
x_train = X.toarray()[:10, :]
y_train = good_or_bad[:10]
# 準備測試集
x_text = X.toarray()[10:, :]
y_text = good_or_bad[10:]
- 3)模型訓練
# 構建貝葉斯算法分類器
mb = MultinomialNB(alpha=1) # alpha 爲可選項,默認 1.0,添加拉普拉修/Lidstone 平滑參數
# 訓練數據
mb.fit(x_train, y_train)
# 預測數據
y_predict = mb.predict(x_text)
#預測值與真實值展示
print('預測值:',y_predict)
print('真實值:',y_text)
- 4)模型評估
mb.score(x_text, y_text)
3 總結
- API:sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
- 樸素貝葉斯分類
- alpha:拉普拉斯平滑係數
- 樸素貝葉斯分類
1.4 樸素貝葉斯算法總結
1.樸素貝葉斯優缺點
- 優點:
- 樸素貝葉斯模型發源於古典數學理論,有穩定的分類效率
- 對缺失數據不太敏感,算法也比較簡單,常用於文本分類
- 分類準確度高,速度快
- 缺點:
- 由於使用了樣本屬性獨立性的假設,所以如果特徵屬性有關聯時其效果不好
- 需要計算先驗概率,而先驗概率很多時候取決於假設,假設的模型可以有很多種,因此在某些時候會由於假設的先驗模型的原因導致預測效果不佳;
2.樸素貝葉斯內容彙總
2.1 NB的原理
樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。
- 對於給定的待分類項x,通過學習到的模型計算後驗概率分佈,
- 即:在此項出現的條件下各個目標類別出現的概率,將後驗概率最大的類作爲xx所屬的類別。
2.2 樸素貝葉斯樸素在哪裏?
在計算條件概率分佈P(X=x∣Y=c_k)時,NB引入了一個很強的條件獨立假設,即,當Y確定時,X的各個特徵分量取值之間相互獨立。
2.3 爲什麼引入條件獨立性假設?
爲了避免貝葉斯定理求解時面臨的組合爆炸、樣本稀疏問題。
假設條件概率分爲
2.4 在估計條件概率P(X∣Y)時出現概率爲0的情況怎麼辦?
解決這一問題的方法是採用貝葉斯估計。
簡單來說,引入λ,
- 當λ=0時,就是普通的極大似然估計;
- 當λ=1時稱爲拉普拉斯平滑。
2.5 爲什麼屬性獨立性假設在實際情況中很難成立,但樸素貝葉斯仍能取得較好的效果?
- 人們在使用分類器之前,首先做的第一步(也是最重要的一步)往往是特徵選擇,這個過程的目的就是爲了排除特徵之間的共線性、選擇相對較爲獨立的特徵;
- 對於分類任務來說,只要各類別的條件概率排序正確,無需精準概率值就可以得出正確分類;
- 如果屬性間依賴對所有類別影響相同,或依賴關係的影響能相互抵消,則屬性條件獨立性假設在降低計算複雜度的同時不會對性能產生負面影響。
2.6 樸素貝葉斯與LR的區別?
1)簡單來說:
-
區別一:
-
樸素貝葉斯是生成模型,
- 根據已有樣本進行貝葉斯估計學習出先驗概率P(Y)和條件概率P(X|Y),
- 進而求出聯合分佈概率P(XY),
- 最後利用貝葉斯定理求解P(Y|X),
-
而LR是判別模型,
- 根據極大化對數似然函數直接求出條件概率P(Y|X);
-
從概率框架的角度來理解機器學習;主要有兩種策略:
第一種:給定 x, 可通過直接建模 P(c |x) 來預測 c,這樣得到的是"判別式模型" (discriminative models);
第二種:也可先對聯合概率分佈 P(x,c) 建模,然後再由此獲得 P(c |x), 這樣得到的是"生成式模型" (generative models) ;
顯然,前面介紹的邏輯迴歸、決策樹、都可歸入判別式模型的範疇,還有後面學到的BP神經網絡
支持向量機等;
-
-
區別二:
- 樸素貝葉斯是基於很強的條件獨立假設(在已知分類Y的條件下,各個特徵變量取值是相互獨立的),
- 而LR則對此沒有要求;
-
區別三:
- 樸素貝葉斯適用於數據集少的情景,
- 而LR適用於大規模數據集。
2)進一步說明:
前者是生成式模型,後者是判別式模型,二者的區別就是生成式模型與判別式模型的區別。
- 首先,Navie Bayes通過已知樣本求得先驗概率P(Y), 及條件概率P(X|Y), 對於給定的實例,計算聯合概率,進而求出後驗概率。也就是說,它嘗試去找到底這個數據是怎麼生成的(產生的),然後再進行分類。哪個類別最有可能產生這個信號,就屬於那個類別。
- 優點: 樣本容量增加時,收斂更快;隱變量存在時也可適用。
- 缺點:時間長;需要樣本多;浪費計算資源
- 相比之下,Logistic迴歸不關心樣本中類別的比例及類別下出現特徵的概率,它直接給出預測模型的式子。設每個特徵都有一個權重,訓練樣本數據更新權重w,得出最終表達式。
- 優點:
- 直接預測往往準確率更高;
- 簡化問題;
- 可以反應數據的分佈情況,類別的差異特徵;
- 適用於較多類別的識別。
- 缺點
- 收斂慢;
- 不適用於有隱變量的情況。
- 優點:
In [1]:
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
獲取數據
In [2]:
data = pd.read_csv("./data/書籍評價.csv", encoding="gbk")
In [3]:
data
Out[3]:
Unnamed: 0 | 內容 | 評價 | |
---|---|---|---|
0 | 0 | 從編程小白的角度看,入門極佳。 | 好評 |
1 | 1 | 很好的入門書,簡潔全面,適合小白。 | 好評 |
2 | 2 | 講解全面,許多小細節都有顧及,三個小項目受益匪淺。 | 好評 |
3 | 3 | 前半部分講概念深入淺出,要言不煩,很贊 | 好評 |
4 | 4 | 看了一遍還是不會寫,有個概念而已 | 差評 |
5 | 5 | 中規中矩的教科書,零基礎的看了依舊看不懂 | 差評 |
6 | 6 | 內容太淺顯,個人認爲不適合有其它語言編程基礎的人 | 差評 |
7 | 7 | 破書一本 | 差評 |
8 | 8 | 適合完完全全的小白讀,有其他語言經驗的可以去看別的書 | 差評 |
9 | 9 | 基礎知識寫的挺好的! | 好評 |
10 | 10 | 太基礎 | 差評 |
11 | 11 | 略_嗦。。適合完全沒有編程經驗的小白 | 差評 |
12 | 12 | 真的真的不建議買 | 差評 |
數據基本處理
取出內容列,用於後面分析
In [4]:
content = data["內容"]
content
Out[4]:
0 從編程小白的角度看,入門極佳。
1 很好的入門書,簡潔全面,適合小白。
2 講解全面,許多小細節都有顧及,三個小項目受益匪淺。
3 前半部分講概念深入淺出,要言不煩,很贊
4 看了一遍還是不會寫,有個概念而已
5 中規中矩的教科書,零基礎的看了依舊看不懂
6 內容太淺顯,個人認爲不適合有其它語言編程基礎的人
7 破書一本
8 適合完完全全的小白讀,有其他語言經驗的可以去看別的書
9 基礎知識寫的挺好的!
10 太基礎
11 略_嗦。。適合完全沒有編程經驗的小白
12 真的真的不建議買
Name: 內容, dtype: object
把評價中的好評差評轉換爲數字
In [5]:
data.loc[:, "評價"]
Out[5]:
0 好評
1 好評
2 好評
3 好評
4 差評
5 差評
6 差評
7 差評
8 差評
9 好評
10 差評
11 差評
12 差評
Name: 評價, dtype: object
In [6]:
data.loc[data.loc[:, "評價"] == "好評", "評論編號"] = 1
In [7]:
data
Out[7]:
Unnamed: 0 | 內容 | 評價 | 評論編號 | |
---|---|---|---|---|
0 | 0 | 從編程小白的角度看,入門極佳。 | 好評 | 1.0 |
1 | 1 | 很好的入門書,簡潔全面,適合小白。 | 好評 | 1.0 |
2 | 2 | 講解全面,許多小細節都有顧及,三個小項目受益匪淺。 | 好評 | 1.0 |
3 | 3 | 前半部分講概念深入淺出,要言不煩,很贊 | 好評 | 1.0 |
4 | 4 | 看了一遍還是不會寫,有個概念而已 | 差評 | NaN |
5 | 5 | 中規中矩的教科書,零基礎的看了依舊看不懂 | 差評 | NaN |
6 | 6 | 內容太淺顯,個人認爲不適合有其它語言編程基礎的人 | 差評 | NaN |
7 | 7 | 破書一本 | 差評 | NaN |
8 | 8 | 適合完完全全的小白讀,有其他語言經驗的可以去看別的書 | 差評 | NaN |
9 | 9 | 基礎知識寫的挺好的! | 好評 | 1.0 |
10 | 10 | 太基礎 | 差評 | NaN |
11 | 11 | 略_嗦。。適合完全沒有編程經驗的小白 | 差評 | NaN |
12 | 12 | 真的真的不建議買 | 差評 | NaN |
In [8]:
data.loc[data.loc[:, "評價"] == "差評", "評論編號"] = 0
In [9]:
data
Out[9]:
Unnamed: 0 | 內容 | 評價 | 評論編號 | |
---|---|---|---|---|
0 | 0 | 從編程小白的角度看,入門極佳。 | 好評 | 1.0 |
1 | 1 | 很好的入門書,簡潔全面,適合小白。 | 好評 | 1.0 |
2 | 2 | 講解全面,許多小細節都有顧及,三個小項目受益匪淺。 | 好評 | 1.0 |
3 | 3 | 前半部分講概念深入淺出,要言不煩,很贊 | 好評 | 1.0 |
4 | 4 | 看了一遍還是不會寫,有個概念而已 | 差評 | 0.0 |
5 | 5 | 中規中矩的教科書,零基礎的看了依舊看不懂 | 差評 | 0.0 |
6 | 6 | 內容太淺顯,個人認爲不適合有其它語言編程基礎的人 | 差評 | 0.0 |
7 | 7 | 破書一本 | 差評 | 0.0 |
8 | 8 | 適合完完全全的小白讀,有其他語言經驗的可以去看別的書 | 差評 | 0.0 |
9 | 9 | 基礎知識寫的挺好的! | 好評 | 1.0 |
10 | 10 | 太基礎 | 差評 | 0.0 |
11 | 11 | 略_嗦。。適合完全沒有編程經驗的小白 | 差評 | 0.0 |
12 | 12 | 真的真的不建議買 | 差評 | 0.0 |
選擇停用詞
In [11]:
stopwords = []
with open("./data/stopwords.txt", "r", encoding="utf-8") as f:
lines = f.readlines()
print(lines)
['!\n', '"\n', '#\n', '$\n', '%\n', '&\n', "'\n", '(\n', ')\n', '*\n', '+\n', ',\n', '-\n', '--\n', '.\n', '..\n', '...\n', '......\n', '...................\n', './\n', '.一\n', '.數\n', '.日\n', '/\n', '//\n', '0\n', '1\n', '2\n', '3\n', '4\n', '5\n', '6\n', '7\n', '8\n', '9\n', ':\n', '://\n', '::\n', ';\n', '<\n', '=\n', '>\n', '>>\n', '?\n', '@\n', 'A\n', 'Lex\n', '[\n', '\\\n', ']\n', '^\n', '_\n', '`\n', 'exp\n', 'sub\n', 'sup\n', '|\n', '}\n', '~\n', '~~~~\n', '·\n', '×\n', '×××\n', 'Δ\n', 'Ψ\n', 'γ\n', 'μ\n', 'φ\n', 'φ.\n', 'В\n', '—\n', '——\n', '———\n', '‘\n', '’\n', '’‘\n', '“\n', '”\n', '”,\n', '…\n', '……\n', '…………………………………………………③\n', '′∈\n', '′|\n', '℃\n', 'Ⅲ\n', '↑\n', '→\n', '∈[\n', '∪φ∈\n', '≈\n', '①\n', '②\n', '②c\n', '③\n', '③]\n', '④\n', '⑤\n', '⑥\n', '⑦\n', '⑧\n', '⑨\n', '⑩\n', '──\n', '■\n', '▲\n', '\u3000\n', '、\n', '。\n', '〈\n', '〉\n', '《\n', '》\n', '》),\n', '」\n', '『\n', '』\n', '【\n', '】\n', '〔\n', '〕\n', '〕〔\n', '㈧\n', '一\n', '一.\n', '一一\n', '一下\n', '一個\n', '一些\n', '一何\n', '一切\n', '一則\n', '一則通過\n', '一天\n', '一定\n', '一方面\n', '一旦\n', '一時\n', '一來\n', '一樣\n', '一次\n', '一片\n', '一番\n', '一直\n', '一致\n', '一般\n', '一起\n', '一轉眼\n', '一邊\n', '一面\n', '七\n', '萬一\n', '三\n', '三天兩頭\n', '三番兩次\n', '三番五次\n', '上\n', '上下\n', '上升\n', '上去\n', '上來\n', '上述\n', '上面\n', '下\n', '下列\n', '下去\n', '下來\n', '下面\n', '不\n', '不一\n', '不下\n', '不久\n', '不了\n', '不亦樂乎\n', '不僅\n', '不僅...而且\n', '不僅僅\n', '不僅僅是\n', '不會\n', '不但\n', '不但...而且\n', '不光\n', '不免\n', '不再\n', '不力\n', '不單\n', '不變\n', '不只\n', '不可\n', '不可開交\n', '不可抗拒\n', '不同\n', '不外\n', '不外乎\n', '不夠\n', '不大\n', '不如\n', '不妨\n', '不定\n', '不對\n', '不少\n', '不盡\n', '不盡然\n', '不巧\n', '不已\n', '不常\n', '不得\n', '不得不\n', '不得了\n', '不得已\n', '不必\n', '不怎麼\n', '不怕\n', '不惟\n', '不成\n', '不拘\n', '不擇手段\n', '不敢\n', '不料\n', '不斷\n', '不日\n', '不時\n', '不是\n', '不曾\n', '不止\n', '不止一次\n', '不比\n', '不消\n', '不滿\n', '不然\n', '不然的話\n', '不特\n', '不獨\n', '不由得\n', '不知不覺\n', '不管\n', '不管怎樣\n', '不經意\n', '不勝\n', '不能\n', '不能不\n', '不至於\n', '不若\n', '不要\n', '不論\n', '不起\n', '不足\n', '不過\n', '不迭\n', '不問\n', '不限\n', '與\n', '與其\n', '與其說\n', '與否\n', '與此同時\n', '專門\n', '且\n', '且不說\n', '且說\n', '兩者\n', '嚴格\n', '嚴重\n', '個\n', '個人\n', '個別\n', '中小\n', '中間\n', '豐富\n', '串行\n', '臨\n', '臨到\n', '爲\n', '爲主\n', '爲了\n', '爲什麼\n', '爲什麼\n', '爲何\n', '爲止\n', '爲此\n', '爲着\n', '主張\n', '主要\n', '舉凡\n', '舉行\n', '乃\n', '乃至\n', '乃至於\n', '麼\n', '之\n', '之一\n', '之前\n', '之後\n', '之後\n', '之所以\n', '之類\n', '烏乎\n', '乎\n', '乒\n', '乘\n', '乘勢\n', '乘機\n', '乘勝\n', '乘虛\n', '乘隙\n', '九\n', '也\n', '也好\n', '也就是說\n', '也是\n', '也罷\n', '了\n', '瞭解\n', '爭取\n', '二\n', '二來\n', '二話不說\n', '二話沒說\n', '於\n', '於是\n', '於是乎\n', '云云\n', '云爾\n', '互\n', '互相\n', '五\n', '些\n', '交口\n', '亦\n', '產生\n', '親口\n', '親手\n', '親眼\n', '親自\n', '親身\n', '人\n', '人人\n', '人們\n', '人家\n', '人民\n', '什麼\n', '什麼樣\n', '什麼\n', '僅\n', '僅僅\n', '今\n', '今後\n', '今天\n', '今年\n', '今後\n', '介於\n', '仍\n', '仍舊\n', '仍然\n', '從\n', '從不\n', '從嚴\n', '從中\n', '從事\n', '從今以後\n', '從優\n', '從古到今\n', '從古至今\n', '從頭\n', '從寬\n', '從小\n', '從新\n', '從無到有\n', '從早到晚\n', '從未\n', '從來\n', '從此\n', '從此以後\n', '從而\n', '從輕\n', '從速\n', '從重\n', '他\n', '他人\n', '他們\n', '他是\n', '他的\n', '代替\n', '以\n', '以上\n', '以下\n', '以爲\n', '以便\n', '以免\n', '以前\n', '以及\n', '以後\n', '以外\n', '以後\n', '以故\n', '以期\n', '以來\n', '以至\n', '以至於\n', '以致\n', '們\n', '任\n', '任何\n', '任憑\n', '任務\n', '企圖\n', '夥同\n', '會\n', '偉大\n', '傳\n', '傳說\n', '傳聞\n', '似乎\n', '似的\n', '但\n', '但凡\n', '但願\n', '但是\n', '何\n', '何樂而不爲\n', '何以\n', '何況\n', '何處\n', '何妨\n', '何嘗\n', '何必\n', '何時\n', '何止\n', '何苦\n', '何須\n', '餘外\n', '作爲\n', '你\n', '你們\n', '你是\n', '你的\n', '使\n', '使得\n', '使用\n', '例如\n', '依\n', '依據\n', '依照\n', '依靠\n', '便\n', '便於\n', '促進\n', '保持\n', '保管\n', '保險\n', '俺\n', '俺們\n', '倍加\n', '倍感\n', '倒不如\n', '倒不如說\n', '倒是\n', '倘\n', '倘使\n', '倘或\n', '倘然\n', '倘若\n', '借\n', '藉以\n', '藉此\n', '假使\n', '假如\n', '假若\n', '偏偏\n', '做到\n', '偶爾\n', '偶而\n', '儻然\n', '像\n', '兒\n', '允許\n', '元/噸\n', '充其極\n', '充其量\n', '充分\n', '先不先\n', '先後\n', '先後\n', '先生\n', '光\n', '光是\n', '全體\n', '全力\n', '全年\n', '全然\n', '全身心\n', '全部\n', '全都\n', '全面\n', '八\n', '八成\n', '公然\n', '六\n', '兮\n', '共\n', '共同\n', '共總\n', '關於\n', '其\n', '其一\n', '其中\n', '其二\n', '其他\n', '其餘\n', '其後\n', '其它\n', '其實\n', '其次\n', '具體\n', '具體地說\n', '具體來說\n', '具體說來\n', '具有\n', '兼之\n', '內\n', '再\n', '再其次\n', '再則\n', '再有\n', '再次\n', '再者\n', '再者說\n', '再說\n', '冒\n', '衝\n', '決不\n', '決定\n', '決非\n', '況且\n', '準備\n', '湊巧\n', '凝神\n', '幾\n', '幾乎\n', '幾度\n', '幾時\n', '幾番\n', '幾經\n', '凡\n', '凡是\n', '憑\n', '憑藉\n', '出\n', '出於\n', '出去\n', '出來\n', '出現\n', '分別\n', '分頭\n', '分期\n', '分期分批\n', '切\n', '切不可\n', '切切\n', '切勿\n', '切莫\n', '則\n', '則甚\n', '剛\n', '剛好\n', '剛巧\n', '剛纔\n', '初\n', '別\n', '別人\n', '別處\n', '別是\n', '別的\n', '別管\n', '別說\n', '到\n', '到了兒\n', '到處\n', '到頭\n', '到頭來\n', '到底\n', '到目前爲止\n', '前後\n', '前此\n', '前者\n', '前進\n', '前面\n', '加上\n', '加之\n', '加以\n', '加入\n', '加強\n', '動不動\n', '動輒\n', '勃然\n', '匆匆\n', '十分\n', '千\n', '千萬\n', '千萬千萬\n', '半\n', '單\n', '單單\n', '單純\n', '即\n', '即令\n', '即使\n', '即便\n', '即刻\n', '即如\n', '即將\n', '即或\n', '即是說\n', '即若\n', '卻\n', '卻不\n', '歷\n', '原來\n', '去\n', '又\n', '又及\n', '及\n', '及其\n', '及時\n', '及至\n', '雙方\n', '反之\n', '反之亦然\n', '反之則\n', '反倒\n', '反倒是\n', '反應\n', '反手\n', '反映\n', '反而\n', '反過來\n', '反過來說\n', '取得\n', '取道\n', '受到\n', '變成\n', '古來\n', '另\n', '另一個\n', '另一方面\n', '另外\n', '另悉\n', '另方面\n', '另行\n', '只\n', '只當\n', '只怕\n', '只是\n', '只有\n', '只消\n', '只要\n', '只限\n', '叫\n', '叫做\n', '召開\n', '叮咚\n', '叮噹\n', '可\n', '可以\n', '可好\n', '可是\n', '可能\n', '可見\n', '各\n', '各個\n', '各人\n', '各位\n', '各地\n', '各式\n', '各種\n', '各級\n', '各自\n', '合理\n', '同\n', '同一\n', '同時\n', '同樣\n', '後\n', '後來\n', '後者\n', '後面\n', '向\n', '向使\n', '向着\n', '嚇\n', '嗎\n', '否則\n', '吧\n', '吧噠\n', '吱\n', '呀\n', '呃\n', '呆呆地\n', '吶\n', '嘔\n', '唄\n', '嗚\n', '嗚呼\n', '呢\n', '周圍\n', '呵\n', '呵呵\n', '呸\n', '呼哧\n', '呼啦\n', '咋\n', '和\n', '咚\n', '咦\n', '咧\n', '咱\n', '咱們\n', '咳\n', '哇\n', '哈\n', '哈哈\n', '哉\n', '哎\n', '哎呀\n', '哎喲\n', '譁\n', '嘩啦\n', '喲\n', '哦\n', '哩\n', '哪\n', '哪個\n', '哪些\n', '哪兒\n', '哪天\n', '哪年\n', '哪怕\n', '哪樣\n', '哪邊\n', '哪裏\n', '哼\n', '哼唷\n', '唉\n', '唯有\n', '啊\n', '啊呀\n', '啊哈\n', '啊喲\n', '啐\n', '啥\n', '啦\n', '啪達\n', '啷噹\n', '喀\n', '喂\n', '喏\n', '喔唷\n', '嘍\n', '嗡\n', '嗡嗡\n', '嗬\n', '嗯\n', '噯\n', '嘎\n', '嘎嘎\n', '嘎登\n', '噓\n', '嘛\n', '嘻\n', '嘿\n', '嘿嘿\n', '四\n', '因\n', '因爲\n', '因了\n', '因此\n', '因着\n', '因而\n', '固\n', '固然\n', '在\n', '在下\n', '在於\n', '地\n', '均\n', '堅決\n', '堅持\n', '基於\n', '基本\n', '基本上\n', '處在\n', '處處\n', '處理\n', '複雜\n', '多\n', '多麼\n', '多虧\n', '多多\n', '多多少少\n', '多多益善\n', '多少\n', '多年前\n', '多年來\n', '多數\n', '多次\n', '夠瞧的\n', '大\n', '大不了\n', '大舉\n', '大事\n', '大體\n', '大體上\n', '大凡\n', '大力\n', '大多\n', '大多數\n', '大大\n', '大家\n', '大張旗鼓\n', '大批\n', '大抵\n', '大概\n', '大略\n', '大約\n', '大致\n', '大都\n', '大量\n', '大面兒上\n', '失去\n', '奇\n', '奈\n', '奮勇\n', '她\n', '她們\n', '她是\n', '她的\n', '好\n', '好在\n', '好的\n', '好象\n', '如\n', '如上\n', '如上所述\n', '如下\n', '如今\n', '如何\n', '如其\n', '如前所述\n', '如同\n', '如常\n', '如是\n', '如期\n', '如果\n', '如次\n', '如此\n', '如此等等\n', '如若\n', '始而\n', '姑且\n', '存在\n', '存心\n', '孰料\n', '孰知\n', '寧\n', '寧可\n', '寧願\n', '寧肯\n', '它\n', '它們\n', '它們的\n', '它是\n', '它的\n', '安全\n', '完全\n', '完成\n', '定\n', '實現\n', '實際\n', '宣佈\n', '容易\n', '密切\n', '對\n', '對於\n', '對應\n', '對待\n', '對方\n', '對比\n', '將\n', '將才\n', '將要\n', '將近\n', '小\n', '少數\n', '爾\n', '爾後\n', '爾爾\n', '爾等\n', '尚且\n', '尤其\n', '就\n', '就地\n', '就是\n', '就是了\n', '就是說\n', '就此\n', '就算\n', '就要\n', '盡\n', '儘可能\n', '盡如人意\n', '盡心盡力\n', '盡心竭力\n', '儘快\n', '儘早\n', '盡然\n', '儘管\n', '儘管如此\n', '儘量\n', '局外\n', '居然\n', '屆時\n', '屬於\n', '屢\n', '屢屢\n', '屢次\n', '屢次三番\n', '豈\n', '豈但\n', '豈止\n', '豈非\n', '川流不息\n', '左右\n', '巨大\n', '鞏固\n', '差一點\n', '差不多\n', '己\n', '已\n', '已矣\n', '已經\n', '巴\n', '巴巴\n', '帶\n', '幫助\n', '常\n', '常常\n', '常言說\n', '常言說得好\n', '常言道\n', '平素\n', '年復一年\n', '並\n', '並不\n', '並不是\n', '並且\n', '並排\n', '並無\n', '並沒\n', '並沒有\n', '並肩\n', '並非\n', '廣大\n', '廣泛\n', '應當\n', '應用\n', '應該\n', '庶乎\n', '庶幾\n', '開外\n', '開始\n', '開展\n', '引起\n', '弗\n', '彈指之間\n', '強烈\n', '強調\n', '歸\n', '歸根到底\n', '歸根結底\n', '歸齊\n', '當\n', '當下\n', '當中\n', '當兒\n', '當前\n', '當即\n', '當口兒\n', '當地\n', '當場\n', '當頭\n', '當庭\n', '當時\n', '當然\n', '當真\n', '當着\n', '形成\n', '徹夜\n', '徹底\n', '彼\n', '彼時\n', '彼此\n', '往\n', '往往\n', '待\n', '待到\n', '很\n', '很多\n', '很少\n', '後來\n', '後面\n', '得\n', '得了\n', '得出\n', '得到\n', '得天獨厚\n', '得起\n', '心裏\n', '必\n', '必定\n', '必將\n', '必然\n', '必要\n', '必須\n', '快\n', '快要\n', '忽地\n', '忽然\n', '怎\n', '怎麼\n', '怎麼辦\n', '怎麼樣\n', '怎奈\n', '怎樣\n', '怎麼\n', '怕\n', '急匆匆\n', '怪\n', '怪不得\n', '總之\n', '總是\n', '總的來看\n', '總的來說\n', '總的說來\n', '總結\n', '總而言之\n', '恍然\n', '恐怕\n', '恰似\n', '恰好\n', '恰如\n', '恰巧\n', '恰恰\n', '恰恰相反\n', '恰逢\n', '您\n', '您們\n', '您是\n', '惟其\n', '慣常\n', '意思\n', '憤然\n', '願意\n', '慢說\n', '成爲\n', '成年\n', '成年累月\n', '成心\n', '我\n', '我們\n', '我是\n', '我的\n', '或\n', '或則\n', '或多或少\n', '或是\n', '或曰\n', '或者\n', '或許\n', '戰鬥\n', '截然\n', '截至\n', '所\n', '所以\n', '所在\n', '所幸\n', '所有\n', '所謂\n', '才\n', '才能\n', '撲通\n', '打\n', '打從\n', '打開天窗說亮話\n', '擴大\n', '把\n', '抑或\n', '抽冷子\n', '攔腰\n', '拿\n', '按\n', '按時\n', '按期\n', '按照\n', '按理\n', '按說\n', '挨個\n', '挨家挨戶\n', '挨次\n', '挨着\n', '挨門挨戶\n', '挨門逐戶\n', '換句話說\n', '換言之\n', '據\n', '據實\n', '據悉\n', '據我所知\n', '據此\n', '據稱\n', '據說\n', '掌握\n', '接下來\n', '接着\n', '接著\n', '接連不斷\n', '放量\n', '故\n', '故意\n', '故此\n', '故而\n', '敞開兒\n', '敢\n', '敢於\n', '敢情\n', '數/\n', '整個\n', '斷然\n', '方\n', '方便\n', '方纔\n', '方能\n', '方面\n', '旁人\n', '無\n', '無寧\n', '無法\n', '無論\n', '既\n', '既...又\n', '既往\n', '既是\n', '既然\n', '日復一日\n', '日漸\n', '日益\n', '日臻\n', '日見\n', '時候\n', '昂然\n', '明顯\n', '明確\n', '是\n', '是不是\n', '是以\n', '是否\n', '是的\n', '顯然\n', '顯著\n', '普通\n', '普遍\n', '暗中\n', '暗地裏\n', '暗自\n', '更\n', '更爲\n', '更加\n', '更進一步\n', '曾\n', '曾經\n', '替\n', '替代\n', '最\n', '最後\n', '最大\n', '最好\n', '最後\n', '最近\n', '最高\n', '有\n', '有些\n', '有關\n', '有利\n', '有力\n', '有及\n', '有所\n', '有效\n', '有時\n', '有點\n', '有的\n', '有的是\n', '有着\n', '有著\n', '望\n', '朝\n', '朝着\n', '末##末\n', '本\n', '本人\n', '本地\n', '本着\n', '本身\n', '權時\n', '來\n', '來不及\n', '來得及\n', '來看\n', '來着\n', '來自\n', '來講\n', '來說\n', '極\n', '極爲\n', '極了\n', '極其\n', '極力\n', '極大\n', '極度\n', '極端\n', '構成\n', '果然\n', '果真\n', '某\n', '某個\n', '某些\n', '某某\n', '根據\n', '根本\n', '格外\n', '梆\n', '概\n', '次第\n', '歡迎\n', '歟\n', '正值\n', '正在\n', '正如\n', '正巧\n', '正常\n', '正是\n', '此\n', '此中\n', '此後\n', '此地\n', '此處\n', '此外\n', '此時\n', '此次\n', '此間\n', '殆\n', '毋寧\n', '每\n', '每個\n', '每天\n', '每年\n', '每當\n', '每時每刻\n', '每每\n', '每逢\n', '比\n', '比及\n', '比如\n', '比如說\n', '比方\n', '比照\n', '比起\n', '比較\n', '畢竟\n', '毫不\n', '毫無\n', '毫無例外\n', '毫無保留地\n', '汝\n', '沙沙\n', '沒\n', '沒奈何\n', '沒有\n', '沿\n', '沿着\n', '注意\n', '活\n', '深入\n', '清楚\n', '滿\n', '滿足\n', '漫說\n', '焉\n', '然\n', '然則\n', '然後\n', '然後\n', '然而\n', '照\n', '照着\n', '牢牢\n', '特別是\n', '特殊\n', '特點\n', '猶且\n', '猶自\n', '獨\n', '獨自\n', '猛然\n', '猛然間\n', '率爾\n', '率然\n', '現代\n', '現在\n', '理應\n', '理當\n', '理該\n', '瑟瑟\n', '甚且\n', '甚麼\n', '甚或\n', '甚而\n', '甚至\n', '甚至於\n', '用\n', '用來\n', '甫\n', '甭\n', '由\n', '由於\n', '由是\n', '由此\n', '由此可見\n', '略\n', '略爲\n', '略加\n', '略微\n', '白\n', '白白\n', '的\n', '的確\n', '的話\n', '皆可\n', '目前\n', '直到\n', '直接\n', '相似\n', '相信\n', '相反\n', '相同\n', '相對\n', '相對而言\n', '相應\n', '相當\n', '相等\n', '省得\n', '看\n', '看上去\n', '看出\n', '看到\n', '看來\n', '看樣子\n', '看看\n', '看見\n', '看起來\n', '真是\n', '真正\n', '眨眼\n', '着\n', '着呢\n', '矣\n', '矣乎\n', '矣哉\n', '知道\n', '砰\n', '確定\n', '碰巧\n', '社會主義\n', '離\n', '種\n', '積極\n', '移動\n', '究竟\n', '窮年累月\n', '突出\n', '突然\n', '竊\n', '立\n', '立刻\n', '立即\n', '立地\n', '立時\n', '立馬\n', '竟\n', '竟然\n', '竟而\n', '第\n', '第二\n', '等\n', '等到\n', '等等\n', '策略地\n', '簡直\n', '簡而言之\n', '簡言之\n', '管\n', '類如\n', '粗\n', '精光\n', '緊接着\n', '累年\n', '累次\n', '純\n', '純粹\n', '縱\n', '縱令\n', '縱使\n', '縱然\n', '練習\n', '組成\n', '經\n', '經常\n', '經過\n', '結合\n', '結果\n', '給\n', '絕\n', '絕不\n', '絕對\n', '絕非\n', '絕頂\n', '繼之\n', '繼後\n', '繼續\n', '繼而\n', '維持\n', '綜上所述\n', '縷縷\n', '罷了\n', '老\n', '老大\n', '老是\n', '老老實實\n', '考慮\n', '者\n', '而\n', '而且\n', '而況\n', '而又\n', '而後\n', '而外\n', '而已\n', '而是\n', '而言\n', '而論\n', '聯繫\n', '聯袂\n', '背地裏\n', '背靠背\n', '能\n', '能否\n', '能夠\n', '騰\n', '自\n', '自個兒\n', '自從\n', '自各兒\n', '自後\n', '自家\n', '自己\n', '自打\n', '自身\n', '臭\n', '至\n', '至於\n', '至今\n', '至若\n', '致\n', '般的\n', '良好\n', '若\n', '若夫\n', '若是\n', '若果\n', '若非\n', '範圍\n', '莫\n', '莫不\n', '莫不然\n', '莫如\n', '莫若\n', '莫非\n', '獲得\n', '藉以\n', '雖\n', '雖則\n', '雖然\n', '雖說\n', '蠻\n', '行爲\n', '行動\n', '表明\n', '表示\n', '被\n', '要\n', '要不\n', '要不是\n', '要不然\n', '要麼\n', '要是\n', '要求\n', '見\n', '規定\n', '覺得\n', '譬喻\n', '譬如\n', '認爲\n', '認真\n', '認識\n', '讓\n', '許多\n', '論\n', '論說\n', '設使\n', '設或\n', '設若\n', '誠如\n', '誠然\n', '話說\n', '該\n', '該當\n', '說明\n', '說來\n', '說說\n', '請勿\n', '諸\n', '諸位\n', '諸如\n', '誰\n', '誰人\n', '誰料\n', '誰知\n', '謹\n', '豁然\n', '賊死\n', '賴以\n', '趕\n', '趕快\n', '趕早不趕晚\n', '起\n', '起先\n', '起初\n', '起頭\n', '起來\n', '起見\n', '起首\n', '趁\n', '趁便\n', '趁勢\n', '趁早\n', '趁機\n', '趁熱\n', '趁着\n', '越是\n', '距\n', '跟\n', '路經\n', '轉動\n', '轉變\n', '轉貼\n', '轟然\n', '較\n', '較爲\n', '較之\n', '較比\n', '邊\n', '達到\n', '達旦\n', '迄\n', '迅速\n', '過\n', '過於\n', '過去\n', '過來\n', '運用\n', '近\n', '近幾年來\n', '近年來\n', '近來\n', '還\n', '還是\n', '還有\n', '還要\n', '這\n', '這一來\n', '這個\n', '這麼\n', '這麼些\n', '這麼樣\n', '這麼點兒\n', '這些\n', '這會兒\n', '這兒\n', '這就是說\n', '這時\n', '這樣\n', '這次\n', '這點\n', '這種\n', '這般\n', '這邊\n', '這裏\n', '這麼\n', '進入\n', '進去\n', '進來\n', '進步\n', '進而\n', '進行\n', '連\n', '連同\n', '連聲\n', '連日\n', '連日來\n', '連袂\n', '連連\n', '遲早\n', '迫於\n', '適應\n', '適當\n', '適用\n', '逐步\n', '逐漸\n', '通常\n', '通過\n', '造成\n', '逢\n', '遇到\n', '遭到\n', '遵循\n', '遵照\n', '避免\n', '那\n', '那個\n', '那麼\n', '那麼些\n', '那麼樣\n', '那些\n', '那會兒\n', '那兒\n', '那時\n', '那末\n', '那樣\n', '那般\n', '那邊\n', '那裏\n', '那麼\n', '部分\n', '都\n', '鄙人\n', '採取\n', '裏面\n', '重大\n', '重新\n', '重要\n', '鑑於\n', '針對\n', '長期以來\n', '長此下去\n', '長線\n', '長話短說\n', '問題\n', '間或\n', '防止\n', '阿\n', '附近\n', '陳年\n', '限制\n', '陡然\n', '除\n', '除了\n', '除卻\n', '除去\n', '除外\n', '除開\n', '除此\n', '除此之外\n', '除此以外\n', '除此而外\n', '除非\n', '隨\n', '隨後\n', '隨時\n', '隨着\n', '隨著\n', '隔夜\n', '隔日\n', '難得\n', '難怪\n', '難說\n', '難道\n', '難道說\n', '集中\n', '零\n', '需要\n', '非但\n', '非常\n', '非徒\n', '非得\n', '非特\n', '非獨\n', '靠\n', '頂多\n', '頃\n', '頃刻\n', '頃刻之間\n', '頃刻間\n', '順\n', '順着\n', '頓時\n', '頗\n', '風雨無阻\n', '飽\n', '首先\n', '馬上\n', '高低\n', '高興\n', '默然\n', '默默地\n', '齊\n', '︿\n', '!\n', '#\n', '$\n', '%\n', '&\n', ''\n', '(\n', ')\n', ')÷(1-\n', ')、\n', '*\n', '+\n', '+ξ\n', '++\n', ',\n', ',也\n', '-\n', '-β\n', '--\n', '-[*]-\n', '.\n', '/\n', '0\n', '0:2\n', '1\n', '1.\n', '12%\n', '2\n', '2.3%\n', '3\n', '4\n', '5\n', '5:0\n', '6\n', '7\n', '8\n', '9\n', ':\n', ';\n', '<\n', '<±\n', '<Δ\n', '<λ\n', '<φ\n', '<<\n', '=\n', '=″\n', '=☆\n', '=(\n', '=-\n', '=[\n', '={\n', '>\n', '>λ\n', '?\n', '@\n', 'A\n', 'LI\n', 'R.L.\n', 'ZXFITL\n', '[\n', '[①①]\n', '[①②]\n', '[①③]\n', '[①④]\n', '[①⑤]\n', '[①⑥]\n', '[①⑦]\n', '[①⑧]\n', '[①⑨]\n', '[①A]\n', '[①B]\n', '[①C]\n', '[①D]\n', '[①E]\n', '[①]\n', '[①a]\n', '[①c]\n', '[①d]\n', '[①e]\n', '[①f]\n', '[①g]\n', '[①h]\n', '[①i]\n', '[①o]\n', '[②\n', '[②①]\n', '[②②]\n', '[②③]\n', '[②④\n', '[②⑤]\n', '[②⑥]\n', '[②⑦]\n', '[②⑧]\n', '[②⑩]\n', '[②B]\n', '[②G]\n', '[②]\n', '[②a]\n', '[②b]\n', '[②c]\n', '[②d]\n', '[②e]\n', '[②f]\n', '[②g]\n', '[②h]\n', '[②i]\n', '[②j]\n', '[③①]\n', '[③⑩]\n', '[③F]\n', '[③]\n', '[③a]\n', '[③b]\n', '[③c]\n', '[③d]\n', '[③e]\n', '[③g]\n', '[③h]\n', '[④]\n', '[④a]\n', '[④b]\n', '[④c]\n', '[④d]\n', '[④e]\n', '[⑤]\n', '[⑤]]\n', '[⑤a]\n', '[⑤b]\n', '[⑤d]\n', '[⑤e]\n', '[⑤f]\n', '[⑥]\n', '[⑦]\n', '[⑧]\n', '[⑨]\n', '[⑩]\n', '[*]\n', '[-\n', '[]\n', ']\n', ']∧′=[\n', '][\n', '_\n', 'a]\n', 'b]\n', 'c]\n', 'e]\n', 'f]\n', 'ng昉\n', '{\n', '{-\n', '|\n', '}\n', '}>\n', '~\n', '~±\n', '~+\n', '¥']
In [13]:
stopwords = []
with open("./data/stopwords.txt", "r", encoding="utf-8") as f:
lines = f.readlines()
# print(lines)
for tmp in lines:
line = tmp.strip()
# print(line)
stopwords.append(line)
In [14]:
stopwords
Out[14]:
['!',
'"',
'#',
'$',
'%',
'&',
"'",
'(',
')',
'*',
'+',
',',
'-',
'--',
'.',
'..',
'...',
'......',
'...................',
'./',
'.一',
'.數',
'.日',
'/',
'//',
'0',
'1',
'2',
'3',
'4',
'5',
'6',
'7',
'8',
'9',
':',
'://',
'::',
';',
'<',
'=',
'>',
'>>',
'?',
'@',
'A',
'Lex',
'[',
'\\',
']',
'^',
'_',
'`',
'exp',
'sub',
'sup',
'|',
'}',
'~',
'~~~~',
'·',
'×',
'×××',
'Δ',
'Ψ',
'γ',
'μ',
'φ',
'φ.',
'В',
'—',
'——',
'———',
'‘',
'’',
'’‘',
'“',
'”',
'”,',
'…',
'……',
'…………………………………………………③',
'′∈',
'′|',
'℃',
'Ⅲ',
'↑',
'→',
'∈[',
'∪φ∈',
'≈',
'①',
'②',
'②c',
'③',
'③]',
'④',
'⑤',
'⑥',
'⑦',
'⑧',
'⑨',
'⑩',
'──',
'■',
'▲',
'',
'、',
'。',
'〈',
'〉',
'《',
'》',
'》),',
'」',
'『',
'』',
'【',
'】',
'〔',
'〕',
'〕〔',
'㈧',
'一',
'一.',
'一一',
'一下',
'一個',
'一些',
'一何',
'一切',
'一則',
'一則通過',
'一天',
'一定',
'一方面',
'一旦',
'一時',
'一來',
'一樣',
'一次',
'一片',
'一番',
'一直',
'一致',
'一般',
'一起',
'一轉眼',
'一邊',
'一面',
'七',
'萬一',
'三',
'三天兩頭',
'三番兩次',
'三番五次',
'上',
'上下',
'上升',
'上去',
'上來',
'上述',
'上面',
'下',
'下列',
'下去',
'下來',
'下面',
'不',
'不一',
'不下',
'不久',
'不了',
'不亦樂乎',
'不僅',
'不僅...而且',
'不僅僅',
'不僅僅是',
'不會',
'不但',
'不但...而且',
'不光',
'不免',
'不再',
'不力',
'不單',
'不變',
'不只',
'不可',
'不可開交',
'不可抗拒',
'不同',
'不外',
'不外乎',
'不夠',
'不大',
'不如',
'不妨',
'不定',
'不對',
'不少',
'不盡',
'不盡然',
'不巧',
'不已',
'不常',
'不得',
'不得不',
'不得了',
'不得已',
'不必',
'不怎麼',
'不怕',
'不惟',
'不成',
'不拘',
'不擇手段',
'不敢',
'不料',
'不斷',
'不日',
'不時',
'不是',
'不曾',
'不止',
'不止一次',
'不比',
'不消',
'不滿',
'不然',
'不然的話',
'不特',
'不獨',
'不由得',
'不知不覺',
'不管',
'不管怎樣',
'不經意',
'不勝',
'不能',
'不能不',
'不至於',
'不若',
'不要',
'不論',
'不起',
'不足',
'不過',
'不迭',
'不問',
'不限',
'與',
'與其',
'與其說',
'與否',
'與此同時',
'專門',
'且',
'且不說',
'且說',
'兩者',
'嚴格',
'嚴重',
'個',
'個人',
'個別',
'中小',
'中間',
'豐富',
'串行',
'臨',
'臨到',
'爲',
'爲主',
'爲了',
'爲什麼',
'爲什麼',
'爲何',
'爲止',
'爲此',
'爲着',
'主張',
'主要',
'舉凡',
'舉行',
'乃',
'乃至',
'乃至於',
'麼',
'之',
'之一',
'之前',
'之後',
'之後',
'之所以',
'之類',
'烏乎',
'乎',
'乒',
'乘',
'乘勢',
'乘機',
'乘勝',
'乘虛',
'乘隙',
'九',
'也',
'也好',
'也就是說',
'也是',
'也罷',
'了',
'瞭解',
'爭取',
'二',
'二來',
'二話不說',
'二話沒說',
'於',
'於是',
'於是乎',
'云云',
'云爾',
'互',
'互相',
'五',
'些',
'交口',
'亦',
'產生',
'親口',
'親手',
'親眼',
'親自',
'親身',
'人',
'人人',
'人們',
'人家',
'人民',
'什麼',
'什麼樣',
'什麼',
'僅',
'僅僅',
'今',
'今後',
'今天',
'今年',
'今後',
'介於',
'仍',
'仍舊',
'仍然',
'從',
'從不',
'從嚴',
'從中',
'從事',
'從今以後',
'從優',
'從古到今',
'從古至今',
'從頭',
'從寬',
'從小',
'從新',
'從無到有',
'從早到晚',
'從未',
'從來',
'從此',
'從此以後',
'從而',
'從輕',
'從速',
'從重',
'他',
'他人',
'他們',
'他是',
'他的',
'代替',
'以',
'以上',
'以下',
'以爲',
'以便',
'以免',
'以前',
'以及',
'以後',
'以外',
'以後',
'以故',
'以期',
'以來',
'以至',
'以至於',
'以致',
'們',
'任',
'任何',
'任憑',
'任務',
'企圖',
'夥同',
'會',
'偉大',
'傳',
'傳說',
'傳聞',
'似乎',
'似的',
'但',
'但凡',
'但願',
'但是',
'何',
'何樂而不爲',
'何以',
'何況',
'何處',
'何妨',
'何嘗',
'何必',
'何時',
'何止',
'何苦',
'何須',
'餘外',
'作爲',
'你',
'你們',
'你是',
'你的',
'使',
'使得',
'使用',
'例如',
'依',
'依據',
'依照',
'依靠',
'便',
'便於',
'促進',
'保持',
'保管',
'保險',
'俺',
'俺們',
'倍加',
'倍感',
'倒不如',
'倒不如說',
'倒是',
'倘',
'倘使',
'倘或',
'倘然',
'倘若',
'借',
'藉以',
'藉此',
'假使',
'假如',
'假若',
'偏偏',
'做到',
'偶爾',
'偶而',
'儻然',
'像',
'兒',
'允許',
'元/噸',
'充其極',
'充其量',
'充分',
'先不先',
'先後',
'先後',
'先生',
'光',
'光是',
'全體',
'全力',
'全年',
'全然',
'全身心',
'全部',
'全都',
'全面',
'八',
'八成',
'公然',
'六',
'兮',
'共',
'共同',
'共總',
'關於',
'其',
'其一',
'其中',
'其二',
'其他',
'其餘',
'其後',
'其它',
'其實',
'其次',
'具體',
'具體地說',
'具體來說',
'具體說來',
'具有',
'兼之',
'內',
'再',
'再其次',
'再則',
'再有',
'再次',
'再者',
'再者說',
'再說',
'冒',
'衝',
'決不',
'決定',
'決非',
'況且',
'準備',
'湊巧',
'凝神',
'幾',
'幾乎',
'幾度',
'幾時',
'幾番',
'幾經',
'凡',
'凡是',
'憑',
'憑藉',
'出',
'出於',
'出去',
'出來',
'出現',
'分別',
'分頭',
'分期',
'分期分批',
'切',
'切不可',
'切切',
'切勿',
'切莫',
'則',
'則甚',
'剛',
'剛好',
'剛巧',
'剛纔',
'初',
'別',
'別人',
'別處',
'別是',
'別的',
'別管',
'別說',
'到',
'到了兒',
'到處',
'到頭',
'到頭來',
'到底',
'到目前爲止',
'前後',
'前此',
'前者',
'前進',
'前面',
'加上',
'加之',
'加以',
'加入',
'加強',
'動不動',
'動輒',
'勃然',
'匆匆',
'十分',
'千',
'千萬',
'千萬千萬',
'半',
'單',
'單單',
'單純',
'即',
'即令',
'即使',
'即便',
'即刻',
'即如',
'即將',
'即或',
'即是說',
'即若',
'卻',
'卻不',
'歷',
'原來',
'去',
'又',
'又及',
'及',
'及其',
'及時',
'及至',
'雙方',
'反之',
'反之亦然',
'反之則',
'反倒',
'反倒是',
'反應',
'反手',
'反映',
'反而',
'反過來',
'反過來說',
'取得',
'取道',
'受到',
'變成',
'古來',
'另',
'另一個',
'另一方面',
'另外',
'另悉',
'另方面',
'另行',
'只',
'只當',
'只怕',
'只是',
'只有',
'只消',
'只要',
'只限',
'叫',
'叫做',
'召開',
'叮咚',
'叮噹',
'可',
'可以',
'可好',
'可是',
'可能',
'可見',
'各',
'各個',
'各人',
'各位',
'各地',
'各式',
'各種',
'各級',
'各自',
'合理',
'同',
'同一',
'同時',
'同樣',
'後',
'後來',
'後者',
'後面',
'向',
'向使',
'向着',
'嚇',
'嗎',
'否則',
'吧',
'吧噠',
'吱',
'呀',
'呃',
'呆呆地',
'吶',
'嘔',
'唄',
'嗚',
'嗚呼',
'呢',
'周圍',
'呵',
'呵呵',
'呸',
'呼哧',
'呼啦',
'咋',
'和',
'咚',
'咦',
'咧',
'咱',
'咱們',
'咳',
'哇',
'哈',
'哈哈',
'哉',
'哎',
'哎呀',
'哎喲',
'譁',
'嘩啦',
'喲',
'哦',
'哩',
'哪',
'哪個',
'哪些',
'哪兒',
'哪天',
'哪年',
'哪怕',
'哪樣',
'哪邊',
'哪裏',
'哼',
'哼唷',
'唉',
'唯有',
'啊',
'啊呀',
'啊哈',
'啊喲',
'啐',
'啥',
'啦',
'啪達',
'啷噹',
'喀',
'喂',
'喏',
'喔唷',
'嘍',
'嗡',
'嗡嗡',
'嗬',
'嗯',
'噯',
'嘎',
'嘎嘎',
'嘎登',
'噓',
'嘛',
'嘻',
'嘿',
'嘿嘿',
'四',
'因',
'因爲',
'因了',
'因此',
'因着',
'因而',
'固',
'固然',
'在',
'在下',
'在於',
'地',
'均',
'堅決',
'堅持',
'基於',
'基本',
'基本上',
'處在',
'處處',
'處理',
'複雜',
'多',
'多麼',
'多虧',
'多多',
'多多少少',
'多多益善',
'多少',
'多年前',
'多年來',
'多數',
'多次',
'夠瞧的',
'大',
'大不了',
'大舉',
'大事',
'大體',
'大體上',
'大凡',
'大力',
'大多',
'大多數',
'大大',
'大家',
'大張旗鼓',
'大批',
'大抵',
'大概',
'大略',
'大約',
'大致',
'大都',
'大量',
'大面兒上',
'失去',
'奇',
'奈',
'奮勇',
'她',
'她們',
'她是',
'她的',
'好',
'好在',
'好的',
'好象',
'如',
'如上',
'如上所述',
'如下',
'如今',
'如何',
'如其',
'如前所述',
'如同',
'如常',
'如是',
'如期',
'如果',
'如次',
'如此',
'如此等等',
'如若',
'始而',
'姑且',
'存在',
'存心',
'孰料',
'孰知',
'寧',
'寧可',
'寧願',
'寧肯',
'它',
'它們',
'它們的',
'它是',
'它的',
'安全',
'完全',
'完成',
'定',
'實現',
'實際',
'宣佈',
'容易',
'密切',
'對',
'對於',
'對應',
'對待',
'對方',
'對比',
'將',
'將才',
'將要',
'將近',
'小',
'少數',
'爾',
'爾後',
'爾爾',
'爾等',
'尚且',
'尤其',
'就',
'就地',
'就是',
'就是了',
'就是說',
'就此',
'就算',
'就要',
'盡',
'儘可能',
'盡如人意',
'盡心盡力',
'盡心竭力',
'儘快',
'儘早',
'盡然',
'儘管',
'儘管如此',
'儘量',
'局外',
'居然',
'屆時',
'屬於',
'屢',
'屢屢',
'屢次',
'屢次三番',
'豈',
'豈但',
'豈止',
'豈非',
'川流不息',
'左右',
'巨大',
'鞏固',
'差一點',
'差不多',
'己',
'已',
'已矣',
'已經',
'巴',
'巴巴',
'帶',
'幫助',
'常',
'常常',
'常言說',
'常言說得好',
'常言道',
'平素',
'年復一年',
'並',
'並不',
'並不是',
'並且',
'並排',
'並無',
'並沒',
'並沒有',
'並肩',
'並非',
'廣大',
'廣泛',
'應當',
'應用',
'應該',
'庶乎',
'庶幾',
'開外',
'開始',
'開展',
'引起',
'弗',
'彈指之間',
'強烈',
'強調',
'歸',
'歸根到底',
'歸根結底',
'歸齊',
'當',
'當下',
'當中',
'當兒',
'當前',
'當即',
'當口兒',
'當地',
'當場',
'當頭',
'當庭',
'當時',
'當然',
'當真',
'當着',
'形成',
'徹夜',
'徹底',
'彼',
'彼時',
...]
In [17]:
stopwords = list(set(stopwords))
In [18]:
stopwords
Out[18]:
['',
'但是',
'自己',
'惟其',
'九',
'歸根到底',
'各級',
'——',
'¥',
'非特',
'過',
'累年',
'距',
'不必',
'A',
'數/',
'所有',
'甚麼',
'呵呵',
'略',
'大面兒上',
'猶自',
'4',
'成年累月',
'路經',
'全部',
'我是',
'可',
'除此',
'各地',
'何況',
'不一',
'①',
'小',
'日臻',
'大大',
'方',
'據說',
'<',
'能',
'你們',
'接下來',
'前進',
'各種',
'一則',
'自家',
'來着',
'高興',
'好',
'}>',
'而是',
'俺',
'矣哉',
'另行',
'那',
'倘使',
'[*]',
'然後',
'不下',
'變成',
'接著',
'不同',
'八成',
'、',
'乘勝',
'總而言之',
'率爾',
'後面',
'並不是',
'今',
'[⑤]',
'剛巧',
'一切',
'[②⑦]',
'倘或',
'從新',
'致',
'既',
'還要',
'曾經',
'{',
'大不了',
'日復一日',
'而後',
'以期',
'<<',
'主要',
'極端',
'f]',
'如是',
'這兒',
'充分',
'...',
'多年來',
'這種',
'趁熱',
'僅',
'旁人',
'以至',
'其二',
'起先',
'盡然',
'”',
'裏面',
'趁便',
'此處',
'所在',
')',
'不比',
'甚至於',
'不外乎',
'#',
'剛',
'2',
'而況',
'經',
'成爲',
'故意',
'叮噹',
'[⑤e]',
'自',
'湊巧',
'乃至',
'大舉',
'零',
'概',
'<±',
'總結',
'連連',
'而又',
'不僅僅是',
'保管',
'進行',
'[②j]',
'常常',
'必',
'砰',
'產生',
'你的',
'即若',
'沒',
'縱使',
'嗡嗡',
'略加',
'才能',
'-β',
'據',
'才',
'真正',
'"',
'巨大',
'故此',
'最後',
'離',
'對於',
'有的是',
'過於',
'現代',
'不勝',
'有效',
'但凡',
'哈',
'並肩',
'以來',
'分頭',
'近來',
'不由得',
'這時',
'今後',
'非徒',
'不僅...而且',
'要麼',
'人家',
'只當',
'吶',
'有關',
'連聲',
'哪年',
'設若',
'絕對',
'歸根結底',
'據此',
'次第',
'每逢',
'種',
'及至',
'γ',
'一片',
'不拘',
'應當',
'&',
'從古到今',
'強調',
'他人',
'或多或少',
'轉變',
'不盡',
'往往',
'哩',
'現在',
'_',
'親眼',
'當',
'遵循',
'呼哧',
'高低',
'之',
'正是',
'怪不得',
'此間',
'寧願',
'絕不',
'快',
'我的',
'很少',
'其餘',
'即使',
'意思',
'何妨',
'可是',
'一次',
'反手',
'是',
'廣大',
'全都',
'就是',
'挨門挨戶',
'可好',
']∧′=[',
'其',
'盡心盡力',
'還有',
'者',
'啥',
'’‘',
'似乎',
'問題',
'您們',
'依靠',
'照',
'[④e]',
')÷(1-',
'爲止',
'乘',
'年復一年',
'目前',
'哪裏',
'℃',
'藉以',
'這裏',
'啦',
'以免',
'阿',
'沙沙',
'2.3%',
'某些',
'隔日',
'絕非',
'=-',
'會',
'“',
'或則',
'可能',
'光是',
')',
'切不可',
'從而',
'[',
'它的',
'多麼',
'良好',
'咧',
'$',
'他的',
'那麼',
',',
'均',
'將才',
'左右',
'不限',
'誰料',
'’',
'策略地',
'具體',
'至今',
'盡心竭力',
'連日',
'嘔',
'竊',
'幾',
'規定',
'譬如',
'啪達',
'比及',
'何苦',
'以前',
'老老實實',
'不只',
'川流不息',
'聯繫',
'%',
'向使',
'對應',
'或曰',
'實現',
'着',
'[②⑧]',
'迫於',
'什麼',
'0',
'兼之',
'避免',
'每時每刻',
'依',
'因此',
'麼',
'尚且',
'人們',
'乘機',
'嘎登',
'怎麼樣',
'矣',
'[②⑥]',
'爲何',
'/',
'不定',
'考慮',
'凝神',
'堅決',
'忽然',
'嘿',
'傳聞',
'前後',
'下',
'→',
'專門',
'那末',
'跟',
'c]',
'且說',
'乒',
'極力',
'讓',
'Ⅲ',
'屢次三番',
'=',
'哎喲',
'充其量',
'牢牢',
'誰人',
'至',
'根本',
'【',
'諸',
'′∈',
'”,',
'表明',
'這就是說',
'臨到',
'[③]',
'寧可',
'常言道',
'從早到晚',
'雙方',
'立即',
'嗚',
'出於',
'因',
'此時',
'造成',
'當兒',
'臭',
'與否',
'千萬千萬',
'挨門逐戶',
'看看',
'不知不覺',
'不擇手段',
'與其',
'%',
'?',
'過來',
'直接',
'形成',
'相等',
'處理',
'古來',
'[①E]',
'從速',
'㈧',
'′|',
'所',
'任務',
'⑦',
'所幸',
'喔唷',
'本身',
'那樣',
'實際',
'這麼點兒',
'連袂',
'長此下去',
'就地',
'果真',
'兒',
'[②⑩]',
'單純',
'適應',
'Δ',
'不迭',
'恰如',
'這麼樣',
'爾爾',
'即',
'並非',
'!',
'換句話說',
'不然',
'各位',
'雖然',
'此地',
'處處',
'地',
'———',
'寧肯',
'嗚呼',
'按說',
'啊喲',
'夠瞧的',
'關於',
'如何',
'從不',
'×',
'從嚴',
'啐',
'盡',
'︿',
'哪怕',
'://',
'幾時',
'積極',
'從小',
'不日',
'e]',
'話說',
'二話沒說',
'倒不如',
'噯',
'每每',
'對方',
'哇',
'[⑩]',
'隨著',
'以後',
'不得已',
'注意',
'及其',
'不但...而且',
'已',
'[-',
'A',
'②c',
'行爲',
'失去',
'頗',
'[②⑤]',
'孰知',
'呸',
'得天獨厚',
'極其',
'不要',
'[①a]',
'哪些',
'幾度',
'逐步',
'爲此',
'~±',
'一何',
'巴巴',
'您',
'構成',
'總的說來',
'沒奈何',
'若',
'定',
'不至於',
'能夠',
'巴',
'無寧',
'了',
'當地',
'.數',
'當場',
'沿着',
'少數',
'趕快',
'=″',
'可以',
'因而',
'對比',
'有所',
'舉行',
'蠻',
'比如說',
'那兒',
'④',
'.',
'相對而言',
'從未',
'趁早',
'比照',
'當然',
'來講',
'立地',
'半',
'得到',
'一下',
'差一點',
'大多',
'…………………………………………………③',
'彼此',
'趕早不趕晚',
'得出',
'傳說',
'更加',
'看上去',
'大體',
'特別是',
'切勿',
'極度',
'親自',
'強烈',
'那麼些',
'二來',
'憤然',
'上去',
'三番兩次',
'促進',
'暗地裏',
'不可抗拒',
'上',
'這麼些',
'倒不如說',
'將',
'另一方面',
'如同',
'不巧',
'準備',
'*',
'〈',
'省得',
'非常',
'複雜',
'自後',
'餘外',
'[②g]',
'如上',
'儘量',
'〕〔',
'幾乎',
'哪個',
'馬上',
'喲',
'以便',
'怎',
'自個兒',
'乃',
'5',
'[⑤f]',
']',
'|',
'汝',
'憑藉',
'不特',
'還是',
'共總',
'後來',
'適當',
'急匆匆',
',',
'[①①]',
'大家',
'[⑧]',
'別處',
'之後',
'在',
'並且',
'隨後',
'一邊',
'再者',
'單單',
'比較',
'呆呆地',
'由此可見',
'廣泛',
'要是',
'不對',
'反之',
'往',
'正在',
'趁機',
'衝',
'始而',
'極爲',
'用來',
'我',
':',
'儘管',
'只限',
'[③g]',
'難道',
'++',
'既然',
'......',
'下去',
'介於',
'屢次',
'與',
'重要',
'…',
'何處',
'!',
'嗬',
'剛纔',
'對',
'奮勇',
'長話短說',
'[⑤]]',
'到了兒',
'哪邊',
'格外',
'第',
'除外',
'近幾年來',
'而言',
'凡',
'固然',
'保持',
'莫不然',
'竟然',
'嚴格',
'然',
'給',
'有點',
'按',
'爲着',
'大抵',
'哎',
'_',
'不起',
'如下',
'要求',
'人民',
'見',
'大力',
'論說',
'放量',
''',
'集中',
'哼唷',
'呀',
'白白',
'當前',
'行動',
'[②a]',
'以至於',
'有些',
'很',
'//',
'多年前',
'連日來',
'分期',
'就此',
'⑩',
'如此',
'靠',
'然後',
'越是',
'來說',
'今後',
'內',
'怎麼',
'除卻',
'傳',
'從輕',
'陳年',
'到底',
'恰似',
'向',
'9',
'.',
'就是說',
'較之',
'常',
'移動',
'③',
'`',
'──',
'顯然',
'個別',
'僅僅',
'頓時',
'比方',
'下來',
'前面',
'於是',
'又',
'繼之',
'恰巧',
'以上',
'引起',
'這麼',
'結果',
'剛好',
'大',
'Ψ',
'昂然',
'迄',
'[⑨]',
'同時',
'對待',
'\\',
'不僅僅',
'達到',
'~~~~',
':',
'起見',
'他',
'—',
'運用',
'[②h]',
'即或',
'哪天',
'不敢',
'純',
'正值',
'據實',
'反映',
'>λ',
'朝着',
'周圍',
'5',
'全力',
'瑟瑟',
'理應',
'說明',
'幫助',
'咱們',
'具體地說',
'齊',
'不已',
'截然',
'理當',
'總的來看',
'更進一步',
'$',
'怕',
'即如',
'便',
'主張',
'[②f]',
'不曾',
'好的',
'個人',
'安全',
'突出',
'縷縷',
'莫',
'不會',
'[]',
'不可',
'於是乎',
'慣常',
'由此',
'-[*]-',
'必將',
'究竟',
'正常',
'好在',
'不若',
'另一個',
'用',
'獨',
'從',
'既...又',
'啊哈',
'其他',
'不經意',
'任憑',
'日見',
'附近',
'[①f]',
'(',
'暗自',
'甚至',
'豈非',
'哪樣',
'6',
'不盡然',
'許多',
'其次',
'呼啦',
'鞏固',
'限制',
'[②]',
'召開',
'其一',
'莫不',
'動不動',
'邊',
'咚',
'卻',
'使',
'打',
'到',
'曾',
'進來',
'只是',
'+',
'[①⑨]',
'如',
'∪φ∈',
'上升',
'偏偏',
'據我所知',
'反過來',
'賊死',
'倍感',
'[①D]',
'以爲',
'後',
'頃刻之間',
'明顯',
'您是',
'的話',
'焉',
'要不是',
'而且',
'只要',
'除此之外',
'[②B]',
'當下',
'大張旗鼓',
'何樂而不爲',
'不管',
'亦',
'偶爾',
'怎樣',
'不常',
'倘若',
'敞開兒',
'立時',
'[②i]',
'開外',
'甭',
'哈哈',
'之後',
'決定',
'從頭',
'獲得',
'呢',
'宣佈',
'也好',
'順',
'別說',
'7',
'如此等等',
'等到',
'一旦',
'必須',
'充其極',
'據悉',
'叫',
'本',
'得了',
'一些',
'起',
'能否',
'恰逢',
';',
'按時',
'白',
'而外',
'ng昉',
'容易',
'自從',
'七',
'有着',
'&',
'總是',
'甚且',
'知道',
'個',
'={',
'呵',
'覺得',
'9',
'非但',
'[⑥]',
'逢',
'深入',
'是以',
'■',
'沒有',
'故而',
'切',
'切莫',
'部分',
'這般',
'到頭來',
'彼',
'長期以來',
'大事',
'難道說',
'不止一次',
'滿',
'它',
'像',
'五',
'它們',
'譬喻',
'我們',
'應用',
'如果',
'兮',
'共',
'{-',
'與此同時',
'嗡',
'開始',
'畢竟',
'進入',
'儘早',
'得起',
'[①A]',
'千',
'果然',
'擴大',
'由是',
'相同',
'迅速',
'等等',
'仍然',
'猛然',
'某',
'‘',
'1.',
'允許',
'[③b]',
'各自',
'它是',
'不免',
'就',
'認爲',
'從優',
'爲',
'來自',
'管',
'全年',
'殆',
'長線',
'從此',
'[③h]',
'最大',
'的確',
'分期分批',
'完成',
'咳',
'雖說',
'然而',
'之一',
'極了',
')、',
'只',
'然則',
'反而',
'不止',
'[①⑦]',
'一一',
'匆匆',
'爾後',
'只怕',
'勃然',
'轉貼',
'當即',
'其後',
'從中',
'一樣',
'[②③]',
'烏乎',
'根據',
'論',
'大約',
'都',
'採取',
'>',
'和',
'今天',
'啷噹',
'好象',
...]
把“內容”處理,轉化成標準格式
In [24]:
comment_list = []
for tmp in content:
# print(tmp)
# 把一句句話變成一個個詞
seg_list = jieba.cut(tmp, cut_all=False)
# print(seg_list)
seg_str = ",".join(seg_list)
# print(seg_str)
comment_list.append(seg_str)
In [25]:
comment_list
Out[25]:
[' ,從,編程,小白,的,角度看,,,入門,極佳,。',
'很,好,的,入門,書,,,簡潔,全面,,,適合,小白,。',
'講解,全面,,,許多,小,細節,都,有,顧及,,,三個,小,項目,受益匪淺,。',
'前半部,分講,概念,深入淺出,,,要言不煩,,,很贊',
'看,了,一遍,還是,不會,寫,,,有個,概念,而已',
'中規中矩,的,教科書,,,零,基礎,的,看,了,依舊,看不懂',
'內容,太,淺顯,,,個人,認爲,不,適合,有,其它,語言,編程,基礎,的,人',
'破書,一本',
'適合,完完全全,的,小白讀,,,有,其他,語言,經驗,的,可以,去,看,別的,書',
'基礎知識,寫,的,挺,好,的,!',
'太,基礎',
'略,_,嗦,。,。,適合,完全,沒有,編程,經驗,的,小白',
'真的,真的,不,建議,買']
In [27]:
## 統計次個數
con = CountVectorizer(stop_words=stopwords)
X = con.fit_transform(comment_list)
In [29]:
X.toarray()
Out[29]:
array([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1],
[0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)
In [30]:
con.get_feature_names()
Out[30]:
['一本',
'一遍',
'三個',
'中規中矩',
'依舊',
'入門',
'內容',
'分講',
'前半部',
'受益匪淺',
'基礎',
'基礎知識',
'完完全全',
'小白',
'小白讀',
'建議',
'很贊',
'教科書',
'有個',
'極佳',
'概念',
'淺顯',
'深入淺出',
'看不懂',
'真的',
'破書',
'簡潔',
'細節',
'經驗',
'編程',
'要言不煩',
'角度看',
'講解',
'語言',
'適合',
'項目',
'顧及']
準備訓練集和測試集
In [33]:
x_train = X.toarray()[:10, :]
y_train = data["評價"][:10]
In [34]:
x_train
Out[34]:
array([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1],
[0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)
In [35]:
y_train
Out[35]:
0 好評
1 好評
2 好評
3 好評
4 差評
5 差評
6 差評
7 差評
8 差評
9 好評
Name: 評價, dtype: object
In [36]:
x_test = X.toarray()[10:, :]
y_test = data["評價"][10:]
模型訓練
In [39]:
mb = MultinomialNB(alpha=1)
mb.fit(x_train, y_train)
y_pre = mb.predict(x_test)
In [40]:
print("預測值:", y_pre)
print("真實值:", y_test)
預測值: ['差評' '差評' '差評']
真實值: 10 差評
11 差評
12 差評
Name: 評價, dtype: object
模型評估
In [41]:
mb.score(x_test, y_test)
Out[41]:
1.0