數據清洗

今天看的內容叫做 bag_of_words_model,本來以爲將的是詞袋模型,想趁機學習一下,實際上做的評論的分類,分類器用的是 隨機森林,和詞袋模型有什麼關係,目前還沒有理解,但是代碼中理解的比較充分的一點是 數據清洗,數據清洗的主要代碼如下(但是反思一下,看過的論文代碼好像並沒有做數據清洗的工作,一般是對數據集進行分詞這樣的操作):
def clean_text(text):
text = BeautifulSoup(text, ‘html.parser’).get_text() #去除網頁標籤
text = re.sub(r’[^a-zA-Z]’, ’ ', text) # r 是除了XXX以外的意思
words = text.lower().split() #小寫
words = [w for w in words if w not in eng_stopwords] # 去除停用詞
return ’ '.join(words) #str.join()函數的意思是將序列以指定的字符連接爲一個新的字符串

紀念一下,第一次寫博客,我們要做一個認真的小小白,在自己的世界裏默默努力着
那明天的任務就是將代碼的結合詞袋模型的部分看懂(結合視頻,一定是前面的視頻沒有看)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章