李宏毅機器學習課程筆記-9.6基於RNN和PyTorch的文本情感分類

原創

2021-04-15 13:39

本文爲作者學習李宏毅機器學習課程時參照樣例完成homework4的記錄。

全部課程PPT、數據和代碼下載鏈接：

任務描述

通過RNN實現文本情感分類(Text Sentiment Classification)。
數據集描述

輸入是1個句子，輸出是0(負面)或1(正面)。

訓練集：標註數據20萬，無標註數據120萬

測試集：20萬(無標註)
數據格式
- training_label.txt：label +++$+++ sentence，其中+++$+++只是分隔符
- training_nolabel.txt：每一行就是一個句子，沒有label
- testing_data.txt：
數據預處理

一個句子(sentence)中有多個word，我們需要通過Word Embedding(我的其它文章裏有介紹)用一個vector表示一個word，然後使用RNN得到一個表示該sentence的vector。
半監督學習

這裏使用一種半監督學習方法：Self-Training(我的其它文章裏有介紹)。使用有標籤數據訓練好模型，然後對無標籤數據進行預測，並根據預測結果對無標籤數據進行標註("僞標籤")並繼續訓練模型
第三方庫

使用Python第三方庫gensim實現word2vec模型，以進行Word Embedding。
代碼

https://github.com/chouxianyu/LHY_ML2020_Codes/tree/master/hw4_RNN

Github（github.com）：@chouxianyu

Github Pages（github.io）：@臭鹹魚

知乎（zhihu.com）：@臭鹹魚

博客園（cnblogs.com）：@臭鹹魚

B站（bilibili.com）：@絕版臭鹹魚

微信公衆號：@臭鹹魚

轉載請註明出處，歡迎討論和交流!

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.