本文爲作者學習李宏毅機器學習課程時參照樣例完成homework4的記錄。
全部課程PPT、數據和代碼下載鏈接:
鏈接:https://pan.baidu.com/s/1n_N7aoaNxxwqO03EmV5Bjg 提取碼:tpmc
代碼倉庫:https://github.com/chouxianyu/LHY_ML2020_Codes
-
任務描述
通過RNN實現文本情感分類(Text Sentiment Classification)。
-
數據集描述
輸入是1個句子,輸出是0(負面)或1(正面)。
訓練集:標註數據20萬,無標註數據120萬
測試集:20萬(無標註)
-
數據格式
- training_label.txt:
label +++$+++ sentence
,其中+++$+++
只是分隔符 - training_nolabel.txt:每一行就是一個句子,沒有label
- testing_data.txt:
- training_label.txt:
-
數據預處理
一個句子(sentence)中有多個word,我們需要通過Word Embedding(我的其它文章裏有介紹)用一個vector表示一個word, 然後使用RNN得到一個表示該sentence的vector。
-
半監督學習
這裏使用一種半監督學習方法:Self-Training(我的其它文章裏有介紹)。使用有標籤數據訓練好模型,然後對無標籤數據進行預測,並根據預測結果對無標籤數據進行標註("僞標籤")並繼續訓練模型
-
第三方庫
使用Python第三方庫
gensim
實現word2vec模型,以進行Word Embedding。 -
代碼
https://github.com/chouxianyu/LHY_ML2020_Codes/tree/master/hw4_RNN
Github(github.com):@chouxianyu
Github Pages(github.io):@臭鹹魚
知乎(zhihu.com):@臭鹹魚
博客園(cnblogs.com):@臭鹹魚
B站(bilibili.com):@絕版臭鹹魚
微信公衆號:@臭鹹魚
轉載請註明出處,歡迎討論和交流!