李宏毅機器學習課程筆記-9.6基於RNN和PyTorch的文本情感分類

本文爲作者學習李宏毅機器學習課程時參照樣例完成homework4的記錄。

全部課程PPT、數據和代碼下載鏈接:

鏈接:https://pan.baidu.com/s/1n_N7aoaNxxwqO03EmV5Bjg 提取碼:tpmc

代碼倉庫:https://github.com/chouxianyu/LHY_ML2020_Codes

  • 任務描述

    通過RNN實現文本情感分類(Text Sentiment Classification)。

  • 數據集描述

    輸入是1個句子,輸出是0(負面)或1(正面)。

    訓練集:標註數據20萬,無標註數據120萬

    測試集:20萬(無標註)

  • 數據格式

    • training_label.txt:label +++$+++ sentence,其中+++$+++只是分隔符
    • training_nolabel.txt:每一行就是一個句子,沒有label
    • testing_data.txt:
  • 數據預處理

    一個句子(sentence)中有多個word,我們需要通過Word Embedding(我的其它文章裏有介紹)用一個vector表示一個word, 然後使用RNN得到一個表示該sentence的vector。

  • 半監督學習

    這裏使用一種半監督學習方法:Self-Training(我的其它文章裏有介紹)。使用有標籤數據訓練好模型,然後對無標籤數據進行預測,並根據預測結果對無標籤數據進行標註("僞標籤")並繼續訓練模型

  • 第三方庫

    使用Python第三方庫gensim實現word2vec模型,以進行Word Embedding。

  • 代碼

    https://github.com/chouxianyu/LHY_ML2020_Codes/tree/master/hw4_RNN


Github(github.com):@chouxianyu

Github Pages(github.io):@臭鹹魚

知乎(zhihu.com):@臭鹹魚

博客園(cnblogs.com):@臭鹹魚

B站(bilibili.com):@絕版臭鹹魚

微信公衆號:@臭鹹魚

轉載請註明出處,歡迎討論和交流!


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章