數據不足,如何進行遷移學習?

摘要: 在沒有足夠的訓練數據時,本文詳細介紹瞭如何使用FloydHub、fast.ai和PyTorch進行遷移學習。

現在,人工智能的發展處於跳躍式階段,我們也對AI在大型數據集的應用進展感到吃驚。更重要的是,那些我們沒有跟蹤的數十億張照片或餐廳的評論並沒有被遺漏掉:遷移學習技術讓收集數據變得更加“容易”。另外,得益於PyTorch框架fast.ai應用程序庫以及FloydHub公司,小團隊或者是個別開發人員也能輕鬆的應用這些方法。

本文要講的例子就是ULMFiTJeremy HowardSebastian Ruder在fast.ai展示瞭如何用幾百個標記準確的對電影評論進行分類。除此之外,還有一個在通用英語文本語料庫中訓練的模型。

除了英語文本資料庫和標記對評論進行分類外,fast.ai還有一個小技巧,它擁有大量特定領域的文本:10萬多個樣本評論,來展示普通英語和電影評論之間的區別。這引發了我們的思考:至少得需要多少數據,才足以彌合訓練示例和通用語言模型之間的差距?

這並不是一個特別愚蠢的問題。Frame可以幫助Zendesk,Intercom和Slack等規模性公司標記、評價和理解與客戶的對話。也就是說, “只要有足夠的對話,我們就可以手動評價”和“我們有足夠的數據從頭訓練一個模型”,這二者之間有很大的差距。僅僅幾十個標籤和幾千條相關對話,這能夠做什麼?

事實證明,這非常有用。在本文中,我們將使用相同的電影評論數據集來證明:即便是隻有少部分的數據,數據遷移依然可以有效。更加詳細的代碼請參考ULMFiT

遷移什麼?

深度神經網絡是當前最新人工智能背後的關鍵技術,比如理解圖像、音頻或文本。深度神經網絡的核心是它由層(“深度”)組成,每個層都將輸入轉換爲更接近網絡訓練答案的新的表示。

我們通常會抱怨,不瞭解神經網絡的中間層到底發生了什麼……其實,它們通常被設計爲更加清晰、可解釋的角色!比如:很多語言模型利用嵌入層將單個單詞或短語進行分類,將具有相似含義的單詞或短語放在一起。舉個例子來說,這將有助於翻譯AI在需要使用“傑出”(illustrious)這個詞的時候,會根據經驗選擇使用“偉大”(great)。

現在變得更有趣了:一個“知道”“illustrious = great”的層不僅有利於翻譯,還可以學習情緒估計,將不同的觀點聚集起來。這就是遷移學習,也就是說模型在一個任務中學習到的東西可以對另外一個學習任務有幫助。事實上,這個特殊的例子特別受歡迎,以至於改進的通用語言模型已經成爲一個全新的領域!

遷移學習不僅有利於任務之間的轉移:它可以幫助一般模型在特定環境中更好的工作。例如:一個通用的英語情緒模型或許可以預測電影評論,但是可能不知道“緊張、緊張的驚悚”是件好事。

這就是Jeremy和Sebastian Rudder的通用語言模型微調文本分類(ULMFiT)的用武之地。他們對一個包含100,000個IMDB評論的通用語言模型做了改進。即便是隻標記幾百個單詞,其餘的單詞也能夠幫助AI學習審稿人經常用“傑出”或“很好”代替“緊張、緊繃”等,這很好的彌補了數據不足的缺陷。結果的準確度令我們感到驚訝:僅僅有500個標記示例,分類的準確度卻高達94%。

未被標記的數據最少需要多少?

ULMFiT爲NLP提供了一個有力的依據,使模型能夠更有效的利用較小的數據集。在這項研究中,我們專注於回答以下問題:

如果我們對標記示例的預算特別少,那麼,得需要收集多少未標記的數據纔能有效的使用遷移學習?

爲了解決這個問題,我們使用了大量固定的域數據池,並改變了標記示例的數量,來看看模型應該如何改進。將標記示例的數量保持不變,並改變未標記的其他域示例的數量。也就是說,我們的實驗包括:

1.語言建模(變量)

2.語言任務(不變量)

我們的語言任務、情感分類和原始的ULMFiT論文中的任務相同,另外,也使用了IMDB電影評論數據集。在實驗中,標記情緒訓練樣本的數量保持在500個,500個樣本可以用於很多小領域的研究,並且,有助於強調不同語言模型的差異提升能力。

對於語言建模,我們改變了可用於語言任務的三種語言模型的域數據量:

  • 僅限ULM:這是使用Wikitext103預訓練英語語言模型
  • 僅限域(domain):僅在IMDB數據上的基於域訓練的模型。
  • ULM +域(domain):ULMFiT模型

訓練這些模型的計算量特別大,最大的域訓練可能需要幾天的時間才能完成。爲了加快訓練速度和有效的執行網格搜索,我們使用了FloydHub。

結果

經過大約50個小時GPU處理,結果如下:

從實驗結果,我們可得知:

  • 使用33%的域數據,就可以獲得75%數據的UMLFiT性能。
  • 令人驚訝的是,ULM + 2,000域示例的語言任務預測準確率約爲85%。



本文作者:【方向】

閱讀原文

本文爲雲棲社區原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章