Universal Language Model Fine-tuning for Text Classification

純手打,相互學習,如有問題還望指正。
部分英文術語屬於最新提出,會直接貼出英文,抱歉。
深度學習,文本分析等問題可以加QQ交流,相互學習。QQ:1307629084
論文歸類:遷移學習
簡要說明:一個不錯的自然語言遷移學習模型。

原文鏈接:https://arxiv.org/pdf/1801.06146.pdf

論文作者:Jeremy Howard, Sebastian Ruder
論文刊號:ACL 2018.
發表時間:2018.5.23

論文題目:用於文本分類的通用語言模型微調

摘要
歸納轉移學習極大地影響了計算機視覺,但NLP中的現有方法仍需要從頭開始進行任務特定的修改和培訓。 我們提出了通用語言模型微調(ULMFiT),這是一種有效的轉移學習方法,可應用於NLP中的任何任務,並介紹了微調語言模型的關鍵技術。 我們的方法明顯優於六個文本分類任務的最新技術,將大多數數據集的誤差降低了18-24%。 此外,僅有100個標記示例,它可以在100多個數據上從頭開始匹配訓練的性能。 我們開源我們的預訓練模型和code1。
歸納遷移學習已經極大地影響了計算機領域,但是現有的NLP方法仍然需要從頭開始進行任務特定的修改和訓練。我們提出了通用語言模型微調(ULMFiT)方法,一種適用於NLP中的任何任務的有效遷移學習方法,並介紹了微調語言模型的關鍵技術。我們的方法在六個文本分類任務上明顯優於現有技術,在大多數數據集上減少了18-24%的誤差。此外,在僅有100個標註實例的情況下,該算法在100×更多數據上匹配了從零開始的訓練性能。我們開源我們的預訓練模型和code1。

  1. 簡介
    歸納遷移學習對計算機視覺(CV)產生了很大的影響。應用CV模型(包括對象檢測、分類和分割)很少從頭開始訓練,而是從在ImageNet、MS-COCO和其他數據集上預先訓練的模型中進行微調(Sharif Razavian等人,2014;Long等人,2015a;He等人,2016;Huang等人,2017)。
    文本分類是自然語言處理(NLP)任務的一個類別,具有諸如垃圾郵件、欺詐和殭屍檢測之類的現實應用(Jindal和.,2007;Ngai等人,2011;Chu等人,2012)、緊急響應(Caragea等人,2011)和商業文檔分類,例如foR規則發現(RoiBLAT等人,2010)。
    雖然深度學習模型在許多NLP任務中都達到了最新水平,但是這些模型是從頭開始訓練的,需要大量的數據集,並且需要幾天的時間來收斂。NLP的研究主要集中在轉導傳遞(BLIZER等,2007)。對於歸納傳輸,微調預訓練詞向量(Mikolov等人,2013)是一種僅針對模型第一層的簡單傳輸技術,在實踐中具有重大影響,並且用於大多數最先進的模型。將源自其他任務的嵌入與不同層的輸入連接起來的最近方法(Peters等人,2017;McCann等人,2017;Peters等人,2018)仍然從頭開始訓練主要任務模型,並將預處理嵌入視爲固定參數,限制了它們的實用性。
    考慮到數據預處理的好處(Erhan等人,2010),我們應該能夠比隨機初始化模型的其餘參數做得更好。然而,通過FunTununon感應轉移已經不成功的NLP(PO等人,2016)。Dai和Le(2015)首先提出了對語言模型(LM)進行細化,但是需要數百萬個域內文檔才能實現良好的性能,這嚴重限制了它的適用性。
    我們展示了LM微調的想法,但我們缺乏如何有效地培訓它們的知識,這阻礙了更廣泛的採用。LM非常適合於小型數據集,並且在使用分類器進行微調時遭受了災難性的遺忘。與CV相比,NLP模型通常更淺,因此需要不同的微調方法。
    我們提出了一種新的方法,通用語言模型微調(ULMFiT),它解決了這些問題,併爲任何NLP任務提供了健壯的感應轉移學習,類似於微調ImageNet模型:相同的3層LSTM架構,具有相同的超參數並且除了tuned dropout之外沒有其他的添加在六個被廣泛研究的文本分類任務中,超參數優於高度工程化的模型和轉移學習方法。在IMDb上,使用100個標記的例子,ULMFiT將從10×開始的訓練性能與10×給定50k的未標記例子和100×更多的數據匹配。
    貢獻
    本文的主要貢獻如下:1)提出了通用語言模型微調(ULMFiT)方法,該方法可用於實現任意NLP任務的類CV遷移學習。2)我們提出了區分性微調、傾斜三角形學習率和漸進解凍的新技術,以保持先前的知識,避免微調過程中的災難性遺忘。3)在六個具有代表性的文本分類數據集上,我們顯著優於現有技術,在大多數數據集上,錯誤減少了18-24%。4)我們證明了我們的方法能夠進行非常有效的樣本遷移學習並且執行廣泛的消融分析。5)我們使預先訓練的模型和我們的代碼可用以更廣泛地採用。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章