How to Fine-Tune BERT for Text Classification 論文筆記

原創

2020-06-21 17:40

How to Fine-Tune BERT for Text Classification 論文筆記

論文地址：How to Fine-Tune BERT for Text Classification？

BERT在NLP任務中效果十分優秀，這篇文章對於BERT在文本分類的應用上做了非常豐富的實驗，介紹了一些調參以及改進的經驗，進一步挖掘BERT的潛力。

實驗主要在8個被廣泛研究的數據集上進行，在BERT-base模型上做了驗證。

文章的主要結論如下：

1.微調（fin-tune）策略

對於長文本，嘗試了（1）取頭部510 tokens，（2）尾部510 tokens，（3）頭部128 tokens+尾部382 tokens，（4）分片並進行最大池化、平均池化、attention，發現方法（3）最好。因爲文章的關鍵信息一般在開頭和結尾。
分層訓練，上層對文本分類更加重要。
災難性遺忘：在下游finetune可能會遺忘預訓練的知識。需要設置較小的學習率，如2e-5.
分層衰減學習率（Layer-wise Decreasing Layer Rate），對下層設置更小的學習率可以得到更高的準確率，在lr=2e-5，衰減率 $\xi$ =0.95

2. 繼續預訓練（Further Pretraining）

任務內（within-task）和同領域（in-domain）的繼續預訓練可以大大提高準確率。
In-domain比within-task要好。

3. 多任務微調（Multi-task Finetuning）

在單任務微調之前的多任務微調有幫助，但是提升效果小於Further pretraining。

4. 小數據集

BERT對小數據集提升很大，這個大家都知道的。Further pretraining對小數據集也有幫助。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

word2vec 過程理解&詞向量的獲取

網上有很多這方面的資源，詳細各位都能夠對於word2vec瞭解了大概，這裏只講講個人的理解，目的：通過對於一個神經網絡的訓練，得到每個詞對應的一個向量表達基於：這個神經網絡，是基於語言模型，即給定T個詞的字符串s，計算s

2020-07-08 10:23:34

Word2vec_1

初識Word2vec Christopher Manning CS224n 2019秋 Overview Word2vec由Mikolov 在2013年提出，是一個學習詞向量（表示）的框架。 Idea 現實世界中，首先

2020-07-07 14:29:43

推薦-代碼-李航老師-《統計學習方法》第二版

推薦李航老師的《統計學習方法》第二版的代碼實現網站：（1）https://github.com/fengdu78/lihang-code （2）https://github.com/WenDesi/lihang_book_alg

2020-07-07 00:27:32

關於LDA的一些思考

問1：LDA生成一個文檔的過程是什麼樣的？答1：1）根據預料級參數α，生成文檔d的主題分佈Θ_d~p(Θ|α) 2）對於文檔d中每個位置i對應的單

2020-07-07 00:04:37

關於LSTM解決梯度彌散爆炸問題解析

轉自知乎@Towser 原鏈接 “LSTM 能解決梯度消失/梯度爆炸”是對 LSTM 的經典誤解。這裏我先給出幾個粗線條的結論，詳細的回答以後有時間了再擴展： 1、首先需要明確的是，RNN 中的梯度消失/梯度爆炸和普通的 MLP 或

2020-07-06 13:14:13

NLP 數據集整理(持續更新。。。)

這篇文章總結了我看到的NLP相關論文中使用的語料數據，將會持續更新。小夥伴們如果也知道文中沒有的數據集，歡迎大家在評論中告訴我~只要寫數據集的名字，對應文章和下載網址就可以，我看到會第一時間添加到本文中^.^ 用於NLP實驗的各

2020-07-05 23:48:38

2、TF-IDF和BM25計算文本相似度

這兩者計算的都是文檔和文本之間的相似度，如果是兩個短文本貌似也可以。 1、TF-IDF = TF * IDF 假設文本是“我怎麼這麼帥氣”，4個詞，第一個詞“我”，文檔1中一共有10個詞，“我”有2次，這個詞的詞頻都是2，這

2020-07-05 22:00:39

bert模型裁剪及標籤平滑在短文本意圖識別中的效果分析

1、bert網絡模型base有12層，隱含層大小：H=768，詞向量參數矩陣：W = V*H，V大概在兩萬多， 12個attention head，每個投的QKV矩陣：H * （H/12）前饋層參數量是H * 4H = 768 *

2020-07-05 22:00:28

阿里、騰訊、滴滴等社招面試問題整理

已入職阿里，騰訊總監面聊得不開心，掛，也拿到滴滴offer 1、爲何會梯度消失和爆炸：消失：BPTT時，多個激活函數導數的相乘導致解決：LSTM、BN、RELU 爆炸：權重函數初始化過大，

2020-07-05 22:00:28

論文筆記之Structural Deep Network Embedding

本論文是kdd2016的一篇論文主要的目的也是做node embedding。主要的想法就是通過deep autoencode對node進行embedding，不過在在embedding的時候不僅考慮了1-hop的信息而且考慮

2020-07-08 10:23:34

論文筆記之Fully Convolutional Networks for Semantic Segmentation

最近了解到了Image Semantic Segmentation方面的知識，在此做一個記錄。這篇論文是2015cvpr的best paper，可以說是在cnn上做圖像語義分割的開山之作。 1.語義分割定義：語義就是指物體的

2020-07-08 10:23:34

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications論文閱讀筆記

論文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications MobileNet是爲移動和嵌入式設備提出的輕量級網絡

2020-07-07 12:29:52

【Paper Note】Representation Learning-Assisted Click-Through Rate Prediction (DeepMCP) 論文詳解

https://arxiv.org/pdf/1906.04365.pdf 背景以往的點擊率預估模型像FM系列、WDN等模型，都只是考慮特徵和ctr之間的聯繫，阿里的這篇論文，提出了DeepMCP模型，不僅考慮了特徵和ctr之間

2020-07-07 01:30:56

論文筆記——Federated learning framework for mobile edge computing networks

論文筆記——Federated learning framework for mobile edge computing networks 本論文着重研究的是聯邦學習應用於需求預測類問題。一般來說，FL存在的一些問題：非獨立同分布數據

2020-07-06 10:38:33

WWW19 A First Look at Deep Learning Apps on Smartphones

這篇文章有點像行業調查，對目前市場上APP中DL的各個特性進行統計，調研時間從2018.06 ～ 2018.09 大約三個月的時間，作者也說了後續會繼續跟進。作者製作了一個可以嗅探Android apk中DL的軟件，同時對APP

2020-07-06 03:56:57

24小時熱門文章

最新文章

最新評論文章