深度解析:如何最大化BERT性能

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"size","attrs":{"size":10}},{"type":"strong"}],"text":"本文最初發表於 Towards Data Science 博客,經原作者 Ajit Rajasekharan 授權,InfoQ 中文站翻譯並分享。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文闡述了一種評估預訓練 BERT 模型以提高性能的方法。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/f6\/65\/f619b20e37d37b969ac0de449d580265.png","alt":null,"title":"圖 1:最大化 BERT 模型性能的訓練路徑。對於實體類型:人員、位置、組織等爲主要實體類型的應用領域,訓練路徑 1A-1D 就足夠了。也就是說,我們從一個公開發布的 BERT 模型(BERT-BASE\/Large-Cased\/Uncased,或 tiny BERT 版本)開始,在針對特定任務(1D:帶有標記數據的監督任務)進行微調之前,可選擇進一步訓練它 (1C:持續預訓練)。對於人員、位置、組織等不是主要實體類型的領域,使用原始 BERT 模型來使用領域特定語料庫進行持續預訓練(1C),隨後進行微調,可能不會像路徑 2A-2D 那樣提高性能,因爲 1A-1D 路徑中的詞彙仍然是原始 BERT 模型詞彙,而實體偏向於人員、位置、組織等。路徑 2A-2D 使用從領域特定語料庫中生成的詞彙,從頭開始訓練 BERT 模型。注意:任何形式的模型訓練:預訓練、持續預訓練或微調,都會修改模型權重以及詞彙向量,在訓練階段,從左到右的相同顏色模型(米色)以及詞彙(藍色 \/ 綠色)的不同顏色說明了這個事實。標有“?”的方框,就是本文的重點——評估預訓練或持續預訓練的模型,以提高模型性能。","style":null,"href":null,"fromPaste":true,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"摘要"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"事實證明,在領域特定語料庫(如生物醫學領域)上從頭開始訓練 BERT 模型,並使用特定於該空間的自定義詞彙表,對於最大限度地提高模型在生物醫學領域的性能至關重要。這在很大程度上是因爲生物醫學領域獨有的語言特徵,而這些特徵在 Google 發佈的原始預訓練模型中並沒有得到充分的體現(BERT 模型的自我監督訓練通常被稱爲預訓練)。這些領域特定的語言特徵如下:"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"生物醫學領域具有許多該領域特有的術語或短語,例如藥物、疾病、基因等名稱。這些術語,或者廣義地說,生物醫學領域語料庫對疾病、藥物、基因等的實體偏見,在原始預訓練模型中,從最大化模型性能的角度來看,沒有足夠的代表性。最初的 BERT 模型(BERT-BASE\/Large-Cased\/Uncased,或 tiny BERT 版本)預訓練了一個實體偏見的詞彙表,這些詞彙[主要偏向於人員、地點、組織等」(https:\/\/towardsdatascience.com\/unsupervised-ner-using-bert-2d7af5f90b8a)。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"生物醫學領域特有的句子片段 \/ 結構示例有:(1)“《疾病名稱》繼發於 《藥物名稱》……”,(2)“《疾病名稱》對於之前的兩種治療方法難以治癒,患者需接受《治療名稱》治療”。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在保留原有詞彙的領域特定語料庫上進一步訓練原有的 BERT 模型,通常稱爲持續預訓練,然後在監督任務上進一步微調模型,已經證明可以提高模型的性能("},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1901.08746.pdf","title":"","type":null},"content":[{"type":"text","text":"例如,圖 1 的 BioBERT 路徑 1A→1B→1C→1D"}]},{"type":"text","text":")。然而,這樣的模型的性能仍然落後於具有領域特定詞彙的特定語料上從頭開始預訓練的模型(例如,圖 1 中的"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1903.10676.pdf","title":"","type":null},"content":[{"type":"text","text":"SciBERT"}]},{"type":"text","text":"路徑 2A→2B→2D)。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章