深度解析:如何最大化BERT性能

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"},{"type":"size","attrs":{"size":10}},{"type":"strong"}],"text":"本文最初发表于 Towards Data Science 博客,经原作者 Ajit Rajasekharan 授权,InfoQ 中文站翻译并分享。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文阐述了一种评估预训练 BERT 模型以提高性能的方法。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/resource\/image\/f6\/65\/f619b20e37d37b969ac0de449d580265.png","alt":null,"title":"图 1:最大化 BERT 模型性能的训练路径。对于实体类型:人员、位置、组织等为主要实体类型的应用领域,训练路径 1A-1D 就足够了。也就是说,我们从一个公开发布的 BERT 模型(BERT-BASE\/Large-Cased\/Uncased,或 tiny BERT 版本)开始,在针对特定任务(1D:带有标记数据的监督任务)进行微调之前,可选择进一步训练它 (1C:持续预训练)。对于人员、位置、组织等不是主要实体类型的领域,使用原始 BERT 模型来使用领域特定语料库进行持续预训练(1C),随后进行微调,可能不会像路径 2A-2D 那样提高性能,因为 1A-1D 路径中的词汇仍然是原始 BERT 模型词汇,而实体偏向于人员、位置、组织等。路径 2A-2D 使用从领域特定语料库中生成的词汇,从头开始训练 BERT 模型。注意:任何形式的模型训练:预训练、持续预训练或微调,都会修改模型权重以及词汇向量,在训练阶段,从左到右的相同颜色模型(米色)以及词汇(蓝色 \/ 绿色)的不同颜色说明了这个事实。标有“?”的方框,就是本文的重点——评估预训练或持续预训练的模型,以提高模型性能。","style":null,"href":null,"fromPaste":true,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"摘要"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"事实证明,在领域特定语料库(如生物医学领域)上从头开始训练 BERT 模型,并使用特定于该空间的自定义词汇表,对于最大限度地提高模型在生物医学领域的性能至关重要。这在很大程度上是因为生物医学领域独有的语言特征,而这些特征在 Google 发布的原始预训练模型中并没有得到充分的体现(BERT 模型的自我监督训练通常被称为预训练)。这些领域特定的语言特征如下:"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"生物医学领域具有许多该领域特有的术语或短语,例如药物、疾病、基因等名称。这些术语,或者广义地说,生物医学领域语料库对疾病、药物、基因等的实体偏见,在原始预训练模型中,从最大化模型性能的角度来看,没有足够的代表性。最初的 BERT 模型(BERT-BASE\/Large-Cased\/Uncased,或 tiny BERT 版本)预训练了一个实体偏见的词汇表,这些词汇[主要偏向于人员、地点、组织等」(https:\/\/towardsdatascience.com\/unsupervised-ner-using-bert-2d7af5f90b8a)。"}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"生物医学领域特有的句子片段 \/ 结构示例有:(1)“《疾病名称》继发于 《药物名称》……”,(2)“《疾病名称》对于之前的两种治疗方法难以治愈,患者需接受《治疗名称》治疗”。"}]}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在保留原有词汇的领域特定语料库上进一步训练原有的 BERT 模型,通常称为持续预训练,然后在监督任务上进一步微调模型,已经证明可以提高模型的性能("},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1901.08746.pdf","title":"","type":null},"content":[{"type":"text","text":"例如,图 1 的 BioBERT 路径 1A→1B→1C→1D"}]},{"type":"text","text":")。然而,这样的模型的性能仍然落后于具有领域特定词汇的特定语料上从头开始预训练的模型(例如,图 1 中的"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/1903.10676.pdf","title":"","type":null},"content":[{"type":"text","text":"SciBERT"}]},{"type":"text","text":"路径 2A→2B→2D)。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章