CogLTX：将BERT应用于长文本

原創

2020-12-08 17:58

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"背景"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"自从谷歌的 BERT 预训练模型横空出世，预训练 - 下游任务微调的方式便成了自然语言处理任务的灵丹妙药。然而，复杂度高、显存消耗大等问题一直困扰着 BERT 等预训练模型的优化；由于 BERT 中 Transformer（多层自注意力）关于输入文本长度 L 有的 O () 的时间空间复杂度，长文本消耗显存陡然增加。想象一下，一位工程师兴致勃勃地将数据在设计好的下游任务上微调，满怀期待地盼望着结果的提升，却因为其中的一些长文本使得显存溢出或超过位置嵌入（position embedding）最大长度，该是一件多么沮丧的事情。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"解决这个问题最直接的方法是滑动窗口（sliding window）对每个 512（通常 BERT 位置嵌入的最大长度）字符的窗口分别预测，最终合并不同窗口的结果的方式随着具体下游任务的不同略有差异，例如阅读理解问答可以输出各段中总评分最高的小段（span）作为答案。然而，如果问题需要长程注意力，也就是两个关键的句子分布在段落中相距较远位置的时候，这种方法的效果就会大打折扣，下图就是一个例子。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/wechat\/images\/46\/465ebbf2fe9fe1c93e1f5d1209348844.png","alt":null,"title":null,"style":null,"href":null,"fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CogLTX：将BERT应用于长文本

移位操作搞定两数之商

如何基于surging跨网关跨语言进行缓存降级

2024合集

程序员天天 CURD，怎么才能成长，职业发展的思考(2)

教你用Perl实现Smgp协议

如何通过前端表格控件在10分钟内完成一张分组报表？

win11关闭自动检测病毒删文件

通用代码生成器简介

lightdb 单机模式下数据库平移

千兆宽带实际网速能到达多少？

2021年AI領域10個大膽預測：GPT-4萬億參數、Deepfake蔓延、聯邦學習激增

CogLTX：將BERT應用於長文本

認知圖譜：第三代AI的“大”機遇

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結