論文淺嘗 | TANDA: Transfer and Adapt Pre-Trained Transformer Models

論文筆記整理：王春培，天津大學碩士。

鏈接：https://arxiv.org/pdf/1911.04118.pdf

動機

這篇文章聚焦的是問答系統（Q&A）中的一個問題：回答句子選擇（Answer Sentence Selection，AS2），給定一個問題和一組候選答案句子，選擇出正確回答問題的句子（例如，由搜索引擎檢索）。AS2 是目前虛擬客服中普遍採用的技術，例如 Google Home、Alexa、Siri 等，即採用搜索引擎+AS2 的模式。

亮點

BERT的亮點主要包括：

（1）提出一種基於變壓器（Transformer-based）的 AS2 模型，爲解決 AS2 的數據稀缺性問題和精調步驟的不穩定性提供了有效的解決方案。

（2）構建了一個應用於 AS2 的數據庫 ASNQ（Answer Sentence Natural Questions）。

概念及模型

本文提出了一種用於自然語言任務的預訓練變換模型精調的有效技術-TANDA( Transfer AND Adapt)。首先通過使用一個大而高質量的數據集對模型進行精調，將一個預先訓練的模型轉換爲一個用於一般任務的模型。然後，執行第二個精調步驟，以使傳輸的模型適應目標域

模型體系結構

TANDA 架構如下圖所示（以BERT爲例）：

AS2任務：

給定問題 q 和答案句子庫 S={s1,...,sn}，AS2 任務目的是找到能夠正確回答 q 的句子 s_k，r(q,S)=s_k，其中 k=argmax p(q,s_i)，使用神經網絡模型計算 p(q,s_i)。

變壓器模型 (Transformer Model)

變壓器模型的目的是捕獲單詞間的依賴關係，下圖爲文本對分類任務的變壓器模型架構：

輸入包括兩條文本，由三個標記 [CLS]、[SEP] 和 [EOS] 分隔。將根據令牌、段及其位置編碼的嵌入向量作爲輸入，輸入到transformer模型中。輸出爲嵌入向量 x，x 描述單詞、句子分段之間的依賴關係。將 x 輸入到全連接層中，輸出層用於最終的任務。

TANDA

在經典的任務中，一般只針對目標任務和域進行一次模型精調。對於AS2，訓練數據是由問題和答案組成的包含正負標籤（答案是否正確回答了問題）的句子對。當訓練樣本數據較少時，完成 AS2 任務的模型穩定性較差，此時在新任務中推廣需要大量樣本來精調大量的變壓器參數。本文提出，將精調過程分爲兩個步驟：轉移到任務，然後適應目標域。

首先，使用 AS2 的大型通用數據集完成標準的精調處理。這個步驟應該將語言模型遷移到具體的 AS2 任務。由於目標域的特殊性（AS2），所得到的模型在目標域的數據上無法達到最佳性能，此時採用第二個精調步驟使分類器適應目標域。

ASNQ

本文構建了一個專門適用於 AS2 任務的通用數據庫 ASNQ。ASNQ 基於經典 NQ 語料庫建設，NQ 是用於機器閱讀（Machine Reading，MR）任務的語料庫，其中每個問題與一個 Wiki 頁面關聯。

實驗

不同模型在WikiQA數據集上的性能如下圖所示：

不同模型在treco - qa數據集上的性能如下圖所示：

對於簡單的FT和TANDA, wiki - traindata上的MAP和MRR隨着微調次數的變化而變化，如下圖所示：

FT與TANDA在Alexa虛擬助手流量數據集上的比較如下圖所示：

總結

本文的工作將經典的精調（fine-tuning）過程拆成了兩次，其中一次針對通用數據集，另一次針對目標數據集，此外，還專門構建了適用於AS2任務的通用數據集ASNQ。本文在兩個著名的實驗基準庫：WikiQA和TREC-QA上進行實驗，分別達到了 92% 和 94.3% 的 MAP 分數，超過了近期獲得的 83.4% 和 87.5% 的最高分數。本文還討論了 TANDA 在受不同類型噪聲影響的 Alexa 特定數據集中的實驗，確認了 TANDA 在工業環境中的有效性。

OpenKG

開放知識圖譜（簡稱 OpenKG）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

論文淺嘗 | TANDA: Transfer and Adapt Pre-Trained Transformer Models

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

論文淺嘗 - SIAM ICDM 2020 | 基於圖時空網絡的知識引導的診斷預測

論文淺嘗 | Iterative Cross-Lingual Entity Alignment Based on TransC

論文淺嘗 - AAAI2020 | 基於知識圖譜進行對話目標規劃的開放域對話生成技術

論文淺嘗 - ACL2020 | 用於鏈接預測的開放知識圖譜嵌入

陳華鈞等 | OpenKG區塊鏈：構建可信開放的聯邦知識圖譜平臺

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結