Google開源了LaserTagger,一種可加速文本生成的AI模型

序列到序列AI模型由Google於2014年推出,旨在將固定長度的輸入(通常是文本)與固定長度輸出映射,其中輸入和輸出的長度可能會有所不同。它們被用於文本生成任務,包括摘要,語法錯誤糾正和語句合併,並且最近的體系結構突破使它們相比以前能夠發揮出更大的作用。

 

但是該模型本身並不完善,因爲它們(1)需要大量的訓練數據才能達到可接受的性能水平,(2)而且通常需要逐字生成輸出(這會使它們固有地變慢)。這就是Google研究人員開發LaserTagger的原因,LaserTagger是一種開放源代碼的文本編輯模型,該模型可以預測將源文本轉換爲目標文本的一系列編輯操作。研究人員宣稱LaserTagger以一種不易出錯的方式處理文本生成,並且更易於訓練和執行。

github地址:https://github.com/google-research/lasertagger論文地址:https://arxiv.org/pdf/1909.01187.pdf

LaserTagger的發佈緊隨Google在自然語言處理和理解領域做出的傑出貢獻。上週,這家科技巨頭推出了Meena聊天機器人模型。

 

Meena是一個具有26億個參數的端到端訓練的神經網絡對話模型。根據Google的說法,Meena經過30天的訓練,使用了2,048張量處理單元(Google專用的AI專用芯片),數據集爲400億個單詞(不是隨機的)。Google挖掘了公共領域的社交媒體,以進行“多回合對話”,其中“回合”指的是對話中的一對短語。

然而即使Google開源了Meena的代碼,也只有少數機構能夠訓練類似Meena的模型。目前Meena仍停留在實驗室階段,並且管理起來非常複雜,還不能被合併到工具中,Google也不太可能很快將其作爲服務推出。

 

LaserTagger的開發是基於以下情況:對於許多文本生成任務,輸入和輸出之間經常存在重疊。例如,在檢測和糾正語法錯誤或融合多個句子時,大多數輸入文本是可以保持不變的,只需要修改其中一小部分單詞。然後,LaserTagger會產生一系列的編輯操作,而不是實際的單詞,例如keep(將單詞直接複製到輸出),delete(刪除單詞),以及keep-addx(在標記前添加短語X)和delete-addx(刪除已標記的字)。

 

添加的短語來自受限制的詞彙表,該詞彙表已經過優化,可以最大程度地減少詞彙量,並增加訓練示例的數量。添加到目標文本的唯一必要單詞僅來自詞彙表,從而避免了模型添加任意單詞的問題,並減少了產生輸入文本不支持的輸出的情況發生。此外,LaserTagger還可以高精度地並行預測編輯操作,與按順序執行預測的模型相比,可以實現端到端的加速。

谷歌的開發者對多個文本生成任務進行了評估,LaserTagger在使用大量訓練示例的基準模型上表現出“相當強大”的性能,並且比序列到序列模型速度快100倍。即使僅使用幾百或幾千個培訓示例進行訓練,它也會產生“合理”的結果,可以手動編輯或整理。

 

該團隊稱:“ LaserTagger的優勢在大規模應用時會變得更加明顯,例如,通過減少響應時間並減少重複性,改進了某些服務中語音應答的格式。高推理速度使該模型可以插入現有技術堆棧中,而不會在用戶端增加任何明顯的延遲,而改進的數據效率可以收集多種語言的訓練數據,從而使來自不同語言背景的用戶受益。”

發佈了53 篇原創文章 · 獲贊 4 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章