BigBird會是 NLP 的另一個重要里程碑嗎？

本文最初發表在 Towards Data Science 博客，經原作者 Praveen Mishra 授權，InfoQ 中文站翻譯並分享。

去年，Google 研究人員發佈了 BERT，事實證明，這是繼 RankBrain 之後效率最高、效果最好的算法改進之一。從初步的結果來看，BigBird 也顯示出了類似的跡象。

基於 Transformer 的模型概述

在過去的幾年中，自然語言處理取得了巨大的進步，基於 Transformer 的模型在其中扮演了重要的角色。儘管如此，仍然還有很多東西有待發掘。

Transformer 是 2017 年推出的一種自然語言處理模型，主要以提高處理和理解順序數據的效率而聞名，比如文本翻譯和摘要等任務。

與遞歸神經網絡在輸入結束之前處理輸入的開始不同，Transformer 可以做到並行處理輸入，因此，計算的複雜性大大降低了。

BERT 是自然語言處理最大的里程碑式的成就之一，是一個基於 Transformer 的開源模型。2018 年 10 月 11 日，Google 研究人員發表了一篇介紹 BERT 的論文，就像 BigBird 一樣。

BERT（BidirectionalEncoderRepresentations fromTransformers，代表 Transformer 的雙向編碼器表示）是一種先進的、基於 Transformer 的模型。它是在大量數據（預訓練數據集）上進行預訓練的，BERT-Large 訓練了超過 25 億個單詞。

話雖如此，但由於 BERT 是開源的，任何人都可以創建自己的問答系統。這也是 BERT 廣受歡迎的原因之一。

但 BERT 並不是唯一的上下文預訓練模型。然而，與其他模型不同的是，它是深度雙向的。這也是其取得成功和多樣化應用的原因之一。

這種預訓練模型的結果確實令人印象深刻。它已成功應用於許多基於序列的任務，如摘要、翻譯等。甚至連 Google 也採用了 BERT 來理解用戶的搜索查詢。

但是，就像其他基於 Transformer 的模型一樣，BERT 也有它自己的侷限性。

以前基於 Transformer 的模型的侷限性

雖然基於 Transformer 的模型，特別是 BERT，比起遞歸神經網絡有很大的改進和效率提升，但它們仍然有也有一些侷限性。

BERT 工作在一個完全的自注意力機制上。這就導致了每一個新的輸入令牌的計算和內存需求的二次方的增長。最大的輸入令牌長度一般爲 512，這意味着這個模型不能用於更大的輸入和大型文檔摘要等任務。

這基本上意味着，在將大字符串應用爲輸入之前，必須將其拆分更小的段。這種內容碎片化也會導致上下文的嚴重丟失，從而使其應用程序受到限制。

那麼，什麼是 BigBird？它與 BERT 或其他基於 Transformer 的自然語言處理模型有什麼不同呢？

BigBird 簡介：用於更長序列的 Transformer

如前所述，BERT 和其他基於 Transformer 的自然語言處理模型的主要侷限性之一是，它們運行在一個完全的自注意力機制上。

當 Google 研究人員在 arXiv 上發表了一篇題爲《BigBird：用於更長序列的 Transformer》（Big Bird: Transformers for Longer Sequences）的論文後，情況發生了變化。

BigBird 是運行在稀疏注意力機制上的，允許它克服 BERT 的二次依賴性，同時又保持了完全注意力模型的屬性。研究人員還提供了 BigBird 支持的網絡模型如何超越以前的自然語言處理模型以及基因組學任務的性能水平的實例。

在我們開始討論 BigBird 的可能應用之前，先看看 BigBird 的主要亮點。

BigBird 的主要亮點

以下是 BigBird 的一些特性，這些特性使它比以前基於 Transformer 的模型更好。

稀疏注意力機制

假設給你一張圖片，並要求你爲這張圖片創建一個相關的標題。你將從識別圖片中的關鍵對象開始，比如說，一個人在扔一個“球”。

對於我們人類來說，識別這個主要對象很容易，但是爲計算機系統簡化這一過程在自然語言處理中卻是一件大事。注意力機制的引入降低了整個過程的複雜性。

BigBird 使用稀疏注意力機制，使其能夠處理序列的長度比 BERT 可能的長度多 8 倍。請記住，使用與 BERT 相同的硬件配置就可以實現這一結果。

在 BigBird 的那篇論文中，研究人員展示了 BigBird 中使用的稀疏注意力機制是如何與完全自注意力機制（用於 BERT）一樣強大的。除此之外，他們還展示了“稀疏編碼器是如何做到圖靈完備的”。

簡單地說，BigBird 使用稀疏注意力機制，這意味着注意力機制是逐個令牌應用的，而不是像 BERT 那樣，注意力機制只對整個輸入進行一次應用！

可以處理多達 8 倍長的輸入序列

BigBird 的主要特點之一是它能夠處理比以前長 8 倍的序列。

研究小組設計 BigBird 是爲了滿足像 BERT 這樣的全 Transformer 的所有要求。

利用 BigBird 及其稀疏注意力機制，研究小組將 BERT 的複雜度 $O(n^2)$ 降到 $O(n)$。這意味着原來限制爲 512 個令牌的輸入序列，現在可以增加到 4096 個令牌（8*512）。

BigBird 的研究人員之一 Philip Pham 在一次Hacker News 討論中表示：“在我們大部分論文中，我們使用的是 4096，但我們可以使用更大的 16K 以上。”

針對大數據集進行預訓練

Google 研究人員在 BigBird 的預訓練中使用了 4 種不同的數據集：Natural Questions、Trivia-QA、HotpotQA-distractor、WikiHop。

雖然 BigBird 的預訓練集遠不如 GPT-3（訓練參數爲 1750 億個參數）大，但研究論文中的表 3 顯示，它比 RoBERTa 和 Longformer 的性能更好。RoBERTa 是一種穩健優化的 BERT 預訓練方法，Longformer 是一種用於長文檔的類 BERT 模型。

當一位用戶請求 Philip Pham將 GPT-3 與 BigBird 進行比較時，他說：“GPT-3 只是用了 2048 的序列長度。BigBird 只是一種注意力機制，實際上可能是對 GPT-3 的補充。”

BigBird 的潛在應用

最近，介紹 BigBird 的論文於 2020 年 7 月 28 日才發表，因此，BigBird 的全部潛力還有待確定。

但這裏有幾個潛在應用的領域。BigBird 的作者在原始研究論文中也提出了其中的一些應用。

基因組學處理

深度學習在基因組學數據處理中的應用越來越多。編碼器將 DNA 序列的片段作爲輸入，用於諸如甲基化分析、預測非編碼變體的功能效應等任務。

BigBird 的作者稱：“我們引入了一種基於注意力的模型的新應用，在這種模型中，長下文是有益的：提取基因組序列（如 DNA）的上下文表示。”

在使用 BigBird 進行啓動子區域預測（Promoter Region Prediction）後，論文聲稱最終結果的正確率提高了 5%！

長文檔摘要與問答系統

由於 BigBird 現在可以處理多大 8 倍長的序列長度，它可以用於自然語言處理任務，如更長的文檔格式的摘要和問答系統。在創建 BigBird 的過程中，研究人員還測試了它在這些任務中的性能，並見證了“最先進的結果”。

BigBird 用於 Google Search

Google 從 2019 年 10 月開始利用 BERT來理解搜索查詢，併爲用戶顯示更多的相關結果。Google 更新搜索算法的最終目的是比以前更好地理解搜索查詢。

由於 BigBird 在自然語言處理方面的表現優於 BERT，所以使用這個新建立的、更有效的模型來優化 Google 的搜索結果查詢是有意義的。

Web 和移動應用程序開發

自然語言處理在過去十年中取得了長足的進步。有了一個 GPT-3 驅動的平臺，你可以將簡單語句轉化爲可運行的 Web 應用程序（連同代碼），人工智能開發者可以真正改變你開發 Web 和 Web 應用程序的方式。

此處應爲視頻，但我這裏顯示不出來。請編輯注意覈對此處。

由於 BigBird 可以處理比 GPT-3 更長的輸入序列，它可以與 GPT-3 一起使用，爲你的企業高效、快速地創建Web 和移動應用程序。

結語

儘管 BigBird 還有很多有待探索的地方，但它絕對具有徹底改革自然語言處理的能力。你對 BigBird 及其對自然語言處理的未來的貢獻有什麼看法？

參考文獻：

【1】《BigBird：用於更長序列的 Transformer》（Big Bird: Transformers for Longer Sequences），Manzil Zaheer及其團隊，2020年，arXiv。

【2】《BERT：用於語言理解的深度雙向Transformer的預訓練》（BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding），Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova，arXiv。

作者介紹：

Praveen Mishra，技術愛好者，具有創造內容的天賦。熱衷幫助企業實現目標。

原文鏈接：

https://towardsdatascience.com/understanding-bigbird-is-it-another-big-milestone-in-nlp-e7546b2c9643

BigBird會是 NLP 的另一個重要里程碑嗎？

基於 Transformer 的模型概述

以前基於 Transformer 的模型的侷限性

BigBird 簡介：用於更長序列的 Transformer

BigBird 的主要亮點

BigBird 的潛在應用

結語

參考文獻：

BigBird會是 NLP 的另一個重要里程碑嗎？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結