當機器能“接上”人話

作者｜The New York Times

編譯｜專知

整理｜Yingying

今年8月，艾倫人工智能研究院的研究人員公佈了一項針對計算機的英語測試。它檢查機器是否可以補充完這樣的句子：

On stage, a woman takes a seat at the piano. She

a) sits on a bench as her sister plays with the doll.

b) smiles with someone as the music plays.

c) is in the crowd, watching the da

ncers.

d) nervously sets her fingers on the keys.對你來說，這是一個簡單的問題，但對於電腦來說很難。雖然人類正確回答了超過88％的測試問題，但人工智能系統徘徊在60％左右。而對於專家們- 那些知道構建理解自然語言的系統有多難的人 - 這是一個令人印象深刻的數字。

兩個月後，谷歌推出了一個名爲BERT的系統。它能和人類一樣回答這些問題。

BERT的到來推動了人工智能的重大發展。在過去幾個月中，研究人員已經證明計算機系統可以學習變幻莫測的語言，然後將他們學到的知識運用到各種特定任務中。

包括谷歌和艾倫人工智能研究院在內的多家研究機構建立系統，用於改進像Alexa和Google Home這樣的智能助理。它甚至可能最終實現有條理的對話。但是有一個缺點：在Twitter這樣的社交網站上，這項新的研究也會催生出更加像人的“假用戶"。

研究人員已經證明，AI能夠生成逼真的圖像。隨着這些技術進入語言領域，我們可能需要對網上看到的事情更持懷疑態度，比方說，和你聊天的是真實的人嗎，還是隻是機器。

這些新的語言系統通過分析了數百萬個句子。OpenAI構建的系統分析了數千本書籍，包括浪漫小說，科幻小說等。谷歌的BERT則在此基礎上，加上了維基百科的數據。OpenAI能夠預測句子中的下一個單詞。 BERT可以填充句子中任意地方缺少的單詞。

如果BERT可以通過從數百萬句子中學到句子中缺少的單詞（例如“那個人走進商店買了牛奶”），它也可以理解英語中單詞之間的許多基本關係，BERT提出者的谷歌研究員Jacob Devlin說。

系統可以將此知識應用於其他任務。如果研究人員向BERT提供了大量問題及其答案，那麼它就會學會自己回答其他問題。然後，如果他們提供描述相同事件的新聞標題，BERT就會發現他們是相似的。

BERT可以通過艾倫人工智能研究院的“常識”測試。它還可以進行閱讀理解，回答有關百科全書文章的問題。什麼是氧氣？什麼是降水？在另一個測試中，它可以辨別電影評論的情感傾向。

自然語言處理專家、紐約大學教授薩姆鮑曼說，這種技術是“這種能夠總結大而混亂的信息以幫助人們做出重要決策的技術，是人工智能的又一里程碑。”

在OpenAI系統發佈後的幾周內，研究人員將其應用於對話。本月，谷歌“開源”其BERT系統，因此其他人可以將其應用於其他任務。 Devlin和他的同事已經用102種語言訓練了它。

塞巴斯蒂安·魯德（Sebastian Ruder），將BERT等系統的到來視爲他和其他人工智能研究人員的“警鐘”，因爲他們以爲語言技術已經達到了上限。但是卻發現還有太多未開發的潛力。

這項技術背後的複雜數學系統被稱爲神經網絡。近年來，它加速了人臉識別技術和無人駕駛汽車等各種技術的進步。研究人員將此稱爲“深度學習”。

BERT之所以成功，部分原因在於神經網絡的大量計算機處理能力。它使用谷歌專門用於訓練神經網絡的處理器，在幾天的時間內分析了維基百科的所有文章。

BERT的想法已存在多年，但是它們開始變得有效，因爲現代硬件可以處理更多數據，Devlin說。

像谷歌一樣，其他幾十家公司正在爲機器學習專門製造芯片，許多人認爲這種額外處理能力的涌入將繼續加速各種人工智能技術的進步。

“BERT是朝着這個方向邁出的第一步，”負責谷歌人工智能工作的傑夫迪恩說。 “但取得的進步並沒有我們想象中那麼大。”

儘管BERT通過了實驗室的常識測試，但機器距離人類常識的還有很長的路要走。但與該領域的其他研究人員一樣，他認爲自然語言研究的發展軌跡已發生變化。他說，這是一個“爆炸式進展”的時刻。

原文鏈接：

https://medium.com/the-new-york-times/finally-a-machine-that-can-finish-your-sentence-b322a16d4199

-END-

當機器能“接上”人話

【乾貨】計算機也會ps圖片：TL-GAN（附代碼和sildes下載）

【教程】語音識別中的End-to-End模型教程（附178頁PDF全文下載）

《機器學習100天》一份超全機器學習實戰資料，初學者必備！

人工智能產業估值高企

2018年度北京市自然科學基金傑出青年科學基金擬資助項目公佈

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結