Jeff Dean執筆:一文看盡2018谷歌AI重大突破

對於谷歌的研究團隊來說,2018年是令人興奮的一年。Google Research通過多種方式推動技術研究工作,包括基礎計算機科學研究成果和出版物,以及多項研究被應用在谷歌的新興領域(如醫療保健和機器人)、開源軟件貢獻,以及與谷歌產品團隊的密切合作,所有這些都旨在提供有用的工具和服務。

接下來,我們將重點介紹谷歌研究院在2018年所做的一些工作。

道德和AI

在過去幾年中,我們看到了AI的重大進步,以及這些進步爲我們的產品和數十億用戶日常生活帶來的積極影響。我們深切地希望AI能夠造福我們的世界,並且能夠充分遵守道德原則,幫助我們解決對社會有益的問題。今年,我們發佈了“谷歌AI原則”(https://ai.google/principles/ ),並提供了一系列實踐支持,其中概述了用於實現AI的技術建議。總的來說,它們爲評估我們的AI開發提供了一個框架,我們希望其他組織也能夠使用這些原則來幫助他們塑造自己的思維。

值得注意的是,由於這一領域的發展非常迅速,隨着我們和其他人在ML公平性和模型可解釋性等領域進行新的研究,原則中提到的一些最佳實踐,如“避免創建或加強不公平的偏見”或“對人類負責”,也在不斷變化和改進。這項研究反過來促進了我們的產品的進步,使其更具包容性並減少偏見,例如我們在谷歌翻譯中減少性別偏見,並允許探索和發佈更具包容性的圖像數據集和模型,讓計算機視覺推動全球文化的多樣性。此外,我們藉助這項工作與廣泛的研究社區分享一些最佳實踐,例如機器學習速成課程中的公平模塊。

AI和社會公益

AI將對社會多個領域產生巨大的潛在影響,這是顯而易見的。應用AI來解決現實問題的一個例子是我們在洪水預測方面所做的工作。我們與谷歌的其他多個團隊合作,旨在及時提供發生洪災的可能性和受災範圍的準確信息,讓洪災易發地區的人們能夠更好地決定如何最好地保護自己和他們的財產。

第二個例子是我們關於地震餘震預測的工作。我們展示了一個機器學習模型,它可以比傳統的基於物理的模型更準確地預測餘震位置。更重要的是,因爲ML模型的設計是可解釋的,科學家們已經能夠對餘震的行爲做出新的發現,所以不僅可以得到更準確的預測,而且可以達到新的理解水平。

我們還看到了大量的外部參與者,他們與谷歌研究人員和工程師合作,使用TensorFlow等開源軟件來解決各種科學問題和社會問題,例如使用卷積神經網絡識別座頭鯨呼叫、檢測新的系外行星、識別患病的木薯植物,等等。

爲了促進這一領域的創新活動,我們與google.org合作發佈了“Google AI for Social Impact Challenge”,個人和組織可以從總計2500萬美元的資金中獲得資助,以及來自谷歌研究科學家的指導和建議。

輔助技術

我們的大部分研究都集中在使用ML和計算機科學來幫助用戶更快更有效地完成任務。通常,這涉及到與各種產品團隊合作,以便將研究成果應用在各種產品中。其中的一個例子是Google Duplex(https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html ),這個系統涉及了多項技術,包括自然語言處理和對話理解、語音識別、文本到語音轉換、用戶理解和有效的UI設計,這樣用戶就可以說“你能幫我預訂今天下午4點鐘的理髮嗎?”,然後一個虛擬代理將通過電話幫你處理其餘的事情。

其他例子還包括Smart Compose(https://ai.googleblog.com/2018/05/smart-compose-using-neural-networks-to.html ),一種使用預測模型提供有關如何撰寫電子郵件的相關建議、讓編輯電子郵件變得更快更容易的工具,以及Sound Search(https://ai.googleblog.com/2018/09/googles-next-generation-music.html ),一種基於Now Playing(https://support.google.com/pixelphone/answer/7535326?hl=en )的技術,讓你可以更快更準確地知道正在播放的是什麼歌曲。

此外,Android中的Smart Linkify(https://ai.googleblog.com/2018/08/the-machine-learning-behind-android.html )通過設備上的ML模型來了解用戶選擇的文本類型,然後在手機屏幕上顯示對用戶來說更有用的文本類型(例如,如果用戶選擇文本是地址類型,那麼就提供這個地址的地圖鏈接)。

image

我們研究的一個重點是讓像谷歌智能助理這樣的產品支持更多的語言,並且可以更好地理解語義相似性,即使用戶使用了不同的方式來表達相同的概念或想法。這些新功能是基於我們在改進語音合成和文本到語音轉換方面的工作。

量子計算

量子計算是一種新興的計算範式,它承諾能夠解決經典計算機無法解決的挑戰性問題。在過去的幾年中,我們一直在積極從事這方面的研究。我們相信,我們至少在一個問題上已經進入狀態(所謂的量子霸權),這將是該領域的一個分水嶺事件。在過去的一年裏,我們取得了很多令人興奮的進展,包括開發了一種新的72量子位計算設備Bristlecone。

image

科學家Marissa Giustina在Santa Barbara的量子AI實驗室安裝Bristlecone芯片

我們還發布了量子計算機開源編程框架Cirq,並探討了如何將量子計算機用於神經網絡。最後,我們分享了我們在量子處理器性能波動方面的經驗和技術,以及如何將量子計算機作爲神經網絡計算基板的一些想法。我們期待2019年量子計算領域會取得更加令人興奮的成果!

自然語言理解

2018年,谷歌在自然語言方面的研究也相當令人振奮,其中包括基礎性研究和以產品爲中心的合作成果。我們對2017年的Transformer工作進行了改進,得到了一個叫作Universal Transformer的並行版本,在包括翻譯和語言推理在內的多個自然語言任務中都顯示出巨大的進步。我們還開發了BERT,這是第一個深度雙向的無監督語言表示,僅使用純文本語料庫進行預訓練,然後通過轉移學習對各種自然語言任務進行調優。BERT在11種自然語言任務中比之前的最新成果具有更好的表現。

image

除了與各種研究團隊合作以實現Smart Compose和Duplex之外,我們還努力讓谷歌智能助理能夠更好地處理多語言,目標是讓助理能夠自然地與用戶進行對話。

感知研究

我們的感知研究解決了計算機在理解圖像、聲音、音樂和視頻方面的大難題,併爲圖像捕獲、壓縮、處理、創造性表達和增強現實提供了更強大工具。2018年,我們通過技術改進了Google Photos組織用戶最關心的內容的能力,例如人和寵物。Google Lens和Google Assistant幫助用戶瞭解自然世界、實時回答用戶的問題。谷歌AI的一個關鍵使命是讓人們能夠從我們的技術中受益。今年,我們在改進Google API的功能和構建塊方面取得了很大進展,包括Cloud ML API中的視覺和視頻能力增強和基於ML Kit的面部識別相關的構建塊。

image

Google Lens可以幫助你瞭解周遭世界的更多信息。例如,Lens可以識別出這隻狗的品種。

2018年,我們在學術研究方面的貢獻還包括用於3D場景理解的深度學習,例如立體放大(https://arxiv.org/abs/1805.09817 ),可以合成新型的場景視圖。我們在更好地理解圖像和視頻方面的研究讓用戶能夠在谷歌產品(例如Photos、YouTube、Search等)中查找、組織、增強和改進圖像和視頻。2018年的一些值得注意的進展還包括一個用於人體關節姿勢估計和人體實例分割的模型、一個用於可視化複雜運動的系統、一個用於模擬人與物體之間的時空關係的系統,以及基於蒸餾(distillation)和3D卷積的視頻動作識別的改進。

在音頻方面,我們提出了一種用於語義音頻表示的無監督學習方法,以及對可表達和近似人類的語音合成做出了顯著的改進。多模態感知是一個越來越重要的研究課題。“Looking to Listen”(https://ai.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html )將輸入視頻中的視覺和聽覺因素結合起來,以便隔離和增強視頻中發聲主體的語音。這項技術可以支持一系列應用,從語音增強和視頻識別、視頻會議到助聽器改進,尤其是在有多人講話的情況下。

在資源有限的平臺上實現感知變得越來越重要。MobileNetV2是谷歌的下一代移動計算機視覺模型,我們的MobileNets被廣泛應用於學術界和工業界。MorphNet提出了一種有效的方法來學習深度網絡結構,從而能夠在計算資源有限的情況下在圖像和音頻模型上實現全面的性能改進。

計算攝影

在過去幾年中,在手機相機的質量和多功能性方面的改進一直值得我們關注。其中一方面是手機使用的物理傳感器的改進,另一個主要的方面是計算攝影科學的進步。我們的研究團隊發佈了他們的新研究技術,並與谷歌Android和消費者硬件團隊密切合作,將這項研究應用在最新的Pixel和Android手機及其他設備上。2014年,我們引入了HDR+技術,讓鏡頭捕獲圖像幀,在軟件中對齊幀,並通過計算軟件將它們合併在一起。最開始我們是爲了讓圖片具有比單次曝光更高的動態範圍。不過,先捕獲幀然後對這些幀執行計算分析是一種通用方法,可以在2018年的相機中實現很多高級功能。例如,Pixel 2提供的Motion Photos,以及Motion Stills中的增強現實模式。

image

Pixel 2拍攝動態照片

image

Motion Stills的增強現實模式

2018年,我們在計算攝影方面的主要工作之一是開發了一種叫作Night Sight的新功能,讓Pixel手機的攝像頭能夠“看到黑暗中的東西”,贏得了媒體和用戶的讚譽。當然,Night Sight只是我們團隊開發的能夠幫助用戶拍攝完美的照片的衆多新功能之一,其他的還包括使用ML提供更好的肖像拍攝模式、使用Super Res Zoom進行進一步的取景,以及使用Top Shot和Google Clips捕捉精彩的瞬間。

image

左:iPhone XS。右:Pixel 3 Night Sight。

算法與理論

算法是谷歌系統的核心,觸及我們所有的產品,從Google Trips背後的路由算法到谷歌雲的一致性哈希算法。在過去的一年中,我們繼續研究算法和理論,涵蓋了從理論基礎到應用算法、從圖形挖掘到隱私保護計算等領域。在優化算法方面,我們的工作涉及從研究機器學習的持續優化到分佈式組合優化。在機器學習的持續優化方面,我們在訓練神經網絡隨機優化算法收斂性(獲得ICLR 2018年最佳論文獎)方面的研究揭示了基於梯度的優化方法(例如ADAM的一些變體)存在的問題,同時爲提出基於梯度的新優化方法奠定了基礎。

image

ADAM和AMSGRAD在一維凸問題上的性能比較

在分佈式優化方面,我們致力於改進組合優化問題的通用性和通信複雜性。在其他應用方面,我們開發了一些算法,例如,通過草擬覆蓋大規模數據集,對具有數萬億條邊的圖進行平衡分區和層次聚類。我們在線交付服務方面的工作獲得WWW2018最佳論文獎。最後,我們的開源優化平臺OR-tools在2018年Minizinc約束編程競賽中獲得了4枚金牌。

在算法選擇理論方面,我們提出了新的模型,並研究了重建和學習多項分對數混合的問題。我們還研究了可通過神經網絡學習的函數類,以及如何使用機器學習來改進經典的在線算法。

在谷歌,保證學習技術的嚴格私密性對我們來說非常重要。我們開發了兩種新方法來分析如何通過迭代和重排來放大隱私差異。我們還應用差異隱私技術來設計在遊戲方面具有健壯性的激勵感知學習方法。這種學習技術在高效的在線市場設計中得到了應用。我們在市場算法領域的新研究還包括幫助廣告客戶測試廣告競價的激勵兼容性,以及針對應用內廣告的優化技術。我們還進一步推動了重複競價方面最先進的動態機制的邊界,提出了強大的動態競價。最後,在在線優化和在線學習的健壯性方面,我們開發了新的用於流量峯值時刻的隨機輸入的在線分配算法,以及對損壞的數據具有健壯性的新強盜算法。

軟件系統

我們對軟件系統的大部分研究仍然與構建機器學習模型和TensorFlow有關。例如,我們發佈了TensorFlow 1.0的動態控制流程。我們的一些新研究引入了一個叫作Mesh TensorFlow的系統,可以很容易地指定具有模型並行性的大規模分佈式計算,還支持數十億個參數。另外,我們還發布了一個可擴展的深度神經排序庫。

image

TF-Ranking庫支持多項目評分架構,這是對傳統單項評分的擴展

我們還發布了JAX,這是NumPy的一個變體。雖然JAX不是TensorFlow的一部分,但它利用了一些相同的底層軟件基礎設施(例如XLA),並且它的一些想法和算法對我們的TensorFlow項目有所幫助。最後,我們繼續研究機器學習的安全性和隱私性,並開發AI系統的安全和隱私開源框架,如CleverHans和TensorFlow Privacy。

對我們來說,另一個重要的研究方向是將ML應用於軟件系統。例如,我們繼續研究如何將帶有層次模型的計算移到設備上,並在學習內存訪問模式方面做出了一些貢獻。我們還繼續探索如何使用學習索引來取代數據庫系統和存儲系統中的傳統索引結構。

image

一個NMT模型中Hierarchical Planner的放置

2018年,Spectre和Meltdown是在現代計算機處理器中出現的新型安全漏洞。在我們繼續努力模擬CPU的行爲時,我們的編譯器研究團隊將他們用於測量機器指令延遲和端口壓力的工具集成到LLVM中,從而可以做出更好的編譯決策。

谷歌產品、我們的雲產品和機器學習模型推理嚴重依賴於爲計算、存儲和網絡提供大規模、可靠、高效的技術基礎設施的能力。過去一年的一些研究亮點包括谷歌軟件定義網絡WAN的發展——這是一個獨立的聯合查詢處理平臺,可以在很多存儲系統(BigTable、Spanner、Google Spreadsheets等)中針對基於不同文件格式的數據執行SQL查詢,以及我們的代碼評審報告——調查谷歌代碼評審背後的動機、當前實踐以及開發人員的滿意度和麪臨的挑戰。

運行一個託管內容的大型Web服務需要在動態環境中實現穩定的負載均衡。我們開發了一致性哈希方案,可以保證每臺服務器具有最大的負載,並將其部署到Google Cloud Pub/Sub中。Vimeo的工程師找到了我們發佈的早期論文,在haproxy中實現了這個方案,然後將其開源(https://github.com/arodland/haproxy/commit/b02bed24daf64743cb9a571e93ed29ee4bc7efe7 ),並將其用於Vimeo的負載均衡項目中。結果很是令人感到興奮,這些算法幫助他們將緩存帶寬減少了近8倍,同時消除了縮放瓶頸。

AutoML

AutoML,也稱爲元學習,即通過機器學習來自動化機器學習。多年來,我們一直在研究這個領域,我們的長期目標是開發出可以利用從之前已解決的其他問題中得出的見解和能力來找出新問題並自動解決問題的系統。我們在這個領域的早期工作主要使用強化學習,但我們對使用進化算法也很感興趣。

去年,我們展示瞭如何使用進化算法自動發現各種視覺任務的神經網絡架構。我們還探討了如何將強化學習應用於除神經網絡架構搜索之外的其他問題。我們的工作表明,它可以被用於自動生成圖像變換序列,用以提高各種圖像模型的準確性,以及找到新的符號優化表達式,比常用的優化更新規則更有效。我們在AdaNet方面的工作展示瞭如何擁有一個具有學習保證的快速靈活的自動算法。

image

AdaNet自適應地增長了神經網絡的集合。在每次迭代中,它測量每個候選者的集合損失,並選擇最佳的一個進入下一次迭代

我們的另一個重點是自動發現計算效率高的神經網絡架構,這樣它們就可以在移動電話或自動駕駛汽車上運行,這些環境對計算資源或推理時間有嚴格的限制。我們的工作表明,在強化學習架構搜索的獎勵函數中將模型的準確性與其推理計算時間相結合,就可以找到高度準確的模型,同時滿足特定的性能約束。我們還探索了使用ML來學習自動壓縮ML模型,以便可以使用更少的參數和更少的計算資源。

TPU

張量處理單元(簡稱TPU)是谷歌公司內部開發的一種ML硬件加速器,其自設計之初就專門用於執行大規模訓練與推理任務。TPU幫助谷歌公司實現了研究層面的一系列突破,包括之前已經討論過的BERT。此外,其還使得世界各地的研究人員能夠以開源方式享受谷歌研究帶來的成果,並以此爲基礎尋求新的突破。例如,任何人都可以免費通過Colab對運行在TPU之上的BERT進行微調,而TensorFlow Research Cloud則讓成千上萬研究人員有機會在規模更爲可觀的免費雲TPU計算能力當中受益。

我們還對TPU硬件進行了多次迭代,並將其以雲TPU的形式推向商用——其中包括Cloud TPU Pod機器學習超級計算機,旨在顯著降低大規模ML訓練的難度。着眼於谷歌內部,除了在機器學習研究領域實現更快進步之外,TPU還給谷歌公司的一系列核心產品帶來重大改進,包括搜索引擎、YouTube、Gmail、谷歌智能助手以及谷歌翻譯等等。我們期待看到谷歌以及來自其它方面的機器學習團隊,能夠利用TPU提供的前所未有的計算規模在機器學習領域帶來更多斬獲。

image

圖左爲單個TPU v3設備,圖右則爲TPU v3 Pod的一部分。

開源軟件與數據集

在與研究以及軟件工程社區開展協作的過程當中,發佈開源軟件與建立新的公共數據集一直是我們兩大最主要的貢獻方式。我們在這一領域中最爲顯著的成果之一正是TensorFlow,這是我們於2015年11月發佈、目前得到廣泛流行的機器學習計算系統。我們在2018年慶祝了TensorFlow項目的三週歲生日,在此期間其被下載超過3000萬次,並有超過1700名貢獻者爲其帶來4萬5千多次commit。

回顧2018年,TensorFlow先後迎來八個主要版本,同時增加了多項重要功能——例如急切執行以及分發策略等。我們在開發過程當中還啓動了社區公衆設計評審機制,並以特殊興趣小組的形式吸納更多貢獻者。隨着TensorFlow Lite、TensorFlow.js以及TensorFlow Probability等相關產品的推出,整體TensorFlow生態系統都在2018年得到大幅成長。

我們很高興地看到,TensorFlow在全部頂級機器學習與深度學習框架當中,擁有着最強大的Github用戶保留率與吸引力。TensorFlow團隊還致力於快速解決Github問題,併爲外部貢獻者提供順暢的參與途徑。根據Google Scholar統計的數據,在研究過程當中,我們不斷在已發表論文的基礎之上爲全世界大部分機器學習與深度學習研究提供支持。

TensorFlow Lite在面世的短短一年之後,目前已經被安裝在全球超過15億臺設備上。此外,TensorFlow.js則成爲JavaScript中的頭號機器學習框架;其推出剛剛9個月,就在內容交付網絡(簡稱CSN)上得到200多萬次點擊與25萬次下載,並在Github上獲得超過1萬顆星。

除了繼續開發現有開源生態系統之外,我們在2018年還引入了一套新的框架,用於實現靈活且可重複的強化學習能力、建立新的可視化工具、快速瞭解數據集中存在的種種特徵(而無需編寫任何代碼)、新增一套用於表達排名學習問題的高級庫(這類問題旨在以最符合列表效能需求的方式對其中的條目進行排序,這種能力對於搜索引擎、推薦系統、機器翻譯以及對話系統乃至計算生物學等領域都有着重要意義)、發佈了一套快速靈活且具有學習保證的AutoML解決方案框架、利用TensorFlow.js構建一套瀏覽器內置實時t-SNE可視化庫,同時添加了能夠與電子醫療數據對接的FHIR工具與軟件(在本文的醫療保健部分做出詳盡說明)。

image

tSNE嵌入在完整MNIST數據集內的實時演進。該數據集包含6萬幅手寫數字圖像。

演示鏈接:https://nicola17.github.io/tfjs-tsne-demo/

公共數據集通常能夠成爲激發靈感的重要基礎,並憑藉着爲更廣泛的社區帶來大量有趣數據及問題的方式,幫助來自多個領域的研究人員取得巨大進步。此外,公共數據集還能夠激發人們在不同任務當中獲得更佳成績的熱情,從而保證相關社區擁有健康的競爭態勢。

2018年,我們很高興地發佈了Google Dataset Search,這是一款從全部網絡當中查找公共數據集的新工具。多年以來,我們一直在策劃及發佈各類具有創新性的數據集,包括大量註釋圖像或視頻、用於語音識別的孟加拉地區人羣數據集,乃至機械手臂抓取數據集等等。2018年,我們繼續向這一重要儲備添加更多數據集資源。

image

利用Crowdsource應用向Open Images Extended數據集添加的印度與新加坡圖片。

我們還發布了Open Images V4,這套數據集包含1540萬個邊框(對應190萬張圖片上的600種對象類別)以及3010萬個歸屬於19794種類別的人工驗證圖像級標籤。此外,我們通過使用crowdsource.google.com從世界各地的數萬名用戶處獲得了550萬條註釋,希望向其中引入來自世界各地的更多人羣與場景,從而擴展這套數據集的規模水平。

我們也發佈了Atomic Visual Actions(簡稱AVA)數據集,其負責爲視頻內容提供視聽註釋,從而改善對人類行爲的理解以及對視頻語音的處理能力。我們還更新了YouTube-8M,並舉辦第二屆YouTube-8M大規模視頻理解挑戰賽與研討會。我們的HDR+ Burst Photography數據集主要用於實現計算攝影領域的各項研究,而Google-Landmarks則是另一套新型數據集,用於解決地標識別方面的種種挑戰。

在具體數據集之外,我們還在Fluid Annotation項目中進行了一系列探索,相關技術成果能夠加快數據集的創建與可視化速度。Fluid Annotation是一種探索性機器學習驅動接口,能夠更快地對圖像內容進行註釋。

image

Fluid Annotation接口對COCO數據集中的圖像進行可視化處理。

我們還不時幫助研究界發現新的挑戰方向,從而確保雙方共同努力以解決棘手的研究問題。這方面工作通常是通過發佈新型數據集實現的,但也存在不少例外。

今年,我們圍繞包容性圖像難題組織了新的挑戰賽,致力於開發出更強大的模型以避免各類偏見問題。iNaturalist 2018挑戰賽旨在使計算機能夠更細緻地區分視覺對象的類別(例如圖片當中特定植物的種類)。Kaggle “Quick,Draw!”塗鴉識別挑戰賽希望建立起更出色的塗鴉內容分類器。而Conceptual Captions作爲一套大規模圖像捕捉數據集也有了自己的挑戰賽,旨在進一步推動圖像字幕模型的研究工作。

機器人

2018年,我們在理解機器學習技術如何教授機器人在真實環境當中行動以及教授機器人操作新物體方面迎來了新的里程碑(CoRL’18最佳系統論文)以及重大的應用級進展。機器人能夠在無需人爲監督的情況下憑藉機器學習理解物體性狀。

此外,我們還將機器學習與基於採樣的方法相結合(ICRA’18服務機器人最佳論文)以研究機器人行動,同時探索機器人幾何學以加快這種行動掌握速度。我們在確保機器人以自主方式觀察並感知環境結構方面取得了重大進展。我們第一次能夠在真實的機器人設備上成功實現深層強化學習模型的在線訓練,並開始尋找新的、基礎性理論方法,從而真正爲機器人帶來穩定的控制學習能力。

image

人工智能在其它領域的應用

2018年,我們將機器學習技術應用於物理以及生物科學當中的諸多問題。利用機器學習技術,我們可以爲科學家提供相當於數百甚至數千名研究助理的數據挖掘能力,從而顯著提升科學家們的創造力與生產力水平。

我們在《自然——方法學》雜誌上發佈的神經元高精度自動重建論文中提出了一種新的模型,該模型能夠將原有深度學習技術中的連通組數據自動解釋在準確性層面提高一個數量級。

image

我們的算法正在對3D形式的鳥類大腦之內追蹤單一神經元活動。

機器學習在科學領域的其它應用案例還包括:

  • 通過數據挖掘彙總星體的光線曲線,從而在太陽系之外尋找新的行星

  • 識別短DNA序列的起源或功能

  • 自動檢測失焦顯微鏡圖像

  • 以數字化方式創建具有多個染色特徵的同類細胞圖像

  • 自動將質譜輸出結果映射爲肽鏈

image

經過預訓練的TensorFlow模型可以對Fiji(ImageJ)細胞顯微鏡下的圖像斑塊拼接進行對焦質量評估。該模型會利用邊界位置的色調與亮度分別估算對焦質量以及預測準確性。

健康

過去幾年以來,我們一直致力於將機器學習技術應用於健康領域——這一領域直接影響到我們每一個人,我們也堅信機器學習將能夠在健康行業中顯著增強醫療專業人員的直覺與經驗,最終爲人類的生活質量帶來巨大提升。在這一領域,我們採取的常規方法是同醫療保健組織建立合作以解決各項基礎研究問題(利用臨牀專家的反饋支持我們的研究結果),而後將結果發表在聲譽卓著且需要經過同行評審的科學與臨牀期刊上。

一旦研究結果得到臨牀與科學驗證,我們下一步將進行用戶與HCI研究,以瞭解應該如何將其實際部署在臨牀環境當中。2018年,我們在計算機輔助的廣闊空間中進一步擴展了研究範圍,希望將計算機輔助診斷打造成臨牀流程中的全新組成部分。

2016年年底,我們發表的一項研究結果表明,一套通過評估視網膜眼底圖像檢測糖尿病視網膜病變跡象的模型在具體成效方面,完全能夠等同甚至略優於美國醫療委員會認證眼科醫師。在2018年,我們更進一步,得以通過使用眼科專家標記的訓練圖像配合最終裁定診斷結果(由多位視網膜專家進行會診,並對每份眼底圖像進行集體評估)證明,我們的模型確實達到了可以與視網膜診療專家相媲美的分析水平。

在此之後,我們又發表了一項評估,結果顯示眼科醫師在使用這套機器學習模型之後,能夠得到高於獨立判斷的診斷準確度。我們與Alphabet的同事們還切實展開合作,共同爲印度的Aravind眼科醫院以及泰國衛生部附屬的Rajavithi醫院等十多個機構部署了這種糖尿病視網膜病變檢測系統。

image

左側爲視網膜眼底圖像,眼科工程師會診小組(真實背景)將其評定爲具有中度糖尿病視網膜病變(「Mo」)。右上方爲來自模型的預測得分(「N」爲無視網膜病變,「Mi」爲早期視網膜病變,「Mo」爲中度視網膜病變)。右下方則爲醫生在未參考模型結果(「Unassisted」,無輔助)與參考模型預測分數(「Grades Only」,僅參考分數)後的診斷結論。

除了與眼科專家碰撞出耀眼的火花之外,我們還在醫學研究過程中發佈了一套新的機器學習模型。該模型能夠評估視網膜圖像與心血管疾病風險之間的關係。這亦帶來了一種新的希望,即通過非侵入性生物標記方式幫助臨牀醫生更好地瞭解患者的健康狀況。

這一年當中,我們也在繼續關注病理學領域,包括展示如何利用機器學習改善前列腺癌的分級,通過深度學習技術檢測轉移性乳腺癌,同時開發出增強現實顯微鏡原型——可以通過數字圖像覆蓋的方式幫助病理學家與其他科學家將視覺信息從計算機視覺模型中實時導入至顯微鏡視野之內。

在過去四年當中,我們進行了大量的研究工作,思考如何利用深度學習技術處理電子健康記錄作出臨牀相關預測。2018年,我們與芝加哥大學醫學院、加州大學舊金山分校以及斯坦福醫學院合作,在《自然——數字醫學》雜誌上發表了工作成果,展示如何利用機器學習模型識別電子病歷內容,從而爲各類臨牀診療提供超越現有最佳實踐的有力支持。

作爲這項工作中的重要組成部分,我們還開發出一系列工具,使得研究人員能夠立足完全不同的任務以及完全不同的基礎電子健康記錄數據集輕鬆創建出此類模型。我們還在此項工作當中建立起快速醫療保健互操作性資源(簡稱FHIR)標準與相關開源軟件,希望幫助從業者們以更輕鬆、更符合行業標準的方式處理醫療數據(請參閱GitHub repo)。

另外,我們還提高了基於深度學習技術的變體調用器DeepVariant的準確度、速度表現與實用性。DeepVariant團隊與合作伙伴通力配合,最近亦在《自然——生物技術》雜誌上發表了同行評審論文。

在將機器學習技術應用於歷史數據收集時,瞭解以往真實存在的人羣結構特徵與偏見直接決定着數據的編纂質量。機器學習給我們帶來了發現並解決偏見問題的機會,我們也在積極設計谷歌的AI系統以努力推動這種健康與公平的趨勢。

研究外展

我們以多種方式與外部研究社區開展交互,包括教師參與與學生支持等形式。我們爲谷歌公司能夠吸納數百位本科生、碩士生以及博士生擔任實習生,併爲來自北美、歐洲以及中東地區的學生們提供多年博士獎學金感到無比自豪。除了財務層面的支持以外,每位獎學金獲得者都將擁有一名或者多名谷歌研究人員作爲導師。我們將所有研究員彙集在一起,每年組織一次谷歌博士學位獎學金峯會。在這裏,他們將接觸到谷歌正在進行的最前沿研究項目,並有機會與谷歌內部研究人員以及來自世界各地的其他博士研究員建立聯繫。

另外,我們還建立起Google Ai Residency項目以作爲上述獎學金計劃的補充。我們希望通過這樣的方式爲希望瞭解深度學習研究的學生提供一年時間,期間他們將與谷歌的研究人員們一道工作並接受指導。今年已經是該項目建立的第三個年頭,參與者們在谷歌全球辦事處的各個團隊當中發揮着自己的作用,並努力探索機器學習、感知、算法與優化、語言理解以及醫療保健等各個領域。此項計劃的第四年參加申請剛剛結束,我們很高興能夠在2019年伊始迎來一批充滿朝氣的新成員。

每一年,我們還通過Google Faculty Research Awards計劃爲衆多教師以及學生提供研究項目支持。2018年,我們不斷在各谷歌辦事處爲特定領域的教師及研究生們舉辦研討會,包括在印度班加羅爾辦事處召開AI/ML研究與實踐研討會,在我們的蘇黎世辦事處舉辦算法與優勢研討會,在桑尼維爾舉辦機器學習醫療保健應用研討會,以及在馬薩諸塞州堪布裏奇辦事處舉辦機器學習公平與偏見研討會等等。

我們相信,爲更廣泛的研究團隊做出公開貢獻,正是保持自身研究生態系統健康、高效且富有活力的必要前提。除了我們的開源項目與數據集發佈之外,我們的大部分研究結果也都公開發表於頂級大會以及學術期刊當中。我們也積極參與到各類不同學科會議活動的組織與贊助事務中來。我們先後參與了ICLR 2018、NAACL 2018、ICML 2018、CVPR 2018、NeurIPS 2018、ECCV 2018以及EMNLP 2018等會議,這還只是谷歌2018年學術交流經歷中的一小部分。此外,谷歌員工還廣泛出席了ASPLOS、HPCA、ICSE、IEEE Security & Privacy、OSDI以及SIGCOMM等其它重大會議。

新的環境,新的面孔

2018年,我們驕傲地迎來更多具有廣泛背景的新人加入到我們的研究組織當中。我們在加納阿克拉建立起非洲的第一個人工智能研究辦事處。我們擴大了位於巴黎、東京以及阿姆斯特丹的人工智能研究設施,並在普林斯頓開設新的研究實驗室。我們持續邀請才華橫溢的人們加入我們全球各地的辦事機構,您可以在這裏瞭解更多關於加入我們研究工作的詳細信息。

image

展望2019年

這篇博文僅僅對2018年穀歌公司進行的一小部分研究進行了簡要總結。回望2018年,我們對我們所取得成就的廣度與深度感到興奮與自豪!着眼於2019年,我們期待着谷歌公司在自身發展方向與產品研發,乃至於更爲廣泛的科學研究與工程技術領域產生更爲重大且深遠的影響!

原文鏈接:

https://ai.googleblog.com/2019/01/looking-back-at-googles-research.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章