本週AI熱點回顧:最強的目標檢測網絡開源、ERNIE動靜合一全新升級、假笑再也不能騙到AI了...

01

54.7 AP!最強的目標檢測網絡:DetectoRS(已開源)

許多現代目標檢測器通過使用兩次looking和thinking的機制,表現了出色的性能。在本文中,作者探索了用於目標檢測的backbone設計中的這種機制。

  • 在宏觀層面上,作者提出了遞歸特徵金字塔(RFP,Recursive Feature Pyramid),它結合了從特徵金字塔網絡到自下而上的backbone層的額外反饋連接,具體如圖(a)所示。

  • 在微觀層面上,作者提出了可切換的空洞卷積(SAC,Switchable Atrous Convolution),它以不同的atrous rate對特徵進行卷積,並使用switch函數收集結果,具體如圖(b)所示。

將它們組合在一起將產生DetectoRS,這將大大提高目標檢測的性能。

DetectoRS = Detector + RFP + SAC = Detector + Recursive Feature Pyramid + Switchable Atrous Convolution

RFP(遞歸特徵金字塔)

RFP(遞歸特徵金字塔)= Recursive Structure + Bottom-up Backbone Layers + Top-down FPN Layers,作者稱實現了 looking and thinking twice or more

SAC(可切換的空洞卷積)

SAC(可切換的空洞卷積)= Different atrous rates + Switch functions,作者稱實現了 looking and thinking twice

實驗結果

在COCO test-dev 目標檢測中,DetectoRS達到54.7% AP!目前排名第一,遙遙領先!

信息來源:CVER

02

百度ERNIE語義理解開源套件動靜合一全新升級 速來“嚐鮮”

從模型拉取到執行預測,只需7行代碼,ERNIE開源套件就能用起來!話不多說直接上才藝:

如此簡潔易用,得益於本次ERNIE語義理解開源開發套件的全新升級。藉助國產深度學習框架飛槳動態圖優勢,本次升級實現了“動態圖”與“靜態圖”的完美結合,即“一套代碼,兩種運行方式”,使得開發者更加高效、方便地使用ERNIE解決工業生產中的各類NLP問題,達到簡單幾行代碼即可實現基於ERNIE的文本分類、情感分析等經典NLP任務。

  

動靜合一的ERNIE開源套件

新版ERNIE開源套件突顯了模型易取易用性,簡單幾行代碼就可以把ERNIE跑起來。整套核心代碼簡單、清晰,使得開發者,尤其是剛入門NLP的新手玩家,可以學習各類NLP任務的Finetune,加載舊版本checkpoint、C++ inference API、ERNIE-server等每一個重要功能的細節。

同時,新版ERNIE開源套件還爲廣大初學者提供了豐富的AI Studio教程,用戶無需自己提供GPU,即可運行ERNIE來完成各類NLP任務,做到了“人人有AI學”。除此以外,新版ERNIE的環境配置也很簡單,大部分的依賴都可以通過pip安裝:pip install paddle-ernie 。

新版ERNIE套件最大程度地保證了邏輯的簡潔,整體模型結構核心代碼量較原來減少了41%,並採用了大家熟悉的面向對象設計幾乎所有的網絡運算邏輯集中在ernie/modeling_ernie.py文件中,在這裏你可以看到ERNIE所支持的全部NLP任務的源代碼。各個對象及其對應的NLP任務可見下表:

動態編程,靜態部署

爲了保證動態圖模型部署的性能,兼容針對靜態圖做的部署代碼性能優化。開發者可選擇通過TracedLayer.trace API將動態模型序列化成爲靜態模型使用:

在調用TracedLayer.trace API時,開發者可動態傳入兩個虛擬構造出來的tensor;分別代表即將輸入的token id和sentence type id,paddle後臺會自動追蹤ERNIE的forward過程並把中間運行的op序列化下來,成爲靜態圖模型。隨後便可調用靜態圖save_inference_model API將模型保存下來。如此保存下來的模型與舊版本模型並無二致。

開源地址:

https://github.com/PaddlePaddle/ERNIE

信息來源:百度NLP

03

黃埔學院三期開學,百度吳甜:複合型人才將彌補技術與業務落地的“鴻溝”

6月6日,由百度與深度學習技術及應用國家工程實驗室共同打造的“黃埔學院”在京迎來第三期開學禮。與來自一汽大衆、聯想、TCL、中國工商銀行、國家衛星氣象中心、中國石油規劃總院、太平洋保險等企業的81位學員以線上+線下的方式參與了開學典禮。

開學禮現場,吳甜在致辭中分享到:“新基建”今年被首次寫入了政府工作報告,‘加速產業智能化轉型’站上了時代背景中越來越重要的位置,而人才培養是產業智能化當中非常重要的話題。百度黃埔學院旨在培養“首席AI架構師”,他們是產業化過程當中,既懂應用場景、又懂AI技術、能夠把AI技術應用起來,解決場景當中實際問題的複合型人才。這也是每一位黃埔學院學員的成長目標。”

百度集團副總裁、深度學習技術及應用國家工程實驗室副主任、黃埔學院院長吳甜致辭

馬豔軍整體介紹了本期黃埔學院的課程安排,包含24節核心課程,內容由淺入深,覆蓋從理論到實踐的各個環節。值得一提的是,在此次的師資配置方面,不僅延續了此前的“超強陣容”,由多位百度重量級科學家、AI架構師授課,還特別配置了專家小組全程指導,分別在學員項目搭建、流程跑通、調整優化、答辯展示等的課程前中後各期,以“切實落地”爲目的進行全面輔導。

百度黃埔學院第三期開學典禮合影

隨着國家大力推進“新基建”戰略,5G基建、大數據中心、AI、工業互聯網等各個領域正在加快發力,而AI作爲新基建中的重要一項,爲其他多項提供着基礎技術支撐,在穩投資、促消費、助升級、培植經濟發展新動能、創建智能經濟新形態等多方面潛力巨大。而在促進人工智能與傳統行業的融合應用中,企業的“首席AI架構師”不可或缺。百度黃埔學院正是面向企業CTO等高端技術人員,爲中國產業界源源不斷培養輸送集理論、技術、應用三位一體的“首席AI架構師”的專項計劃。

百度黃埔學院第三期開學典禮現場

信息來源:飛槳PaddlePaddle

04

尷尬而不失禮貌的微笑,再也不能騙到AI了

英國布拉德福德大學的一項研究使用計算機技術,通過對面部關鍵點的檢測和跟蹤來自動識別假笑。研究人員表示,他們找到了自動識別是否假笑的方法。事實證明,當你試圖「尷尬而不失禮貌的微笑」時,你的眼睛會背叛你。

從某種意義來說,笑容分析類似於德州撲克牌桌上高手們對於他人面部微表情的分析——那些微小的面部抽動可以展現出玩家真正的手牌與情緒。「微表情是更具自發性也更微小的面部動作,往往在不自覺的情況下發生。正因如此,這類動作可以揭示人類真正的內在情緒,」以色列理工學院計算機科學教授 Ron Kimmel 解釋道。

研究人員首先拍攝帶有微笑表情的視頻,識別面部關鍵點(眼周、臉頰和嘴巴)然後用一種自動算法來度量微笑時眼周、臉頰和嘴部的動態變化。該算法的輸出能夠讓研究者精確地度量這幾個面部關鍵點在時間尺度上的變化,並對比真實微笑和被迫假笑的差異。

信息來源:百度AI

05

本週論文推薦

【ACL 2020 | 百度】:同聲傳譯中的糾錯技術

Opportunistic Decoding with Timely Correction for Simultaneous Translation

論文介紹:

同聲傳譯有許多重要的應用場景,近年來受到學術界和業界的廣泛關注。然而,大多數現有的框架在翻譯質量和延遲之間難以平衡,即解碼策略通常要麼過於激進,要麼過於保守。

在本論文中,百度首次提出了一種具有及時糾錯能力的解碼技術,它總是在每一步產生一定數量的額外單詞,以保持觀衆對最新信息的跟蹤,同時,它也在觀察更多的上下文時,對前一個過度生成的單詞提供及時的糾錯,以確保高翻譯質量。

本文還首次提出了對這種糾錯場景下的延遲指標。實驗表明,我們的技術提高了延遲和質量:延遲減少了2.4,BLEU 增加了3.1,中英翻譯和中英翻譯的修改率低於8%。本系統可用於任何語音到文本的同傳系統中。

END

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章