【AI技術生態論】17 年微軟老兵,非典型跨領域 AI 科研之路

受訪者 | 羅翀

記者 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

在今年微軟亞洲研究院舉辦的Ada Workshop上,一位計算機“跨界”研究員引起了大家的注意:微軟亞洲研究院高級研究員羅翀用她溫柔又堅定的聲音向我們講述了她“非典型”的研究經歷、幸福美滿的家庭生活與女性研究者獨立的精神世界,成爲很多觀衆朋友榜樣。

羅翀於2003年成爲微軟的一份子,這17年來,她跨領域研究,在計算機視覺、語音、雲計算等領域裏均有頗多建樹。她對這些技術有怎樣獨特的理解?遇到技術難關時,又是如何克服的呢?

對此,本期「AI技術生態論」欄目將通過專訪微軟亞洲研究院高級研究員羅翀,來對上述問題一探究竟。

羅翀

 

“非典型”研究之路

 

早在復旦大學讀本科時,羅翀就開始接觸自然語言處理和人臉檢測與識別技術。在新加坡國立大學讀碩士期間(2000-2002年),主要研究視頻中的人臉跟蹤技術。從2003-2011年期間,羅翀先後從事多人視頻會議、P2P網絡,無線傳感器網絡、多媒體雲計算研究。

2012-2016年,她研究起僞模擬視頻傳輸、聯合信源-信道視頻編碼。從2017年到至今,羅翀專攻計算機視覺、語音處理、多模態視頻理解領域。

雖然從羅翀開始科研工作以來,在不同時期的研究方向略有不同,不過她表示,總體來看都是圍繞着視頻的生命週期做一些工作。

當前羅翀的研究重點是視頻中視覺和聽覺信號的處理和理解。涉及的研究領域有計算機視覺、智能語音以及跨模態視頻理解等。在計算機視覺方面,研究興趣主要在視覺目標跟蹤和視頻的表徵學習。在智能語音方面,羅翀和團隊研發了業界領先的語音去噪技術,並已成功轉化到微軟Stream視頻流服務中,預期很快就可以和大家見面了。在跨模態視頻理解方面,其關注圖像、聲音和語言的協同表達和跨模態檢索。

目前羅翀所在的微軟亞洲研究院智能多媒體組主要聚焦於用機器學習方法對視頻中的文字、圖像、動畫、聲音等多種媒體信息進行綜合處理,進而構建新一代智能視頻分析系統。細分的研究方向包括計算機視覺、智能語音、跨模態分析、人的行爲理解和場景理解等。

 

科研“坎坷”路

 

在做了近20年的科學研究後,羅翀坦言:科研的道路沒有坦途。

如今在鏡頭前談吐自如、擁有豐富人生閱歷和研究成果的“人生贏家”——羅翀,在走上科研之初和很多職場“小萌新”一樣:

研究選題常常無以爲繼,並且有很強的依賴心理,總希望別人能告訴她接下去做什麼。一旦接到一個明確的題目,自己能高質量地完成,可是在完成後又陷入迷茫:“接下來做什麼呢?”

尤其是身處工業界的微軟亞洲研究院,羅翀還要考慮如何平衡研究工作的學術價值和對公司產品的貢獻,所以時不時會陷入有勁沒處使的迷茫和焦慮。

這樣的困境並不是一朝就能走出來的,但走過這一階段後回頭再看,明白以下幾點是很重要的:

一是通過大量學習拓展學術視野,瞭解整個研究領域的全貌,主要研究方向的來龍去脈,以及相關的技術工具。

二是經常跳出課題本身主動思考,不要只把注意力放到小的算法改進,而是多想想這個研究課題有哪些技術途徑,甚至是這個研究課題爲什麼有研究價值。

三是培養成長型思維,積極面對挑戰,思考解決問題。總的來說,這是一個很痛苦的成長過程,很慶幸的是,微軟亞洲研究院提供的開放的學術環境、雄厚的支撐資源,以及身邊衆多高水平的研究員幫助她順利度過了這一階段。

羅翀說:“做研究工作,既要能埋頭苦幹,更要能擡頭看路。”

 

深耕智能語音

 

談起科研技術,羅翀滔滔不絕:

在過去三年左右時間裏,她和同事對視覺目標跟蹤課題進行了深入研究,取得累累碩果。

羅翀介紹道,人類嬰兒在兩三個月時就具有“固視”的能力,即將視線固定在一個物體上追蹤它的移動。這項能力也是嬰兒認識世界的一項基礎能力。但這對計算機來說,視覺目標跟蹤是一項相當難的任務。

經過羅翀和團隊的研究,已提出了多個視覺目標跟蹤的方法。今年其將在CVPR(IEEE國際計算機視覺與模式識別會議,由IEEE舉辦的計算機視覺和模式識別領域的頂級會議)上發表一項很有意思的研究成果,即基於元學習的目標跟蹤。這不僅是一個獨立的目標跟蹤器,更重要的是給出了一個目標跟蹤器的設計思路和框架。

在智能語音方面,羅翀關注較多的是語音去噪、語音分離和說話人分類。在2019年Ignite大會上,微軟 CEO 薩提亞·納德拉在主旨演講時專門展示了羅翀團隊在語音去噪方面的最新研究成果

在上文提到,很快同大家見面的微軟Stream視頻流服務中的語音增強功能便是羅翀團隊的最新成果。

Stream用於上傳、共享、管理和查看可用於教育、培訓和跨公司信息共享的企業視頻。在Stream管理的視頻中,有相當一部分是在噪聲不可控的環境中錄製的,嚴重影響了觀看體驗。羅翀團隊研發的語音增強功能利用深度學習技術不僅極大的抑制了環境噪聲,包括城市噪聲、家用電器噪聲、甚至是嘈雜的人聲,而且最大程度的減少了失真,爲用戶提供舒適的聽覺體驗。

在傳統的語音去噪技術中,人們僅對聲譜圖的幅度信息進行去噪和預測,而並不涉及相位信息。因爲後者沒有展現出清晰的結構信息因此很難被預測。羅翀的研究工作創新性的使用雙路深度神經網絡對聲譜圖的幅度和相位信息同時進行預測並相互印證,從而獲得了更加清晰、失真較小的去噪語音。

 

多模態機器學習無法在短期內落地

 

如今海量數據的涌入驅動了多模態內容理解的研究,多模態檢索是一個實際需求較大的方向。微軟亞洲智能多媒體組早已將多模態表徵學習作爲一個主要的研究方向。

羅翀表示,事實上,多模態學習和檢索早在20世紀90年代多媒體領域崛起時就吸引了研究人員的注意。那時,人們通常以常識和先驗知識爲基礎,手工設計一個公共空間供多個模態的數據嵌入其中,從而進行有效的檢索。然而,這種方式需要獲得大量有標註且對齊的多模態數據。

近年來,隨着深度學習的發展和無監督預訓練技術的提出,羅翀和團隊成功擺脫了對有標註數據的依賴,並且顯著提高了系統整體性能。

可是她表示,工業界和學術界對於預訓練的態度似乎有着較大的差異。學術界研究人員通常無法擁有有效開展預訓練工作的計算能力。而大多數預訓練相關工作是由來自微軟、谷歌和臉書等少數行業巨頭的研究人員完成的。在這種硬件條件的限制下,學術界研究人員更傾向於通過高效的網絡架構設計,以及有效利用人類知識來實現可解釋的人工智能。

羅翀認爲,雖然多模態檢索和內容理解有着旺盛的需求,多模態機器學習仍是一箇中長期的研究課題,但它可能無法在短期內落地或使機器學習的落地獲得突破性的進展。

 

疫情後,AI對人們生活的改變

 

在疫情期間,AI技術在疫情的預測、疾病的診斷、和防疫管理等多個方面都展現出了強大的能力。

而羅翀更關注的是防疫常態化後人們工作、學習模式的改變,以及AI如何在新的工作、學習模式下爲工作者、老師和學生提供便利。比如,目前很多學校都開展了線上錄播教學,老師在進行視頻錄製的時候可能會被家中的狗吠或家人的說話聲干擾,而智能語音方面的工作可以輕鬆的幫助老師消除錄製時的噪聲,避免重複勞動。

再如,當前工作者的會議基本都從線下變爲線上,很多在線會議軟件,如微軟的Teams,都提供會議錄像功能。基於視頻多模態的AI技術未來將可以自動爲會議錄像生成簡明扼要的提綱,方便用戶的瀏覽和檢索,提高生產力。

 

成長型思維

 

談到未來兩三年的科研之路,羅翀表示會把大部分精力放在多模態視頻理解和分析上。一方面,通過對圖像、聲音、文字等多種模態的聯合學習,獲得對視頻整體上的更好理解。另一方面,也是更有趣的是,利用海量的視頻數據中多種模態的自然對齊,在無監督學習的框架下加強對各種模態的理解和特徵表達。

羅翀在做線上分享時,筆者看到很多在校女生和女開發者都在爲羅翀點贊,爲他們樹立很多的榜樣力量。

羅翀謙虛道,她很喜歡自己目前的工作、生活狀態,同時也清楚有很多需要改進和努力的地方。感恩在成長路上父母師長的教誨,家人朋友的支持,還有自己的不懈努力。

微軟CEO納德拉在2014年成爲掌舵人之後就立即着手推動企業文化的改變,重新塑造了以成長型思維模式爲核心的微軟新文化。而她也從成長型思維模式中獲益匪淺,所以也不斷“安利”給大家。

這種思維模式的核心是相信能力可以通過後天的努力培養,以開放的心態擁抱改變,以不懈的努力迴應挫折。”羅翀以此來結束本次採訪。

簡介:羅翀,微軟亞洲研究院高級研究員,博士,IEEE資深會員。2003年加入微軟亞洲研究院,現任智能多媒體組(Intelligent Multimedia Group)高級研究員,中國科學技術大學、西安交通大學兼職博導。長期從事視頻通信、多媒體雲計算、計算機視覺等領域的基礎理論和應用研究工作。在無線傳感器網絡中基於壓縮感知的數據採集技術、無線網絡中視頻僞模擬傳輸、以及視覺物體跟蹤等方面做出了開創性工作。先後在ACM MobiCom、IEEE Infocom、IEEE CVPR 等頂級學術會議上發表多篇論文,擁有十餘項國際專利。曾獲得上海市計算機學會2005年至2015年期間“上海市網絡領域最有影響力論文獎”。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章