【AI技術生態論】第四範式主任科學家:自動化神經網絡理論進展緩慢,AutoML 算法的邊界還不清楚

在這裏插入圖片描述

受訪者 | 塗威威,第四範式副總裁、主任科學家&CEO
記者 | 夕顏
出品 | CSDN(ID:CSDNnews)

「AI技術生態論」是CSDN發起的“百萬人學AI”倡議下的重要組成部分,與AIProCon萬人開發者大會Top30 AI技術生態行業案例徵集和評選開發者與AI大調查AI大師課一起,打造一個覆蓋百萬開發者的AI生態聯盟。


2020年,「AI技術生態論」欄目將對1000+AI生態大咖進行系列訪談,勾勒出AI生態最具影響力人物圖譜和AI產業全景圖!


本文爲 「AI 技術生態論」系列訪談第二十五期。


百萬人學 AI 你也有份!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼“AIP211”,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得!

每個人都希望有免費的午餐,就像希望 AutoML 能夠提供一個一統天下的算法,可以輕鬆搞定一切機器學習問題一樣。但這本身就是一個悖論,沒有一套可以適用於所有問題的算法和系統。

AutoML 如今已經算不上是一個新鮮詞彙了,自 2018 年穀歌發佈第一款 AutoML 產品以來,圍繞這項技術的討論就一直存在。有人將之視爲實現通用人工智能的利器,但是也有人反對將這項技術的作用過度誇張化。但得到大家一致同意的一點是,AutoML 在實現 AI 推廣中,的確有着非凡的意義。

今天,CSDN 採訪到在國內第一批從事 AutoML 研究的專家之一——第四範式副總裁、主任科學家塗威威,從他的專業視角,審視自動化機器學習的技術和應用進展現狀,並嘗試找到推進這項技術繼續完善的突破口所在。


師從周志華,受戴文淵觸動走向AutoML研究之路


塗威威開始關注 AutoML,源於他在百度的工作經歷。大學期間,塗威威所學的專業是計算機,研究生階段在南京大學師從 AI 大師周志華,從此與機器學習結下不解之緣。在他求學期間,機器學習並沒有現在這樣火,但塗威威敏感地捕捉到,這將是一個很有潛力的發展方向。

在機器學習還未大火之時,塗威威偶然間獲得了一次到百度實習的機會。在這裏,他認識了他的 導師,在遷移學習領域已經有所建樹,也是後來創立了第四範式的戴文淵。初入百度,塗威威驚訝於機器學習在百度廣告系統中的重要作用,因爲在那個時代,百度已經在依靠機器學習獲得可觀的廣告收入。

塗威威與戴文淵團隊一起做廣告點擊率預估時,爲了讓效果付費的成果更好,他們開始研究精準匹配、點擊率預測等當時還比較困難的問題,並構建出點擊率預測模型。相比於一般的專家系統,百度的搜索系統規則成千上億條,大量的數據人根本無法理解,機器在這時就可以做到人所不能做到的,機器總結出足夠複雜的模型,用機器學習的方式處理數據,相比於原有的系統,收入提升 8 倍多。這樣,在塗威威離開百度之前,已經在廣告系統中應用深度學習方法,構建了一整套機器學習底層框架和訓練系統。

做這些事情的過程中,塗威威和戴文淵其實已經開始思考,如何才能將這些能力帶給更多企業和行業,因爲不是所有的企業都有着充足的時間、金錢和 AI 人才,來做這些耗資巨大的研究和部署,如果可以用一種簡單的方法,把 AI 技術更好地輸入給需要的企業,爲什麼不做?這也是後來戴文淵創立第四範式的初衷——希望能降低 AI 技術和應用門檻,讓AI能夠在各行各業落地,實現AI for Everyone的目標。塗威威非常認同這樣的願景和業務價值,因此加入了第四範式並開始了創業之旅。


從範式平臺,看AutoML典型技術迭代路線


幾年下來,如今塗威威帶領的自動機器學習算法研發團隊已發展到上百人的規模,按照研發的技術方向,下設獨立的小分隊,囊括了結構化數據、圖像識別、自然語言處理、語音識別、交互式 AutoML優化、半監督學習、強化學習等多個方向。

在這樣的分工下,第四範式AutoML產品HyperCycle ML進行着持續優化迭代。在塗威威的解說下 CSDN 瞭解到,作爲國內較早的 AutoML 產品,它們經歷過同類產品類似的技術迭代,從中我們得以一窺這項技術的發展軌跡。

在最早的版本中,第四範式AutoML能做的事情實際上更多地是分類任務,研究的重點是特徵工程,比如組合特徵。 什麼是組合特徵?比如新聞資訊類軟件爲用戶做推薦,對於男性用戶,不同職業的人關注點不一樣,即便是同一個人,不同時間段想看的內容可能也有巨大的差別,這就需要對用戶的職業、性別、愛好等特徵做組合,刻畫微觀場景,推薦效果纔會有提升。問題是,這個組合會產生的可選結果可能是個天文數字,如何從中選擇最優組合,是一件非常困難的事情。針對這個問題,第四範式自研了自動特徵組合AutoCross,取得了非常好的效果。塗威威發現,通過這種顯式組合特徵的方式,效果甚至比一些深度學習系統還要更好。

隨着業務的拓展,塗威威發現需要解決的問題越來越多,除了二分類問題,還需要解決多分類問題、迴歸問題,等等,以及這些結構化數據問題之外的非結構化數據和半結構化數據的問題。

隨後,塗威威又相繼帶領團隊開發出了模型自帶自動化特徵的線性分形分類器、自動時序樹模型工具HE-TreeNet、自動時序嵌入(TemporalGo)、自動多表時序特徵(FeatureZero)、自動深度稀疏網絡AutoDSN(Deep Sparse Network)、AutoSSL(自動半監督學習)、AutoPU、AutoWSL、AutoCV、AutoSpeech、AutoNLP、AutoRL、多保真度優化、交互式AutoML等多項AutoML技術,已涵蓋結構化數據、非結構化數據(圖像、文本、語音等)、半結構化數據(異構信息網絡、知識圖譜等)等全場景的AutoML探索。

在實際落地中,算法只是其中一環,解決一個業務問題,除了算法之外,還會面臨數據、模型應用系統等問題。首先是數據,比如高質量標註數據遠遠不夠,離線數據分析時數據產生不一致,都會造成壞的影響。此外,他們需要做非結構化數據和半結構化數據的自動機器學習處理,技術難度更大。

再者,實際生產過程中還會產生目標需要探索的問題。塗威威舉了兩個例子,第一個例子是多目標優化,當前AutoML系統優化的目標是固定的,往往現實的問題是多種目標綜合的,比如需要在效果和成本之間做微妙的選擇,這樣的多目標的探索,往往人在獲得結果之前也沒有辦法有效評判。這樣的情況目前的AutoML就很難支持。第二個例子是可解釋性問題,自動化機器可以找到一個解,但這個解可能並不是用戶想要的,用戶可能想要的是一個可解釋的模型。然而,塗威威說到,可解釋性本身即存在着很大的不確定性,因爲每個人的理解不同,與個人判斷有很大的關係,讓模型具有可解釋性就難上加難。

最後,塗威威提到了自動化機器學習的一個弊端,即在沒有任何業務背景的情況下,機器會進行各種各樣的嘗試,但人無法將豐富的經驗加入到自動機器學習系統中。對此,第四範式提出了交互式自動機器學習。目前,這種交互式自動化機器學習的方式已經在第四範式進行小規模嘗試,現在的產品中也已經有了應用,下文將會有詳細解釋。

總結下來,第四範式做自動化機器學習經歷了很多版本的迭代,從最早的只有二分類拓展到多分類、迴歸,從結構化數據拓展到圖像、視頻、文本、NLP等非結構化數據,到覆蓋低質量數據的自動弱監督學習,再到保護隱私的自動多方機器學習……第四範式的自動化機器學習產品隨着業務的不斷擴展,不斷優化迭代,未來也還將繼續拓展至更多的技術方向和應用領域。

雖然AutoML還有很長的路要走,但是塗威威相信,隨着全球研究者和衆多廠商的加入,AI規模化應用之路必將會創造更大的價值。爲此,第四範式打造了全球首個AutoML社區,同時也是最大的AutoML算法比賽平臺—— AutoML.ai,通過發佈企業AI應用建設需求的AutoML賽事,讓更多的科研機構、技術大牛參與進來,去解決企業複雜的業務問題。該平臺上的比賽不僅可以保護企業數據安全,且比賽結果具備極高的復現性,可將模型快速應用於企業實際業務場景。技術的更新迭代永遠不能脫離真實場景,這也是第四範式在AutoML路上不斷前行的動力。


AutoML熱門研究方向那麼多,哪些意義更大?


AutoML 作爲自動化機器學習的統稱,下面還有很多分支研究方向,其中比較熱門的方向包括神經網絡架構搜索(NAS)、效率和泛化性優化、動態 AutoML、強化學習 AutoML 等。在塗威威眼裏,這些方向的研究和應用現狀是怎麼樣的?哪些方向研究對於實際應用的意義更大呢?

神經網絡架構搜索

AutoML 技術將來要想取得重大突破,在更廣闊的搜索範圍裏搜索真正的新架構是一個重要方向。第四範式在神經網絡架構搜索方面有一些探索,比如如何更加高效地進行神經網絡架構搜索,如何搜索更加高效的神經網絡架構以實現更低成本的推理,等等。

效率和泛化性

此外,AutoML 的熱點研究方向包括效率和泛化性,第四範式在提高模型和算法的效率和泛化性上的做法,也許也值得大家參考。

在效率和泛化性上,第四範式主要的思路是算法與底層架構相結合。比如結構化數據上,第四範式有探索自動特徵組合、自動多表時序特徵、自動模型融合、自動深度稀疏網絡等,圖像有探索自動分類、自動檢測、自動圖像分割、自動生成等,文本、語音也有相關的分類、識別、問答、增強、生成等的自動化探索。

在效率上,一方面在算法層面,第四範式通過多種手段來提升 AutoML 的效率,包括優化配置搜索空間、提升配置評估效率以及利用類似於基於遷移學習的多保真度優化、超高維超參數優化、混合優化策略等提升配置優化算法的效率。除了算法層面,同樣重要的是,在自動機器學習計算上有很多的重複可複用的計算,當前主流的計算框架(比如 Tensorflow、PyTorch 等)只是爲單次機器學習模型訓練優化,並沒有爲自動機器學習的計算進行優化,第四範式重新爲自動機器學習設計了底層計算架構,對多次模型學習提供了配置評估和優化上橫向和縱向的動態計算優化,同時在參數上探索參數共享計算等,可以做到只用增加單次模型學習 60% 左右的計算代價,就可以獲得數十次的配置評估,比原來的架構有數量級的效率提升。

在泛化性上,第四範式也探索了諸如弱監督學習、元學習、動態環境學習等自動化。舉例來說,弱監督學習領域的噪聲標記學習、半監督學習、PU 學習等不同的學習場景的關鍵問題很不一樣,有的由於標記比較少,需要探索更好的配置評估方式,提出更能估計泛化能力的度量指標,有的需要探索更有效的模型訓練方式。再比如,對於動態環境學習,需要能夠根據數據分佈的變化,自動進行模型適配。

動態環境中的 AutoML

另一個值得關注的點,是在動態環境中進行 AutoML 與靜態環境相比難度更大,具體來說難在哪?第四範式是怎麼做的?

塗威威表示,相比靜態環境,動態環境的核心是環境是動態變化的,機器學習如何有效地應對動態環境至今都是國際學術界一個開放的問題,也是目前研究的熱點難點方向之一。

動態變化可能包含很多方面的變化,比如數據分佈、數據表達、問題目標變化等。對此,第四範式主要從幾個方面進行應對:一方面對於特徵表達的學習,第四範式有動態的特徵學習,可以更快地適應數據的變化,並從特徵的自動化設計上,更好地應對潛在動態的變化;另一方面從模型的學習方法上,第四範式利用自動遷移學習技術,檢測分佈變化,並自動適配對應的遷移學習技術,還會利用動態集成學習技術,通過分佈變化,自動適配不同類型的模型等。在架構層面上,第四範式也構建了針對 AutoML 的在線學習架構,對於快速變化的環境,儘快地進行模型迭代,讓 AutoML 更加快速有效地適應環境的變化。

強化學習與 AutoML 結合

近年來,強化學習得到了業界和學界的關注和重視,自然有人會探索強化學習與 AutoML 相結合的方法,以釋放 AutoML 的更大能量。然而,此前塗威威曾在公開演講中表示,用強化學習進行 AutoML 有種“殺雞用牛刀”的感覺。幾年過去,強化學習與 AutoML 結合的時機成熟了嗎?

對此,塗威威表示仍然對這個問題保留原有的看法,在他看來,目前還沒有真正有突破性進展的結果,主要的原因是強化學習本身的發展不是一蹴而就的,而是一個艱難的長期問題。當前我們經常看到的強化學習研究,其實多是強化學習應用的研究,而針對強化學習核心問題的研究其實極少,且難度極大,強化學習本身依然是一個很難的問題,因此與 AutoML 相結合,仍然任重而道遠。

安全性與可解釋性

安全性和可解釋性也是 AutoML 的熱點研究方向,第四範式在提高 AutoML 的安全性和可解釋性上,也有一些獨特的思路。

塗威威提到,在 AutoML 的安全性上,第四範式針對不同的場景探索不同的技術方案,如隱私保護的自動機器學習、自動多方機器學習、基於多方安全計算的自動機器學習、自動聯邦遷移學習等。

他說到,一方面,需要降低具有很強安全性的機器學習算法落地的門檻,機器學習算法已經有很高的門檻了,因此安全的機器學習算法門檻更高,難度更大,所以需要自動化的安全機器學習算法來降低落地使用門檻;另外一方面,以往非自動的安全自動機器學習算法,都需要人類專家的介入,在一定程度上引入了數據和模型安全的風險,自動化安全機器學習技術能夠在降低門檻的同時,進一步提升安全性。

其次,與其他非技術問題相比,安全性在技術問題上的解決方案是相對成熟的,或者是有技術解決方案的,但是目前落地缺乏法律法規和行業標準的支持,第四範式也在積極與衆多研究機構與廠商推進如IEEE 聯邦學習、多方安全計算等標準的建立和完善。

在可解釋性上,第四範式支持了多種主流的可解釋性方案,比如數據,特徵、模型,學習過程的可解釋方案等,也基於二次學習、博弈論等技術探索了獨有的可解釋方案。塗威威說,實際上,可解釋機器學習關於“什麼是可解釋”是模糊的,每個人對可解釋的理解不同,因此,他個人認爲一個好的可解釋模式應該是交互式的,由 AutoML 給出結果,人來判斷是否符合自己的可解釋標準以及一致性標準,人再給出反饋,修改 AutoML 學習目標,讓 AutoML 更新結果。這也是第四範式交互式 AutoML 的重要功能之一。

另外,值得一提的是,第四範式目前也在推進可解釋機器學習相關的標準制定。


難點它還是難點,就在那裏


然而,雖然不斷地有企業推出各種聲稱簡單便捷的 AutoML 產品和服務,但是在實際落地過程中還是有很多的難點,用塗威威的話來說,這些難點過了很久還是難點,就在那裏。

首先,在“道”,即理論上,AutoML 還有太多的問題沒有得到回答,比如說神經網絡,目前來看,神經網絡理論本身就處於很不成熟的狀態,更不用說自動化神經網絡了,理論進展非常緩慢。

其次,一個不可忽略的點,是在於這個技術能夠解決的問題的邊界上,大家思考得並沒有那麼清楚。它到底能解決什麼問題?因爲一統天下的算法是不存在的,自動化機器學習理論上來說就像是一個一統天下的算法,然而我們都知道,一套能夠解決所有問題的算法本身就是悖論。

再者,AutoML 長期存在比較嚴重的問題,一是效率,二是效果。如何比現在的效果更好?如何讓 AutoML 更高效?

最後,塗威威還提到了目前完全黑盒的 AutoML 方案有很多弊端,主要體現在三個方面,第一個方面是優化的目標是固定的,往往現實的問題是多種目標綜合的,比如一個場景裏面,線性模型的 AUC 值是 0.80,深度神經網絡模型的 AUC 值是 0.81,按照效果優先,應該選擇深度神經網絡模型,但是線性模型上線所需要的計算資源是 1 0臺普通服務器,而深度神經網絡模型可能需要 1000臺高配 GPU 服務器,對於一些關鍵業務,可能還是會選擇深度學習模型,但是對於一些成本敏感或者業務規模不大的業務,可能更加適合的是線性模型,因爲成本更低,效果卻差不多。這樣的多目標的探索,往往人在獲得結果之前也沒有辦法有效評判,需要在精度和成本之間做微妙的選擇。這種情況目前的AutoML 就很難支持。

第二個方面就是數據科學家可能有很多自己擁有的業務背景知識,有很多有用的信息沒有辦法輸入給黑盒的 AutoML 工具,比如有些有價值的特徵,或者有一些根本不需要嘗試的參數組合,一定程度上會影響 AutoML 得到的效果和效率。

第三個方面就是實際業務可能會對實際的機器學習流程有一些定製化的需求,比如只能使用某一類的數據處理工具,這樣的一些需求在目前黑盒的 AutoML 方案上無法得到滿足。第四範式認爲,更好的方式應該是人機結合的交互式自動機器學習。

總之,雖然現在大家可以拿出一些很好的解決方案,有些地方甚至比人做得更好,但是更多時候是會發現,即使是做得很好的地方,機器與最優秀的人類專家相比還是有一定的差距。

因此,無論是效果還是效率,AutoML都有很大的進步空間。


未來研究方向


當前,AutoML 技術生態與落地是否已經處於成熟階段,相信是很多人關心的問題。雖然熱度不減,但塗威威認爲 AutoML 技術上依然需要不斷完善,其實用戶需要的就是“物美價廉”的技術,從算法效果和效率上,交互式自動機器學習方案的探索上,都還有很大的進步空間。

他說到,在全球研究者和衆多廠商的推進下,目前 AutoML 技術現在已經在很多場景落地,得到了應用,但現在更大的問題是如何實現規模化地落地,“不是在某一些團隊內部,也不是在某一兩個場景上應用,而是在更多行業、更多場景中落地。”

塗威威表示,AutoML 未來的技術突破需要在理論和算法層面有更深層次的研究。

理論上,我們需要探索 AutoML 算法的邊界,因爲根據沒有免費的午餐定理,沒有可以解決所有問題的通用算法,AutoML 算法泛化性如何等問題是需要深入探索的;算法上,就是在 AutoML 的三要素上聯合探索:(1)如何設計更好的 AutoML 配置空間;(2)如何更好地更高效地對機器學習的配置進行評估;(3)如何更好更快地搜索更有效的配置;期望獲得更好的自動機器學習效果,或者提升自動機器學習的效率,亦或提供對機器學習關鍵問題的一些新的 insight。在 AutoML 技術的落地層面上,還需要解決 AutoML 上下游的問題,上游更多是數據治理的問題,需要探索爲機器學習設計的數據治理方式,下游更多的是模型應用的問題,需要探索如何更有效地利用機器學習模型來提升業務。

另外,未來 AutoML 研究的新範式——交互式自動機器學習,通過人機結合的方式完成機器學習流程的搭建,也是非常重要的值得探索的研究方向。

【End】

在這裏插入圖片描述

今日福利!

遇見陸奇

同樣作爲“百萬人學 AI”的重要組成部分,2020 AIProCon 開發者萬人大會將於 7 月 3 日至 4 日通過線上直播形式,讓開發者們一站式學習瞭解當下 AI 的前沿技術研究、核心技術與應用以及企業案例的實踐經驗,同時還可以在線參加精彩多樣的開發者沙龍與編程項目。參與前瞻系列活動、在線直播互動,不僅可以與上萬名開發者們一起交流,還有機會贏取直播專屬好禮,與技術大咖連麥。

門票限量大放送!今日起點擊閱讀原文報名「2020 AI開發者萬人大會」,使用優惠碼AIP211,即可免費獲得價值299元的大會在線直播門票一張。限量100張,先到先得! 快來動動手指,免費獲取入會資格吧!

點擊閱讀原文,直達大會官網。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章