中國AI開源開放平臺的現狀與挑戰

12月21日~22日,由鵬城實驗室(PCL)、新一代人工智能產業技術創新戰略聯盟(AITISA)主辦、OpenI啓智社區(OpenI)承辦的「OpenI/O 2019 啓智開發者大會」在深圳召開。本次大會以“平臺築基、標準張脈、開源賦能”爲主題,邀請了來自百度、騰訊、華爲、鵬城實驗室、小米、微衆銀行等公司的產業界專家,與高文院士、黃鐵軍教授等多位學術界領袖,圍繞“AI開源基礎設施及環境”、“深度學習與強化學習”、“聯邦學習與開源數據湖”、“5G+AI+AVS及全國AI大賽”、“AI開源教育與治理”、“Open Source Community Leadship”六大主題坐而論道,共同探討人工智能的邊界和方向。

新一代人工智能產業技術創新戰略聯盟(AITISA)祕書長、OpenI技術委員會主席、北京智源研究院院長黃鐵軍在會上發表了題爲“堅持開源開放原則,築成新一代人工智能”的主題演講,詳細闡述了AI開源開放平臺的使命,並指出了它的機遇與挑戰,以及具體的實施路徑。

InfoQ根據速記將演講內容整理如下(在不改變原意的基礎上略有刪減):

各位早上好!我稍微系統地給各位彙報一下OpenI的背景和進展情況。

中國的人工智能發展是有國家體系化的推進安排的,具體來說就是國務院2017年7月20號發佈的《新一代人工智能發展規劃》。在這個文件裏,大家關注比較多的是中國在2020年人工智能要達到與世界先進水平同步,2025年要達到世界領先水平,2030年總體達到世界領先水平。但是怎麼實現這樣一個目標,媒體上報道的並不多。事實上,達到這個目標的路線在規劃裏也是有的,中國推進人工智能的四條原則分別是:科技引領、系統佈局、市場主導、開源開放。這16個字告訴了我們怎麼實現剛纔提到的戰略目標。今天我會具體說到其中一個原則,就是開源開放。

中國的人工智能發展,並不像有人想象的,我們要組織多少團隊,在一些方向上領先。這也是一種路線,但是不全面。如果說全面的話,在開源開放的原則下,大家共同建設一個體系化的AI技術體系,這纔是我們要達到目標的一個更重要的佈局。所以今天我們要落實的就是這樣一個原則,在這個原則的基本思想指導下展開工作。

《新一代人工智能發展規劃》於2017年7月20號發佈,7月23號科技部就在國家指導下成立了新一代人工智能產業技術創新戰略聯盟。這個聯盟要做什麼?千頭萬緒,可以說聯盟產學研資用各方面的事情都可以做、都應該做,但是最核心的是怎麼把這些工作組織起來。我們成立的時候就明確了,新一代人工智能產業聯盟的核心工作就是建設人工智能的開源開放平臺,用這個平臺來把剛纔說的產學研資用各方面的社會力量匯聚在一起,支撐國家新一代人工智能規劃的落實。

聯盟支撐國家規劃落地的核心工作叫“一體兩翼”,一體就是新一代人工智能開源開放平臺,兩翼是各種工作組和推進組。

今年6月份,科技部有一本期刊《前沿科學》報道了我們國家新一代人工智能的進展,當時跟我約稿,我寫了一篇文章,我今天的題目也是來自這篇文章,叫做“堅定開源開放原則,築成新一代人工智能”。因爲經過了差不多兩年的發展之後,大家對中國的人工智能怎麼發展已經有很多的討論,到底是開放還是封閉,大家有不同的看法。我用這個詞的意思就是堅定開源開放原則,不僅是開源開放,而且要更開放,這是當時定的原則。我們不能因爲兩年之後國內外形勢有一些變化就退縮了,不應該這樣,而應該更堅定地做開源開放。而且開源開放不僅僅是一個機制,它本身就是一套技術體系,也是建成新一代人工智能最重要的一套推進體系。所謂中國新一代人工智能,到2025年、2030年大家想象的人工智能是什麼,這裏面當然有一些科技亮點、重大成果,但是它首先是一個整體的技術體系,這個體系纔是新一代人工智能,它不是幾個閃光的點,它是像一個城市一樣,是一套堅實的體系。

爲什麼要這麼做?當時分析了這麼幾個點:

第一是爲什麼要做開源開放,有很多的理由,我認爲最重要的理由有兩個,一是隻有通過開源開放的方式,才能把技術的輻射性發揮出來,才能把國家的投入、社會的投入,以及大家的智慧,發揮最大效應。我們不能再走回一個公司做一個產品,自己保密,靠一件一件產品盈利的老路上。二是AI跟別的技術不同,AI是一個難以透徹理解的技術,在AI之前所有的技術,包括算法系統,其背後原理是可以理解的,且過程也是完全可控的,但是AI具有難以透徹理解的特性,它越發展,挑戰就越大。就像今天的深度學習工作得很好,大家就說我們要研究它的可理解和可解釋性,因爲不知道爲什麼工作得那麼好,但是它的性能很好,大家在實踐中就去用。這樣一種現象,未來不管什麼樣的AI新方法模型,都還會持續下去。因爲它是智能的,智能是一種功能,是一種現象,它背後的機理的理解,是我們在探索智能科學和技術過程中永遠需要面對的一個問題。這類技術存在不能透徹解釋的特性,如果在現實中應用,還不開放,大家敢不敢放心去用?所以如果從理論上做不到可解釋,不能透徹地理解,至少我們在技術上要做到開放,讓大家心裏清楚這裏面沒有暗藏什麼東西,它只是一個技術。技術有這麼一個屬性,我們科學家可以去解釋它、探索它,但是技術上絕對不能封閉,封閉的東西是不可能有生命力、讓大家廣泛使用的。

第二是如何做好開源開放。實際就是要聯合在一起,某種程度上要放棄一部分個體與企業的商業利益,而讓大家能夠共享、共建,發揮最大效應。這個思維方式在開源社區大家是比較認同的,但是在整個社會領域,特別是在中國現在這樣的狀態下,大家對開源可能用的多,貢獻的相對少,這需要大家一起來持續推動。

第三是以開源開放提升創新質量。開源開放以前也存在,但是以前的開源開放和科技創新之間的關係通常是兩張皮,這種兩張皮的現象,希望通過AI這樣一個新的領域結合在一起。事實上我們講科研,確實有很多高水平的研究團隊在努力做創新工作,但是確實也有一部分團隊是拿項目作爲目的,而不是以研究創新作爲目的的,這種現象在中國也不少見。我們希望通過開源的方式,把這一類項目淘汰掉,不是爲研究而研究,一定要做有意義、有價值的研究,一定要開放。

去年新一代人工智能重大科技項目,以及今年馬上要發佈的重大科技項目的指南都很明確地提到,特別是搞理論研究的,必須要開源。你本來就是一個無人區或者是號稱前沿的探索,你不告訴別人你在做什麼,等到幾年之後交個報告,就說自己做得怎麼樣,這是有問題的。現在是一個開放的時代,一開始就應該打開這個過程。開源開放實際上是在提升創新質量,如果真是一流的研究,就不怕大家去知道、瞭解,甚至去參與、貢獻。只有那些自稱很好,事實上沒有什麼東西的研究,纔不敢開源開放。我們也希望將這種方式用到後續國家項目的推進過程中。國家出的錢,或者是地方政府出的錢,公共資金做的東西,你有什麼理由把它封閉在自己手裏?你願意自己做,不用公衆的錢,那沒問題,愛做什麼就做什麼;既然拿公衆資金,就應該開源開放。我們希望通過這種方式把那些低水平重複的工作、沒有實質性創新的工作淘汰掉,來實現更高質量的創新,這也是我們要堅持開源開放的一個很重要的理由。

在國家新一代人工智能重大科技項目的部署中,軟件、硬件的體系就是很重要的一部分,它也是連接研究團體社區和開發應用,以及全社會的一個很重要的渠道,這條原則會在未來十多年的科技創新2030重大科技項目中不斷地貫徹下去。所以大家做開發並不僅僅是傳統的做一個操作系統或者代碼的開發,它跟我們AI的研究結合得越來越密不可分。

在去年新一輪人工智能重大科技項目的落實中,還有一個詞大家在媒體上也看到過,叫“開放創新平臺”,由5家企業承擔了國家新一代開放創新平臺,這5家企業是:百度、阿里、騰訊、訊飛、商湯,大家從不同的方向推動創新。開放創新肯定不等於開源,並不是說這些企業做的所有東西都要開源,但是他們也要開放,形成產業鏈。雖然一開始的時候有的開源,有的不開源,但是隨着它往下發展,他們其中有一部分,特別是公共部分是要開源的。爲什麼要開源?因爲相互之間要打通,要合作,要爲整個社會人工智能的發展提供公共平臺。

除了這些領頭企業之外,全世界做開源的企業,包括做研究的機構非常多,怎麼讓這些機構能夠深度地介入到這樣一個開放創新過程?如果一點都不開源是不可能做到的,除非你是一個壟斷一切的企業。但是我們今天沒有這樣的企業能夠壟斷一切,每一個都是這個社會創新的一個節點、一個部分,所以他們在一定程度上都是要開源的。這些開源的部分和我們剛纔講的開源會形成一體,就像一個熱帶雨林一樣,有的植物比較大,有的植物相對比較小,但是最終的根系是連接在一起,在一個共同的生態裏生長。

爲了做好這件事情,2018年3月31號聯盟發佈了啓智開源許可證OIL,這個許可證本身的政策也一直在討論中,大家如果感興趣可以參與到它的維護和更新裏來。

從2018年3月31號發佈許可證到今天,不到兩年的時間裏面,聯盟組織了大量的工作,開了很多會,我就不一一說了,今天是一系列會議中最大規模的會議。

我們現在是一個開源開放的社區,在這個社區裏面有一套運行的機制,總體來說這是由會員組成的一套體系,這裏麪包括核心成員、高級成員、普通成員和合作伙伴。誰是高級、誰是核心,這就以貢獻論英雄,大家在建設這樣一個平臺和構建這個社區的過程中,領導力會逐漸體現出來,單位的貢獻也會逐漸累積,大家都能看得到,根據這些貢獻逐漸形成我們的領導體系。

保障這套體系背後的是一些規則、文件和大家形成的共識,現在體系化的系統也已經建立起來了。

我今天是代表技術委員會來跟大家作報告,技術委員會已經做了很多技術討論。我在北大工作,更多的是搞研究,做一些科研方面的事情,一開始爲了把這件事情推動起來,由我牽頭組織。技術委員會的曾煒來自鵬城實驗室,馬豔軍來自百度,黃之鵬來自華爲,餘躍來自國防科大,劉祥龍來自北航,曹祥來自微衆。這些是第一屆委員,目的是把工作先做起來,希望後面有更多的貢獻者之後,我們會一個個逐漸被替代掉,將來大家憑貢獻來進入技術委員會。

從今年1月27號籌備這個技術委員會,討論OpenI背後的重要技術問題開始,我們正式的會議已經開了5次,進行了十幾次討論,多數是通過視頻會議的方式,因爲大家來自全國不同地方、不同單位,很難集中在一個會場。1月份開了第一次會議,後來又舉行了幾次重要技術問題的討論會議,7月19號開的是第二次正式會議,在這次會議上把我們的技術架構建立起來,9月份的會上我們討論了怎麼去建好一個開源的生態。最近這兩次會,一個今天的大會,另外一個是關於激勵機制怎麼建立起來的討論。

如上圖,第一屆技術委員會成員主要是來自貢獻比較多的單位,包括鵬城實驗室、智源、北大、國防科大、華爲、百度和微衆銀行,還有其它的單位也在做貢獻。下面羅列的Logo是貢獻比較多的單位。

上圖是現在支撐OpenI運行的技術體系,是在6月份確定的。

我們可能跟大家通常理解的開源有區別,OpenI既不是像GitHub那樣支持各種開源項目的管理平臺,也不是一個類似TensorFlow這樣的具體的開源框架,它是圍繞AI的一批開源項目,而且這些開源項目不僅要管理,支持大家在線開發,它還要運行。它不是一般的代碼開發、機器編譯運行就可以了,OpenI還需要強大的算力支持大模型的運行。所以我們在建立這個體系的時候,基礎設施就不僅僅是通常的雲計算或者是自己的機器,而是要有一個基礎系統。這個基礎的系統包括兩個方面,藍色的部分是訓練平臺,橙色的部分是運行平臺,也是通常大家理解的雲設施。目前提供算力最大的是來自鵬城實驗室的雲腦1號、2號。通常你要是開發一個AI模型,是在深圳計算的,聯網、分佈式調度正在進行中,未來會在全國各地陸續上線,提供更多的計算能力。華爲雲是我們使用的開發體系,因爲大家都是在全國各地、各個單位參與開發,因此我們通過華爲雲來提供支撐服務。

新一代人工智能的基礎硬件、開源芯片也是我們開源體系的一部分,當然它還在起步階段,希望有一天它能夠成爲支撐整個體系運行的重要組成部分。9月25號我們上線了OpenI開源芯片項目,屬於基礎設施層。

中間層是軟件環境,包括三個方面:一是運行環境,就是爲AI訓練提供基礎的軟件環境,章魚、珊瑚本身是開源項目,同時也是支撐我們運行的兩個重要項目;二是開發環境,就是啓智、磐石和華爲軟開雲構建的環境,大家可以在上面上傳、調試代碼;三是數據協同環境,因爲AI、特別是大數據類的AI,需要很多數據的共享、交換和分佈式訓練,因此我們6月18號上線了OpenI縱橫,它自身也是一個開源項目,同時它支撐OpenI數據方面的任務。

最上層是大家熟悉的開源框架,比如機器學習框架飛槳,這是百度貢獻的框架,還有視頻的開源項目,後續還會有一系列項目上線。

大家看我們過去一兩年構建的平臺,主要是底層的基礎設施,它本身又是開源的,大家可以對這些基礎設施不斷地做出更新、貢獻,使這個平臺越來越強大,我們也歡迎更多的開源項目出現。

整體我們有一個社區,這套社區體系基本上是完整的,也希望大家在未來的工作中繼續完善這樣一個體系,促進更多開源項目的培育、孵化、成長。

剛纔高文院士講了啓夢計劃,實際上是激勵,也是近期技術委員會討論的一個很重要的任務,就是怎麼更好地激勵大家、支持大家開源開放的工作。以前開源很多的動力來自於志願者,大家天生就願意做這件事情,也來自一些企業的支持。既然新一代人工智能是國家支持的重要組成部分,支持範圍就會比傳統的更廣泛,包括剛纔提到已經提供支持的鵬城實驗室等核心成員單位,可能幾天之後就會有國家科技部、發改委的支持啓動。這些國家的力量、企業的力量、社會的力量怎麼作用到貢獻者,這就涉及到怎麼激勵大家,激勵也是社區建設的一個重要的組成部分。我們剛纔說的都是源頭,這些資源來了,比如說國家的項目來了,有這些核心單位牽頭啓動,最終它要落實到一個一個貢獻者身上,這就是所謂的激勵計劃。這套體系正在建立過程中,我們希望真正能夠讓這些願意支持開源的資源用到支持開源的技術人員身上,這就是啓夢計劃的一個基本想法。當然,貢獻大小怎麼去衡量,我們在社區裏邊建立好體系之後,資源就可以按照貢獻去匹配和落實到位。

開源許可證從去年3月份發佈之後,到現在一直在討論,因爲它是一個法律性很強的規則,儘管篇幅很長,但是它決定了我們將來這些代碼怎麼用,將來商業化使用是不是存在約束,以及大家的貢獻怎麼更好地體現,這樣一些最核心的權益,這也是社區裏面在討論的很重要的組成部分。到今天爲止我們已經有一個2.0的Alpha版,在這兩天的會議期間大家也可以就這個問題進行討論,後續有更多的時間,還可以討論。其中主要的基本思想是,我們的許可證不像以前僅僅是對代碼的管理,在雲計算時代,不一定是把代碼拿去開發一個產品,很多本身就是服務,所以在這個時代怎麼做好開源的管理非常重要。

總結一下,從當初把開源作爲聯盟的一項核心工作到現在,我們已經把整個體系建立起來了,開源就是驅動整個聯盟運行的核心力量。還有一個是標準,今天沒有時間展開講,但實際上關於標準的討論會是三個月舉行一次,到現在已經開了第七次會,馬上就要開第八次標準的討論會。我們開源的有些關鍵技術、關鍵接口需要跟其他接口互聯互通時,需要通過標準的方式去做。聯盟是國家團體標準的制定單位,也是國家標準,我們做的團體標準可以通過綠色通道上升爲國家標準。這是國家標準委給我們的一個責任,這兩個結合在一起,會對將來的整個產業生態發揮重要作用。 聯盟工作組、推進組,在這些方面也做了很多推動工作。

這套體系建立起來以後,就覆蓋了底層的理論、技術體系,這是一直以來國家和地方項目支持的;中間的開源開放平臺,包括平臺本身以及我們的社區體系;上面的一套治理體系,比較偏軟性,但也是我們長期發展的一個很重要的基礎,希望爲中國的人工智能發展,爲全世界的人工智能發展構建一個良好的生態。

開源開放,共建共享,久久爲功,這是一個長期的任務,希望通過我們這樣一個體係爲中國人工智能2030世界領先做出基礎性的貢獻。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章