AI領域,中國人/華人有多牛?(文章來自於李開復)

AI領域,中國人/華人有多牛?

李開復 KAI-FU LEE·20161017

最近白宮報告出來,說中國人在AI領域很牛,甚至超過美國人。創新工場AI工程院副院長王詠剛的這篇深度文章做了深入的文章數據分析。讀讀看,中國人到底牛不牛?

————————————————

人工智能這把火已經燒到了國家戰略層面,連美國總統和政府機構也捲了進來。上週四,奧巴馬主持白宮前沿峯會,展望美國在未來50年的發展。峯會中,白宮發佈報告《國家人工智能研究與發展策略規劃》(見原文鏈接)。相關情況,大家可以參考《連線》雜誌的總統專訪(Wired: BarackObama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity中文翻譯:《連線》專訪奧巴馬:審計網路、自動駕駛和世界的未來

這兩天,自媒體沒少炒作這個報告;我自己呢,倒是特別地對這個報告中的兩張趨勢圖感興趣。報告中說,從2013年到2015年,SCI收錄的論文裏,提到深度學習的文章增長了約六倍,同時強調,按文章數計算,美國已不再是世界第一了。

美國不是世界第一?誰是世界第一呢?來看報告中的兩張趨勢圖:

上圖是每年SCI收錄的文章裏,提到深度學習深度神經網絡的文章數量變化趨勢,同時按國家做了區分。數據本身是從Web of Science核心數據庫裏查詢得到的。

第二張圖和第一張圖其他條件一樣,只是增加了一個文章必須至少被引用一次的附加條件。也就是說,第二張圖統計的文章數,是被引用過的有效文章數,相對來說更合理一些。

兩張圖裏,中國都在2014年和2015年超過了美國(以及其他所有第二梯隊的國家),居於領跑者的位置。

問題來了,在AI研究領域,中國人真有這麼強嗎?

從這些年的直覺看,中國人/華人在人工智能領域裏的大牛比比皆是,吳恩達、孫劍、楊強、黃廣斌、馬毅、張大鵬 ……隨口可以說出一大串,我自己在Google的研究團隊,微軟研究院等地親眼看到的,也到處是中國人、華人的面孔。但這只是直觀感受。整體來看,中國人/華人所做的科研貢獻到底有多重要,對人工智能的推動作用到底有多大?白宮報告裏的統計是不是科學、合理?

其實,對美國國家戰略規劃裏的統計,我自己是有幾個疑問的,主要包括:

直接搜索關鍵字深度學習深度神經網絡,真的能涵蓋這些年人工智能領域的所有科學研究進展?像機器人、智能控制、機器視覺、無人駕駛等領域裏,沒有提及深度學習的文章眼見還有不少。嚴格按關鍵詞匹配會漏掉多少相關文章?是否影響統計結果?

文章至少被引用一次,比較科學,但好像還遠遠不夠。這種統計,真的不需要考慮SCI的影響因子嗎?不考慮的話,會混進多少較差期刊上發表的比較水的論文?這些數據會不會被國內研究機構靠SCI引用數來評職稱的風氣污染?

在全球化時代,按國家統計,會不會有明顯偏差?白宮報告沒有提到被統計的文章是如何歸入不同國家的。如果按作者發表文章時的所在機構,那大量在國外機構訪問的中國學者會不會被算成外國人?中國人和外國人合寫的文章該如何統計?如果按期刊所屬國家和地區,那不同國家間的期刊水平(影響因子)差異是不是會讓統計結果帶有偏見?

基於此,我也想自己去做個統計。

統計前,給自己設了幾條原則:

從期刊的影響因子出發,只統計影響因子高的頂尖期刊。

Web of Science主題詞出發,涵蓋人工智能相關的所有科研領域,而不僅是深度學習方面的文章。

關注對象是華人,而不是用國家分類的辦法去比較中國和外國——這個是我自己的選擇,因爲今天的學術界,國家間的合作和交流已不可忽視。類似吳恩達這樣的外籍華人,其實也在爲中國的人工智能發展做貢獻。與其限定國家,不如從整體上看一看,地球上的華人科學家、研究者羣體,到底有多厲害。

關注時間範圍是20062016年,跨度10年左右——因爲許多人說,這一波人工智能大潮是從2006後的幾年時間裏,纔開始真正興起的。

我的統計結果

先說說我的統計結果,一會兒會在附錄一中講講我用的統計方法。

來看下20062016年間華人作者的平均貢獻:

20062016年的時間段裏,近兩萬篇最頂級的人工智能文章中,由華人貢獻的文章數和被引用數,分別佔全部數字的29.2%31.8%。近十年,華人用五分之一左右的作者人數,平均貢獻了三成的頂級AI研究文章和被引用數。統計角度,這已經是超出平均水平的科研貢獻了。

但平均數並不能看出華人科學家、研究者在最近幾年的發力程度。來看20062015年間,華人貢獻的文章數和被引用數的變化趨勢:

20062015年間,華人作者參與的頂級AI論文,佔全部頂級AI論文數量的比例,從23.2%逐年遞增到42.8%。而華人作者參與的頂級AI論文被引用次數,佔全部頂級AI論文被引用次數的比例從25.5%逐年遞增到55.8%2016 年數據較少,未用於趨勢比較)。

也就是說,即便只統計頂級出版物裏的頂級文章,中國人/華人在人工智能領域的貢獻,在發展趨勢上也和白宮報告中揭示的規律如出一轍——無論從哪個角度來說,中國人/華人正在人工智能領域裏發揮舉足輕重的作用,而且,從2014年,2015年開始,中國人/華人已經處於人工智能研究的領先地位,佔據了人工智能科研世界的半壁江山!

個案分析

會有人覺得這個統計很不可思議嗎?這個結果會出乎很多人意料嗎?我們還可以拿一個更具體的例子,來深入分析一下。

在頂級人工智能期刊和會議錄裏,我來舉個大名鼎鼎的例子吧:IEEE模式分析與機器智能彙刊(IEEE Transactions on Pattern Analysisand Machine Intelligence,簡稱PAMI),2015年影響因子6.077,高到沒朋友,想往這裏投稿的同學可能都知道被接受和發表的難度有多恐怖。

我從《IEEE模式分析與機器智能彙刊》裏按引用數選出20062016年間的前500篇論文,下面是這500篇論文的引用數分佈情況:

其實很恐怖的,前500篇文章最高引用數2715,最低引用數41——真頂級期刊!普通期刊難以望其項背呀。

那麼,這500篇最頂級的人工智能論文裏,華人科學家、研究者的貢獻如何呢?先說幾個數字:500篇頂級文章的作者一共1220人,其中華人科學家、研究者316人,佔25.9%。所有作者單獨累加計算的被引用數總和是231361次,其中,華人科學家、研究者被引用數總和是63846 次,佔27.6%。如果單看2014年(當年華人的文章數、引用數均較高)的數據,華人科學家、研究者被引用數佔51.8%,超過了半數。

如果只看《IEEE模式分析與機器智能彙刊》在20062016年間,引用數最多的10位華人作者和10位非華人作者的具體情況,也是一個很有趣的表格:

IEEE模式分析與機器智能彙刊》的華人前10位大牛,與非華人前10位大牛,在每個人的總引用數上幾乎不相上下。的確,最頂尖的人工智能科學家裏,中國人/華人的貢獻絲毫不亞於其他科學家。

另外,如果對人工智能特別是模式識別的研究領域不熟悉,那麼,記住表中這20位頂尖科學家的名字吧。有興趣的話,大家可以去搜一搜他們的簡歷,看看他們都在哪裏工作,在哪裏做研究,他們的學生、同事都是誰,相信會有很多發現。

原因?

爲什麼中國人/華人在人工智能領域這麼強?因爲數學好?因爲興趣使然?因爲思維習慣?因爲勤奮?因爲教育?大家可能都有自己的答案。

本文不想展開討論,列舉數據和事實,纔是本文的目的。

·        附錄一:統計方法介紹

簡單介紹一下我是怎麼得到上面那些比例和趨勢數據的。

週末,我先去Web of Science數據庫裏,找到Computer Science / ArtificialIntelligence的主題類目,根據2015SCI影響因子從高到低排序,取前50個出版物(包括期刊和會議錄),這50個人工智能領域頂級期刊和會議錄的詳細列表見附錄二。

然後,對每份頂級期刊和會議錄,基於文章的被引用數對20062016年的所有文章進行排序。這個時間段裏,期刊和會議錄的平均發表文章數在500左右,我以500爲上界,取每份期刊和會議錄中,被引用數最多的文章,至多500篇。由此得到20062016年間的頂級人工智能相關論文共計19855篇。

接下來,基於這些文章的作者列表和被引用數目,統計華人科學家、研究者與全部文章作者之間的比例和趨勢關係。

如何識別華人作者?好像沒有特別好的方法。我的方法是根據英文姓名判斷,如果英文姓名主要由漢語拼音、韋氏拼音或粵語拼音組成(當然還要考慮姓氏、名字二者在英文表述上的區別,以及其他一些經驗規則),那麼就假定這個作者是華裔。根據小樣本集驗證,這個判別方法的檢準率大約在96%以上,檢全率大約在90%左右。也就是說,會有一定數量的遺漏,也會有少量誤識,但基本可以反映整體情況與趨勢。

如何解決合作者問題?我是分別統計,並且不加權重的。第一作者和其他作者共享文章計數和引用計數。爲第一作者增加權重是否影響整體統計結果?也許,但不會影響總體趨勢數據,因爲並沒有證據表明,華人更多地出任第一作者,還是非華人更多地出任第一作者。至於每個作者的文章數和引用計數,是採用簡單累加,還是採用比例累加(如兩人合作,每人的貢獻算0.5還是1),我做了全數據集的對比試驗,幾乎完全不影響整體結果。

·        附錄二:出版物名稱,影響因子

按影響因子排序的前50人工智能期刊、會議錄列表:

1.     IEEE TRANSACTIONS ON FUZZY SYSTEMS, 6.701

2.    International Journal of Neural Systems, 6.085

3.    IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINEINTELLIGENCE, 6.077

4.    IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 5.908

5.    INTEGRATED COMPUTER-AIDED ENGINEERING, 4.981

6.    IEEE Transactions on Cybernetics, 4.943

7.    IEEE Transactions on Neural Networks and Learning Systems,4.854

8.   MEDICAL IMAGE ANALYSIS, 4.565

9.    Information Fusion, 4.353

10.INTERNATIONAL JOURNAL OF COMPUTERVISION, 4.27

11. IEEE TRANSACTIONS ON IMAGE PROCESSING, 3.735

12.IEEE Computational Intelligence Magazine, 3.647

13.EVOLUTIONARY COMPUTATION, 3.6

14.IEEE INTELLIGENT SYSTEMS, 3.532

15.PATTERN RECOGNITION, 3.399

16.ARTIFICIAL INTELLIGENCE, 3.333

17.KNOWLEDGE-BASED SYSTEMS, 3.325

18.NEURAL NETWORKS, 3.216

19.EXPERT SYSTEMS WITH APPLICATIONS, 2.981

20.                      Swarm and Evolutionary Computation, 2.963

21.APPLIED SOFT COMPUTING, 2.857

22.                       DATA MINING AND KNOWLEDGE DISCOVERY, 2.714

23.                       INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, 2.696

24.                       SIAM Journal on Imaging Sciences, 2.687

25.                       DECISION SUPPORT SYSTEMS, 2.604

26.                       Swarm Intelligence, 2.577

27.Fuzzy Optimization and DecisionMaking, 2.569

28.                      IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2.476

29.                       JOURNAL OF MACHINE LEARNING RESEARCH, 2.45

30.                      ACM Transactions on Intelligent Systems and Technology, 2.414

31.NEUROCOMPUTING, 2.392

32.                       ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2.368

33.                       CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS, 2.217

34.                       ARTIFICIAL INTELLIGENCE IN MEDICINE, 2.142

35.                       COMPUTER VISION AND IMAGE UNDERSTANDING, 2.134

36.                       JOURNAL OF AUTOMATED REASONING, 2.113

37.INTERNATIONAL JOURNAL OF INTELLIGENTSYSTEMS, 2.05

38.                      COMPUTATIONAL LINGUISTICS, 2.017

39.                       ADVANCED ENGINEERING INFORMATICS, 2

40.                      JOURNAL OF INTELLIGENT MANUFACTURING, 1.995

41.Cognitive Computation, 1.933

42.                       IEEE Transactions on Affective Computing, 1.873

43.                       JOURNAL OF CHEMOMETRICS, 1.873

44.                       MECHATRONICS, 1.871

45.                       IEEE Transactions on Human-Machine Systems, 1.8

46.                       Semantic Web, 1.786

47.IMAGE AND VISION COMPUTING, 1.766

48.                      Wiley Interdisciplinary Reviews-Data Mining and KnowledgeDiscovery, 1.759

49.                       NEURAL PROCESSING LETTERS, 1.747

50.                      ARTIFICIAL INTELLIGENCE REVIEW, 1.731

 

發佈了34 篇原創文章 · 獲贊 12 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章