人工智能新聞/資料/文章收錄【2018年及之前】

本文僅用於個人網絡資料收錄:)

深度學習(科普)

高維的一般問題是,來自三維世界的人類直覺通常不適用於高維空間。在高維度當中,多元高斯分佈的大部分數據並不接近平均值,而是在其周圍越來越遠的「殼」中;此外,高維分佈的大部分體積分佈在表面,而不是體內。如果恆定數量的樣本在高維超立方體中均勻分佈,那麼在超越某個維數的情況下,大多數樣本將更接近於超立方體的一個面,而不是它們的最近鄰。此外,如果我們通過嵌入超立方體的方式逼近一個超球面,那麼在高維度下,超立方體幾乎所有的體積都在超球面之外。這對於機器學習來說是個壞消息,因爲一種類型的形狀常常可以被另一種形狀所逼近,但在高維空間中卻失效了

神經網絡不是人類大腦的模型, 神經網絡並不是統計學的「弱形式」, 神經網絡流行許多不同的架構, 規模很重要,但並不是越大越好, 神經網絡的訓練算法有很多種, 經網絡並不總是需要大量數據, 神經網絡不能基於任何數據訓練, 神經網絡需要被再訓練, 神經網絡不是黑箱, 神經網絡不難實現
這裏寫圖片描述

專家觀點

  • 2017-11-19:深度|Berkeley14位重量級學者:人工智能系統的四大趨勢與九大挑戰

  • 2018-5-7:Ian Goodfellow:我最大的失敗是用無監督解決計算機視覺的監督學習問題

  • 2018-2-19:Science組織了一場尖銳的Reddit問答,Yann LeCun的回答還是那麼耿直。
    Yann LeCun,Facebook 人工智能研究中心首席科學家
    Eric Horvitz,微軟研究院負責人
    Peter Norvig,谷歌研究總監
    話題包括量子計算、隱私、前沿研究方向、僞人工智能等
    Yann LeCun:我認爲,讓機器通過觀察來學習預測模型是通用人工智能(AGI)的最大障礙。人類嬰兒和很多動物似乎都可以通過觀察世界並與其交互獲得一種常識(雖然相比我們的強化學習系統,他們只需要很少量的交互)。我的直覺是,大腦中有很大一部分是預測機器。它訓練自身以預測所有事物(從已見事物預測未見事物)。通過學習預測,大腦精心構建了層次化的表徵。預測模型可以在和世界的最小量交互中用於規劃和學習新的任務。目前的「無模型」強化學習系統,例如 AlphaGo Zero,需要與「世界」進行大量的交互來學習(雖然它們學習得很不錯)。它們在圍棋或象棋中表現得很好,但這樣的「世界」很簡單、很確定性,並且可以同時使用多個計算機快速運行。和這樣的「世界」交互很容易,但無法推廣到現實世界中。你不能在駕駛汽車時通過 5 萬次撞擊學習「不能撞擊」的規則。人類甚至只需要一次經驗就能學習到這樣的規則。我們需要讓機器學習這樣模型。
    Yann LeCun:下一個里程碑:深度無監督學習、可以進行推理的深度學習系統。無監督學習的挑戰:學習世界的層次化表徵,以理解變化的解釋因素。我們需要讓機器學習如何在不完全可預測的世界中進行預測。關鍵技能:對連續型數學(線性代數、多變量微積分、概率統計、優化學等)的掌握/良好直覺。熟練的編程技能。熟練的科學方法論。總之:創造力和直覺。

  • 2018-11-13:Yan LeCun 109頁最新報告:圖嵌入, 內容理解,自監督學習

  • Yann LeCun演講:如何讓 AI 學習常識, AI 未來趨勢又在何 | GMIC 2018

所以不管下次的變革在哪個點,我覺得它都不會是監督學習,當然也不會是純強化學習的。它應該會有某種自我監督或者無監督學習。而且也會在這樣的變革當中出現一些常識性的學習。我總結一下,這也就是我們近期在 Facebook 做的預測學習,學習如何預測、推理以及計劃,也就是學習「常識」。它的核心思想是,自動的智能機器人應當有一個內部的世界模型,可以在它做出行動之前自己進行模擬,預知自己的動作的結果。這是一種最優控制中常見的方法,但在機器學習中就不那麼常見了。這裏我們遇到的問題也就是如何讓人工智能學會對世界建模、從而用這個模型幫助自己規劃現實世界中的行爲。
在這裏插入圖片描述
預測的時候還需要處理不確定性,在桌子上立一支筆,然後鬆手,它就會倒下來。我們只確定它會倒下來,但是不確定具體會倒向哪個方向。這種時候我們也就需要對抗性訓練,訓練模型不只給出一個答案,而是多個可能的答案。這裏需要兩個模型,一個模型做預測,另一個模型來評判哪些結果還不錯、哪些結果是現實世界不太可能發生的。做預測的模型也就要嘗試讓自己的預測越來越好,讓做評判的模型分不清哪些是真的會發生的,哪些只是預測出的結果。

所以,對抗性訓練也就是我們希望可以幫助建立預測機器的方法。預測應當是智慧的核心,我相信能訓練出具有預測能力的模型也就能在未來幾年中爲我們帶來大的進步。

2017年確實有很多不錯的進展,不過比起14年用神經網絡做機器翻譯,或者16年的AlphaGo,都談不上重大突破。今年最大的進步,在我看來是以下幾點:
1)神經架構搜索:用神經網絡來自動設計神經網絡,而且有效。
2)基於注意力機制的機器翻譯,不再需要循環或者卷積了。
3)AlphaZero:快速學會以人類的風格下棋,把最強的棋類程序拋在身後。

2018年,對於深度學習來說,將是劇變的一年。多數硬件公司將破產;元學習將成爲新隨機梯度下降法;直覺機器將彌合語義差異;深度學習研究將愈發氾濫等十大趨勢值得注意。

Bengio等人在arxiv上發表:《A Closer Look at Memorization in Deep Networks》:我們研究記憶在深度學習中的作用,吸取能力的連接,泛化和對抗的魯棒性。雖然深層網絡能夠記憶噪聲數據,但我們的結果表明,他們傾向於首先學習簡單模式。在我們的實驗中,我們揭示了深層神經網絡(DNN)在噪聲與實際數據的梯度優化中的定性差異。我們還表明,對於適當調整的明確正則化(例如,退出),我們可以降低噪聲數據集上的DNN訓練性能,而不會影響實際數據的泛化。

  • 2017-10-21:南京大學周志華老師剛剛在微博發表對AlphaGo Zero的看法:非常值得大家學習
    周志華:花半小時看了下文章,說點個人淺見,未必正確僅供批評:
    (1)別幻想什麼無監督學習,監督信息來自精準規則,非常強的監督信息。
    (2)不再把圍棋當作從數據中學習的問題,迴歸到啓發式搜索這個傳統棋類解決思路。這裏機器學習實質在解決搜索樹啓發式評分函數問題。
    (3)如果說深度學習能在模式識別應用中取代人工設計特徵,那麼這裏顯示出強化學習能在啓發式搜索中取代人工設計評分函數。這個意義重大。啓發式搜索這個人工智能傳統領域可能因此鉅變,或許不亞於模式識別計算機視覺領域因深度學習而產生的鉅變。機器學習進一步蠶食其他人工智能技術領域。
    (4)類似想法以往有,但常見於小規模問題。沒想到圍棋這種狀態空間巨大的問題其假設空間竟有強烈的結構,存在統一適用於任意多子局面的評價函數。巨大的狀態空間誘使我們自然放棄此等假設,所以這個嘗試相當大膽。
    (5)工程實現能力超級強,別人即便跳出盲點,以啓發式搜索界的工程能力也多半做不出來。
    (6)目前並非普適,只適用於狀態空間探索幾乎零成本且探索過程不影響假設空間的任務。

  • 2018-2-8:曠視科技孫劍:物體檢測中很難用函數逼近去解決的幾大問題

今天雖然有深度神經網絡,但是隻能解決函數逼近問題,有很多問題很難用函數逼近去解決。雖然說視覺是感知問題,但是視覺背後有很多認知問題,所以視覺橫跨感知和認知領域。
(1) 比如物體識別的“定義”問題。要定義“椅子”就非常困難,你很難定義清楚它。但如果一上來定義不清楚,怎麼談到做精確的物體識別?還有很多定義的概念是包容性的,千差萬別。只有對這些概念有很好的建模,才能做場景理解。
(2) 還有一些很特殊的光照、特殊的姿態、遮擋等問題。大家看圖裏的紅色框,其實有兩個人,一個人被遮擋在後面,大多數人看這個東西還是很容易看出後面一個人,今天物體檢測方法非常非常好了,依然做這個做的不太好。
這裏寫圖片描述
(3) 還有一些需要上下文支持的問題。這圖後面這兩個紅框是什麼東西?大多數人看不清楚但是可以猜可能是人,我們今天的機器還沒有這個能力去做這樣的推理。 另外一個例子,看一張圖很難想象是什麼東西,但如果你有上下文理解的話會知道這是什麼東西
(4) 還有一個很有趣的是我們做視頻分析,人有很強的“跟蹤”能力,但是如果把今天最好的跟蹤系統拿出來,大家看這個圖上這塊人聚集的位置,重疊非常嚴重,今天的機器很難做到這個。我們檢測方法並沒有非常好的推理機制在裏面。

還有一些挑戰,像機器人要做好手眼配合,今天爲什麼家庭機器人賣不出去?因爲它不能做家務,不能做飯。還有更多的挑戰,不管是做無人車,還是做無人駕駛,確實在一定程度上要求的精度是非常高,甚至高過現在的標準,人工智能技術才能順利地推廣下去。
……
我在2010年寫過一篇文章,怎麼做深度學習、人臉識別,當時還沒有進入人臉識別,通過建立一個大的數據庫,用關聯預測的機制來改善人臉識別的問題。當然預測也很重要,圖象預測,左邊有南瓜,摳掉以後,用圖象學的方法來求解南瓜後邊是什麼東西,當時還需要引入人的交互劃一條線,這是一種人的預測。預測的背後是很好的學習機制,我們通過每天觀察世界,通過預測知道結果,形成海量的數據。左邊是我們當時做的rich image,這張照片你需要識別出是什麼人,什麼地方,才能看圖說話。

如果做這麼一個系統,我們會構想什麼樣的系統才能把這個困難放在系統裏解決,不是單點突破。大家看AlphaGo的成功,AlphaGo zero的成功,AlphaGo zero的成功是因爲它能快速的模擬,**給我們的啓示是我們如果要想做好人工智能,需要建立一個虛擬的世界,快速的去模擬這個世界,哪怕這個世界是簡化的,讓這個世界能夠運行起來。**運行起來,**不管是有無監督,預測、推理、觀察都可以在這個世界重運行,**當然這個不容易,但這是我們非常看好的研究方向。謝謝大家。

前沿技術

股的例子告訴我們,對特定的應用,不同頻率上的信號所起到的作用是不一樣的。這類問題在很多工程應用中都有所體現。比如對特定物體進行跟蹤。作爲一個經典的預測問題,物體跟蹤通過特定的觀察量(比如雷達、激光雷達等)對某個物體實際的位置進行持續的預測。
這個時候,找到符合物體運動週期的特徵,並用這些特定頻率上的特徵對運動進行分析就非常重要。同樣地,在分析、預測社會活動時,這種特定週期或頻率的特徵模式往往也是非常常見的。比如,在分析交通流量時,上下班週期、在一個星期內不同天的週期等,對交通流量的分析預測都會起到非常關鍵的作用。找到並針對性地量化分析這些週期對預測未來趨勢的影響,往往是分析序列數據的關鍵。這些都啓發我們:在對信號進行預測時,需要對不同頻率的信號區別對待,針對特定的任務加以合理應用。
這裏寫圖片描述

經典的LSTM僅僅對時間信號的狀態向量做爲記憶元(Memory Cell)進行建模,而忽略了另一個重要維度頻率。而我們將狀態(state)-頻率(frequency)聯合起來,形成一個狀態-頻率矩陣(State-Frequency Matrix,SFM) 而非僅僅用一個向量來表示狀態。

矩陣中的每個元素,用它的行來索引不同狀態:每個狀態在物理意義上可以理解成代表某個引發信號波動的因子。另一方面,用SFM的列來檢索不同的頻率,代表不同因子對不同頻率的影響。

有了SFM做爲記憶元,我們就可以像一般LSTM裏那樣定義輸入門、輸出門、遺忘門和控制信息的流向。特別地,如果我們對高頻、短週期信號(比如短期高頻的交易時)更關心,對應SFM矩陣的高頻部分的信息流就會被輸入門、輸出門選定出來對信號序列進行建模。反之,如果我們對低頻的、長週期信號(比如長期投資時)更有興趣,那麼我們就可以讓模型聚焦在用SFM中的低頻部分進行分析。

  • 2018-2-17: 學界 | 紐約大學:參考兒童認知發展,通過簡單神經網絡學習歸納偏置
    藉助先驗知識,也就是歸納偏置,人類得以有效學習關於世界的新知識。本文發現,簡單神經網絡在觀察 4 個物體類別的 3 個實例之後,便可以發展出一種形狀偏置,這預示着神經網絡開始快速學習詞彙,與兒童的認知發展過程相一致。本文啓發了一種參考生物認知發展過程以初始化模型,然後逐漸泛化到更復雜數據集的模型開發範式
    這裏寫圖片描述

AI硬件技術

課程資料

知乎

BP算法自八十年代發明以來,一直是神經網絡優化的最基本的方法。神經網絡普遍都是很難優化的,尤其是當中間隱含層神經元的個數較多或者隱含層層數較多的時候。長期以來,人們普遍認爲,這是因爲較大的神經網絡中包含很多局部極小值(local minima),使得算法容易陷入到其中某些點。這種看法持續二三十年,至少數萬篇論文中持有這種說法。
到2014年,一篇論文《Identifying and attacking the saddle point problem in
high-dimensional non-convex optimization》,指出高維優化問題中根本沒有那麼多局部極值。作者依據統計物理,隨機矩陣理論和神經網絡理論的分析,以及一些經驗分析提出高維非凸優化問題之所以困難,是因爲存在大量的鞍點(梯度爲零並且Hessian矩陣特徵值有正有負)而不是局部極值。

會議資料合集

針對主要會議上發表的400篇AI論文的調查顯示,只有6%的論文包含算法的代碼,約30%包含測試數據,54%包含僞代碼。在AAAI會議上,加拿大麥吉爾大學的計算機科學家Peter Henderson表示,通過反覆試驗學習設計的AI的性能不僅對所使用的確切代碼高度敏感,還對產生的隨機數“超參數”也非常敏感——這些設置不是算法的核心,但會影響其學習速度。

Benchmark & Dataset

2018 年 9 月 10 日,騰訊 AI Lab 宣佈將於 9 月底開源“Tencent ML-Images”項目,該項目由多標籤圖像數據集 ML-Images,以及業內目前同類深度學習模型中精度最高的深度殘差網絡 ResNet-101 構成。設計了:a) 帶有權重交叉熵損失函數,b) 損失函數權重的自適應衰減,c) 負圖像降採樣,可以有效抑制類別不均衡對模型訓練的不利影響。

研究Lab

Tools, Docker, Framework

企業新聞

  • 淨利潤大漲三倍、股價飆升,百度新上了一個祕密武器:強化學習
  • 阿里巴巴開源深度學習框架 X-Deep Learning,引領高維稀疏數據場景的深度學習標準
    XDL 框架具有五大系統核心能力:第一,爲高維稀疏數據場景而生。XDL 針對高維稀疏數據場景,進行了性能優化,支持千億級參數的超大規模深度學習模型訓練;第二,工業級分佈式訓練。XDL 原生支持工業級的大規模分佈式訓練,具備完整的分佈式容災語義,可水平擴展至上幹併發,支持批量學習與在線學習模式;第三,橋接多後端支持。XDL 創造性地採用了橋接的架構設計理念,複用了現有的開學深度學習框架的單節點稠密計算能力,支持 TensorFlow 與 MxNet 作爲其單節點計算後端。這種橋接的架構,使得 XDL 跟業界的開源社區無縫對接。此外,對於已經在使用其它開源框架的企業或者個人用戶,也可以在原有系統基礎上輕鬆進行擴展。第四,高效的結構化壓縮訓練。XDL 針對互聯網數據的特點,提出了結構化壓縮訓練模式,大幅縮減 IO 通信量和訓練計算量,訓練效率可達 10 倍以上的提升;第五,獨創的高級模型服務器。XDL 提出了全新的 model shuffle 模式,原生支持多模態網絡、異構計算網絡等複雜算法。
  • List item
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章