記一次徐宗本院士的講座——大數據分析技術圖譜與研究舉例

主講嘉賓:徐宗本院士 主持人:申恆濤教授

海報原文:

       大數據分析與處理依賴特定的計算模式與全新的計算方法(稱爲大數據算法),設計創新的大數據計算模式與大數據算法是大數據的最核心技術,也是一個全新的領域。本報告引進大數據算法的譜系,並引進最優化理論與方法中的ADMM(alternating direction method of multipliers)作爲大數據計算模式與算法設計的基本框架。

        我們說明:ADMM非常適宜於實現“數據分解、變量分組、隨機化”等大數據算法設計原理,並通過應用於大數據迴歸、超大規模線性方程組等問題展示ADMM方法的有效性 。我們也說明:ADMM能夠解釋作深度學習網絡,從而ADMM理論與深度學習方法的結合,能夠形成一類全新的“模型與數據”雙驅動的大數據學習技術。該類技術能很好地解決深度學習拓撲結構確定難的問題,也能很好解決ADMM難以應用於模型族的問題。我們運用新技術學習MR壓縮感知成像取得了目前最好的效果,驗證了新技術的可用性與高效性。

講座筆記:

        大數據在中國發展不平衡,商業熱而科研冷。大數據在量變的積累中,慢慢實現了知道數據背後信息和知識的質變。因此,從這個意義上來說,大數據的“大”不是一個特定的數據規模,因爲針對不同的應用領域有不同的尺度,這個領域可以發現知識的數據量這另一個領域不一定有所突破。

        因此,“大”其實指的是一個臨界點,或者稱爲“界”,當獲得的數據量越過這個臨界點的時候,人們就可以通過計算得到背後的知識。

        所以,“大”是一個針對於不同決策問題領域的相對概念。

        大數據應用領域:

  1. 大數據資源管理於公共政策(管理)
  2. 存儲於處理(計算機)
  3. 分析理論於算法(數學)
  4. 結合具體領域(綜合應用)

        數據是基礎,平臺作支撐,分析是核心,效益是根本。但中國重存儲而不重分析,這和中國的科研人員較爲普遍的用大量正在運轉的硬件設備來討好領導的官僚作風不無關係。

        幾個困惑:

  1. 離散樣本不等於連續母體
  2. 相關性不等於因果性
  3. 查詢不等於推斷
  4. 數據足夠多不等於理論

        大數據存在的問題:

  1. 分析基礎被破壞(統計、計算理論、邏輯受到顛覆,比如傳統意義上算法理論認爲多項式時間內的算法是好算法,但實際上對於大數據來說,n²時間複雜的算法便已無法承受,最多的忍受極限就是nlogn)
  2. 計算模式受到拷問(馮諾依曼的硬件架構已不再適合於大數據計算,因爲計算和存儲分開,大量的時間消耗在數據的傳輸上,大數據分析要實現存算一體化,這並不是不能實現的,人的大腦就是最好的實例)
  3. 傳統的處理算法大都不可接受
  4. 分析的真僞性判定缺乏普遍的一般標準

        未來的大數據技術和計算機算法都需要解決的問題

  1. 分析學基礎
  2. 計算平臺
  3. 真僞性判定

        大數據產業鏈

數據產品+核心算法+基礎算法

        大數據面臨的7個問題

  1. 基本統計量
  2. 廣義N體問題
  3. 圖計算
  4. 線性代數計算
  5. 最優化問題
  6. 合併綜合
  7. 對齊問題

        大數據的4個環境

  1. 數據流(只能存儲一部分)
  2. 磁盤(數據不存在與RAM,存在於硬盤)
  3. 分佈式(數據存儲在多個機器中)
  4. 多線程(數據在一個擁有多處理器和一個共享RAM的機器上)

        深度學習的困惑:網絡結構和性能的關係難以理解。實際上人們總是在盲目地套用別人的神經網絡,而忽略了實際應用問題的領域建模知識。一個好的模型,能夠很好地解決問題的同時,也代表了其對應用問題的抽象能力也是很好的。因此,徐院士在介紹一個圖像識別問題的時候,給出了一個經驗公式,式子由一個前面的矩陣計算乘積和其後的正則化項組成。因爲這就是要最小化的代價函數,因此應用最優化理論對其進行泛函求解,最後得出的計算步驟的一部分實際上就等價於卷積和池化。在這個基礎上開發的ADMM網絡因此也就具有理論上的科學性和建模上的合理性。這實際上也給深度學習人員盲目開發並利用優良的計算資源盲目應用複雜的神經網絡上了一課。好的模型永遠來自於實際的現實,而不會來自於盲目地應用優良的GPU。

        因此,未來的深度學習模型要更好地融入數學、物理學和其他領域的領域知識,以更好地將理論和實際結合起來,走出盲目探索的深度學習蠻荒時代。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章