李航《統計學習方法》學習筆記-第一章-統計學習方法概論1


關於李航老師的《統計學習方法》的博客文章/知乎文章/微信公衆號文章/github開源代碼,已經數不勝數。然而,正如一百位讀者有一百位哈姆雷特,本系列博客希望通過與衆不同的角度帶小白學習李航老師的《統計學習方法》。
官方的PPT沒有找到出處,大家可以關注微信公衆號:機器學習算法與自然語言處理,回覆五件套獲取,這裏就不提供下載鏈接啦。

導學與資源推薦

第一章PPT的導學與資源推薦部分尤其精彩,但不少博客文章對第一部分的非算法/代碼的內容進行了刪除,這對於新手而言,就不太友好。

數據與規律

機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因爲學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯繫尤爲密切,也被稱爲統計學習理論。
由該段可以看到,數據和規律是我們要接觸的重點內容,不過由於現階段,大多數研究人員關注的是規律(也可以延伸而稱之爲算法、模型),少部分人在進行數據收集(也就是創建數據集),但從人工智能的整個發展歷程來看,好的數據,會帶來革命性的促進作用,例如計算機視覺(CV)領域,就因爲大名鼎鼎的Imagenet,而突飛猛進,足夠多、足夠好的數據,才能讓我們對規律產生無限的想象空間。
在這裏插入圖片描述圖1 Imagenet(14,197,122 images, 21841 synsets indexed )

另一方面,在NLP的對話系統領域,至今沒有令人耳目一新的突破,很重要的一個原因就是,數據集不夠大、不夠豐富、質量不夠好。
因此,不管是數據還是規律,作爲研究人員,都不應該忽視,另外,在研究過程中,也不能盲目相信已有數據集,要多研究思考給定的數據集的特徵與缺陷,之後纔是考慮規律,否則,生硬套模型,難以真正獲得穩定且優質的結果。

課件中推薦的資源

斯坦福機器學習:
http://v.163.com/special/opencourse/machinelearning.html
CMU 機器學習課程:
http://www.cs.cmu.edu/~epxing/Class/10715/
http://www.cs.cmu.edu/~epxing/Class/10708/
http://www.cs.cmu.edu/~epxing/Class/10701
https://sites.google.com/site/10601a14spring/syllabus
相關學術文章下載資源:
COLT和ICML(每年度的官網): http://www.cs.mcgill.ca/~colt2009/proceedings.html
CV:http://www.cvpapers.com/index.html
NIPS: http://books.nips.cc/
JMLR(期刊): http://jmlr.csail.mit.edu/papers/

個人認爲,對於普通本科學生而言,可以適當關注推薦的課程,不必花過多時間關注推薦的學術文章,而研究生則可以密切關注推薦的幾個學術文章下載網站!

機器學習概述

機器學習定義理解

機器學習有下面幾種定義:

  • “機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能”。
  • “機器學習是對能通過經驗自動改進的計算機算法的研究”。
  • “機器學習是用數據或以往的經驗,以此優化計算機程序的性能標準。”

從上面的三種定義中,我們都可以看到,機器學習的定義離不開“經驗“二字,因此,貫穿機器學習的整個研究過程,我們的算法都不是憑空出現的,它必須是設法找到某種經驗,爲我們所用!
從這個方面來看,我們讀萬卷書行萬里路,對自身來說,也是一種”機器學習”。

機器學習應用

  • 數據挖掘
  • 計算機視覺
  • 自然語言處理
  • 生物特徵識別
  • 搜索引擎
  • 醫學診斷
  • 檢測信用卡欺詐
  • 證券市場分析
  • DNA序列測序
  • 語音和手寫識別
  • 戰略遊戲
  • 機器人
    課件中給出了大量的應用例子,但對當前的社區而言,毫無疑問,計算機視覺(CV)和自然語言處理(NLP)領域是最火熱的!

機器學習的發展歷程

對歷史的研究,總是有意思並且能促進我們去思考的,我建議大家閱讀這篇博客文章《機器學習的發展歷程》以及《機器學習發展歷史回顧》

在這裏插入圖片描述圖2 機器學習發展進程

而課件中提及的新的方向:

  • 集成學習
  • 可擴展機器學習(對大數據集、高維數據的學習等)
  • 強化學習
  • 遷移學習
  • 概率網絡
  • 深度學習
    無疑都是當前的研究熱點,譬如2018年出現BERT之後,在NLP領域已經興起了遷移學習熱潮!
    希望通過學習該課程,從而進一步摸索自己研究生生涯的同學,則可以結合自己實驗室的研究方向+上面的某個方向,搜索相關的研究,爲自己制定未來的學術方向!

而課件提及的國內外的研究者M. I. Jordan、Andrew Ng、Tommi Jaakkola、David Blei、Eric Xing、D.Koller
2001年IJCAI計算機與思維獎:TerryWinograd、David Marr、Tom Mitchell、RodneyBrooks等人之後的第18位獲獎者
Peter L. Bartlett、J. D. Lafferty
國內:李航,周志華, 楊強,王曉剛,唐曉鷗,唐傑,劉鐵巖,何曉飛,朱筠,吳軍,張棟,戴文淵,餘凱,鄧力,孫健
則可以找到他們的google學術主頁,最好關注一波,或者收藏他們的主頁,這無疑有利於自己關注大牛的最新研究成果!

機器學習VS統計學習

機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的算法。機器學習算法是一類從數據中自動分析獲得規律,並利用規律對未知數據進行預測的算法。因爲學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯繫尤爲密切,也被稱爲統計學習理論

研究方法差異

  • 統計學研究形式化和推導
  • 機器學習更容忍一些新方法

維度差異

  • 統計學強調低維空間問題的統計推導
  • 機器學習強調高維預測問題

統計學習的方法按有無監督分類

  • Supervised learning:監督學習——監督學習的核心就是帶標籤,例如下圖,學習系統的輸入是(xi,yi)(x_i,y_i),學習系統學習的過程就是監督過程。
  • 在這裏插入圖片描述
  • Unsupervised learning:無監督學習——無監督學習則與監督學習相反,學習過程輸入的數據是沒有標籤的,
  • 在這裏插入圖片描述
    Semi-supervised learning:半監督學習——讓學習系統不依賴外界交互、自動地利用未標記樣本來提升學習性能,就是半監督學習。半監督學習的基本思想是利用數據分佈上的模型假設建立學習器對未標籤樣例進行標籤。

Reinforcement learning:強化學習——強化學習最早可以追溯到巴甫洛夫的條件反射實驗,它從動物行爲研究和優化控制兩個領域獨立發展。讓計算機實現從一開始完全隨機的進行操作,通過不斷地嘗試,從錯誤中學習,最後找到規律,學會了達到目的的方法。這就是一個完整的強化學習過程。讓計算機在不斷的嘗試中更新自己的行爲,從而一步步學習如何操自己的行爲得到高分。它主要包含四個元素,Agent、環境狀態、行動、獎勵,強化學習的目標就是獲得最多的累計獎勵。
在這裏插入圖片描述
第一章內容還沒有結束,但考慮到大家的閱讀時間,在這裏將第一章拆分爲兩部分。

參考資源

[1] https://github.com/wzyonggege/statistical-learning-method
[2] https://github.com/WenDesi/lihang_book_algorithm
[3] https://blog.csdn.net/tudaodiaozhale
[4] 李航. 統計學習方法第二版[M]. 北京: 清華大學出版社, 2019.
[5] https://github.com/fengdu78/lihang-code

【作者簡介】陳藝榮,男,目前在華南理工大學電子與信息學院廣東省人體數據科學工程技術研究中心攻讀博士,擔任IEEE Access、IEEE Photonics Journal的審稿人。兩次獲得美國大學生數學建模競賽(MCM)一等獎,獲得2017年全國大學生數學建模競賽(廣東賽區)一等獎、2018年廣東省大學生電子設計競賽一等獎等科技競賽獎項,主持一項2017-2019年國家級大學生創新訓練項目獲得優秀結題,參與兩項廣東大學生科技創新培育專項資金、一項2018-2019年國家級大學生創新訓練項目獲得良好結題,發表SCI論文4篇,授權實用新型專利8項,受理髮明專利13項。
我的主頁
我的Github
我的CSDN博客
我的Linkedin

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章