機器學習個人筆記(1)- 概述篇

1.1 機器學習的概念

機器學習已經成爲了當今的熱門話題,但是從機器學習這個概念的誕生到機器學習技術的普遍應用經過了漫長的過程。在機器學習發展的歷史長河中,衆多優秀的學者爲推動機器學習的發展做出了巨大的貢獻。

從 1642 年 Pascal 發明的手搖式計算機,到 1949 年 Donald Hebb 提出的赫布理論——解釋學習過程中大腦神經元所發生的變化,都蘊含着機器學習思想的萌芽。
事實上,1950 年圖靈在關於圖靈測試的文章中就已提及機器學習的概念。到了

1952 年,IBM 的亞瑟·塞繆爾(Arthur Samuel,被譽爲“機器學習之父”)設計了一款可以學習的西洋跳棋程序。它能夠通過觀察棋子的走位來構建新的模型,用來提高自己的下棋技巧。塞繆爾和這個程序進行多場對弈後發現,隨着時間的推移,程序的棋藝變得越來越好[1]。塞繆爾用這個程序推翻了以往“機器無法超越人類,不能像人一樣寫代碼和學習”這一傳統認識,並在 1956 年正式提出了“機器學習”這一概念。他認爲“機器學習是在不直接針對問題進行編程的情況下,賦予計算機學習能力的一個研究領域”。

對機器學習的認識可以從多個方面進行,有着“全球機器學習教父”之稱的 Tom
Mitchell 則將機器學習定義爲:對於某類任務 T 和性能度量 P,如果計算機程序在 T 上以 P衡量的性能隨着經驗 E 而自我完善,就稱這個計算機程序從經驗 E 學習。這些定義都比較簡單抽象,但是隨着對機器學習瞭解的深入,我們會發現隨着時間的變遷,機器學習的內涵和外延在不斷地變化。因爲涉及到的領域和應用很廣,發展和變化也相當迅速,簡單明瞭地給出“機器學習”這一概念的定義並不是那麼容易。

普遍認爲,機器學習(Machine Learning,常簡稱爲 ML)的處理系統和算法是主要通過找出數據裏隱藏的模式進而做出預測的識別模式,它是人工智能(Artificial Intelligence,常簡稱爲 AI)的一個重要子領域,而人工智能又與更廣泛的數據挖掘(Data Mining,常簡稱爲 DM)和知識發現(Knowledge Discovery in Database,常簡稱爲 KDD)領域相交叉。爲了更好地理解和區分人工智能(Artificial Intelligence)、機器學習(Machine Leaning)、數據挖掘(Data Mining)、模式識別(Pattern Recognition)、統計(Statistics)、神經計算(NeuroComputing)、數據庫(Databases)、知識發現(KDD)等概念,特繪製其交叉關係如下圖所示:
在這裏插入圖片描述機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。其過程可以用下圖[2]簡單表示:
在這裏插入圖片描述

1.2 機器學習的發展歷史

在這裏插入圖片描述1956 年機器學習的概念由 Arthur Samuel 正式提出。

1965 年,James William Cooley 和 John Tukey 設計了快速傅里葉變換(FFT)算法,用於計算由多個簡單函數組合而成的原始信號的正弦曲線的幅度、相位和頻率,該算法被廣泛應用於各類工程、科學和數學問題中[4]。

1980 年,Kunihiko Fukushima 發明了 neocognitron,它是一個分層的多層人工神經網絡,它的出現直接導致了後期卷積神經網絡(Convolutional Neural Network,通常簡稱爲 CNN)的發明[5]。

1993 年,免費的、非商業化機器學習以及數據挖掘軟件 WEKA 面世,它是由新西蘭懷卡託大學研發的[6]。WEKA 作爲一個公開的數據挖掘工作平臺,集合了大量能承擔數據挖掘任務的機器學習算法,包括對數據進行預處理、分類、迴歸、聚類、關聯規則以及在新的交互式界面上的可視化,它的出現極大地降低了學習機器學習的門檻。

1995 年,貝爾實驗室的 Tin Kam Ho 利用隨機子空間方法創建隨機決策森林(RandomDecision Forests)算法,該算法既可以用於迴歸也可以用於分類任務,並且很容易查看模型輸入特徵的相對重要性,是一個高度靈活並且應用廣泛的算法[7]。

2010 年,Kaggle 由其聯合創始人、首席執行官 Anthony Goldbloom 在墨爾本創立,主要爲開發商和數據科學家提供舉辦機器學習競賽、託管數據庫、編寫和分享代碼的平臺。該平臺已經吸引了 80 萬名數據科學家的關注,極大地推動了機器學習在全球的推廣。

2011 年,IBM 的認知計算系統 Watson 橫空出世,在問答節目中首次擊敗了人類[8]。當年,Watson 身價大漲逐漸成爲了 IBM 乃至全球 AI 項目的代表。Watson 當年的成功向人們預示着一個新時代似乎就要開始了。

2012 年,Andrew Ng 團隊和 Jeff Dean 團隊通過深度學習技術,讓 16000 箇中央處理器核心在學習了 1000 萬張圖片後,成功在 YouTube 視頻中認出了貓的圖像[9],這在當時業界引起了極大的轟動。

2015 年,由 Google 旗下 DeepMind 公司戴密斯·哈薩比斯領銜的團隊開發的阿爾法圍棋 AlphaGo[10],成爲了第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智能機器人。其主要工作原理是“深度學習”,其成功使得“深度學習”概念深入人心,並在機器學習的更多廣泛領域得到了應用。

2016 年,Evans data 的大數據和高級分析調查發現,超過三分之一的開發者表示他們在大數據和高級分析項目中使用了機器學習技術。微軟團隊開發了一套能像人類一樣識別談話內容的系統。該團隊曾使用卷積(Convolutional)和長短期記憶(LSTM)神經網絡開發出Microsoft Cognitive Toolkit(CNTK)。Google Brain 團隊公佈了 Google Neural MachineTranslation System,這個基於深度學習的系統目前每天被用於處理 1800 萬次翻譯請求。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章