機器學習【一】:緒論

    由於工作的關係,開始接觸機器學習這個技術領域,雖然自己的工作看似和機器學習關係不大,但是利用機器學習進行大數據的分析卻是至關重要的。因此從今天開始自己再開始一個關於“機器學習”的系列筆記,將主要記錄整理自己學習的收穫。今天是對於機器學習的一個基本的介紹。
一、什麼是機器學習?爲什麼需要機器學習?
    所謂機器學習,英文就是Machine Learning,最早的形式類似於數據挖掘、模式識別、人工智能等。無論其如何變化,應用到哪個具體的領域,其核心的思想都沒有變:利用數據分析技術發現隱藏在數據背後的規律或模式。 這裏的主要問題面向那些算法還不清晰,無法直接編程實現解決的問題。比如對於序列排序問題,我們已經有了成熟的冒泡等算法;但是對於識別手寫字體或從音頻 中提取出一個人說的話等,大腦的處理機制尚且不清晰,又何談編程實現呢?因此對於此類難以編程實現的問題,我們採取數據分析的方法;而之所以我們可以通過 數據分析獲得模式或者近似的描述,本質上則是因爲數據本身不是隨機的,其中已經包含着我們還未發現的規律,我們利用數據分析的目的,就是發現、找到這些規 律或者這些規律的近似描述。而這裏的數據分析,就是我們今天說的機器學習,讓計算機通過大量的數據分析,去自己學會解決該問題的算法,所以機器學習的算法 也可以稱作是“學習型算法”。
二、監督式學習
    接下來我們來分別看看機器學習四個具體的方面:監督式學習、算法理論、非監督式學習以及增強學習。首先我們來看看監督式學習。所謂監督式學習,也許定義有許多說法,不過我們只要把握一點就可以了:監督式學習需要一組“監督數據”來作爲訓練學習。這裏的“監督數據”指的是一組明確標準輸入對應的標準輸出的數據,也就是“正確”結果明瞭的數據,我們所做的是運行算法,使得算法根據這些標準數據學習其中的映射關係,因此是“監督”的。
    常見的監督式學習有迴歸和分類。所謂迴歸常見的例子就 想不同月份房價的數據,一年12個月的房價(平米均價)各不相同,如果我們以時間爲x軸,房屋均價爲y軸,那麼可以繪出一年中的房價/月份漲跌圖。如果我 們想知道來年一月份的房價,我們只需要找到一條最符合已知數據的曲線就可以了,然後以此預測未來的房屋均價。
    至於分類,最常用的例子是關於腫瘤良性/惡性與大小的關係數據,以腫瘤大小爲x軸,良性/惡性爲y軸,自根據已有的腫瘤大小和性質的數據,來對新的病例腫瘤性質進行判斷。這裏的y軸不再像迴歸例 子中是連續變化的數值(比如房屋均價),而是離散的數值(1:良性;0:惡性)。我們同樣可以進行機器學習算法訓練,然後根據找到的規律來判斷新的病例。 將分類的思想推廣出去,現在我們只是考慮腫瘤大小一個因素,如果加上病者年齡,那麼將得到一個三維的函數圖;如果再考慮病人的性別,那麼維數將繼續增加。 如果我們面臨的問題需要考慮的因素很多,那麼我們就可能需要一個高維平面。但是這個高維平面式什麼樣子呢?這個時候空間中的規律又如何尋找呢?值得慶幸的 是,最近幾年人們找到了SVM來解決這種高位向量空間的分類問題。SVM現在應用越來越廣泛,這個在以後的章節會繼續介紹。
三、算法理論
    機器學習依賴於多種多樣的算法,這些算法大多基於數學和統計學,因此理解這些算法有時候需要掌握一定的數學基礎。統計學上比如隨機變量的期望、方差、相關 係數等;而數學上則需要比較多的代數知識,比如矩陣的計算、轉置、求逆以及特徵向量等。一般來說,如果只是使用機器學習現有的算法,那麼不需要對於其中的 數學原理透徹理解,只需要理解各個算法和使用的條件就可以了。我們學習機器學習的目的分爲三個層次:
-1. 瞭解機器學習領域,知道重要的算法;
-2. 可以根據自己的實際問題,靈活地應用機器學習算法來解決問題;
-3. 理解算法,提出已有算法的改進;
    這裏自己的目標也就是到第二個層次了,能夠使用機器學習算法解決面臨的數據分析問題就可以了。機器學習是一門很有用的數據分析工具。
四、非監督式學習
    同監督式學習對應的就是非監督式學習,非監督式學習的特點就是開始的時候沒有一組知道結果的標準數據,完完全全是從一堆毫無頭緒的數據中去發現規律。常見 的非監督式學習的例子就是聚類。一個經典的例子就是“雞尾酒會”問題,這個是說在一個人聲嘈雜的雞尾酒會上,你如何從聲音的疊加中提取出你想聽的某個人的 聲音。這裏就需要對聲頻數據進行大量的聚類分析,應用領域可以在聲音識別、圖像像素分析、計算機視覺、社交網絡/市場劃分等。
五、增強學習
    前面所說的數據分析的輸入都是一次性的大量數據,然後對一個新的輸入做出預測/判斷。但是有些問題需要對一個輸入的序列進行分析,也就是說這個時候我們關 注的不是一個輸入的結果,而是一個輸入序列的“策略”。比如無人駕駛飛機的導航程序,一個“上升”或“下降”的指令並不會導致飛機事故,相反只有一系列連 續的升降指令纔會導致飛機失事。這裏的應用領域往往是關注“策略”的領域,如遊戲(RTS等)、無人機、機器人導航等。
六、小結
    可以說,機器學習的領域主要是上面所說的三個方面:監督式學習、非監督式學習以及增強學習,但是具體的應用領域則涉及醫學、生物學、電子工程、人工智能等多個領域。機器學習作爲一個強大的工具在不同的領域對數據分析發揮着不可替代的作用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章