機器學習算法

  • 本文首發自公衆號:RAIS

前言

本系列文章爲 《Deep Learning》 讀書筆記,可以參看原書一起閱讀,效果更佳。深度學習是機器學習的子集,因此想更深入的瞭解深度學習,需要對機器學習的一些基本原理。

學習算法

機器學習算法是一種能夠從數據中學習的算法,有人給出學習的定義 “對於某類任務 T 和性能度量 P,一個計算機程序被認爲可以從經驗 E 中學習是指,通過經驗 E 改進後,它在任務 T 上由性能度量 P 衡量的性能有所提升”(通過經驗以提高計算機程序在某些任務上性能的算法),我們分別聊一聊其中提到的 任務 T性能度量 P經驗 E,最後再給出一個例子進行說明。

任務 T

我們之前的文章中提到過幾種機器學習類別,比如二分類問題,多分類問題,迴歸問題等,接下來我們做一個總結。

  • 分類:計算機程序需要指定某些輸入屬於 K 類中的哪一類。對於此類問題,機器學習算法可能會返回一個函數:\(R^n -> \{1, 2, 3, ..., k\}\),或者是不同類別的概率分佈。
  • 輸入缺失分類:輸入的數據有可能“不好”,有一些屬性的缺失等,這樣算法學習出來的映射關係就可能不是單一的了,有可能是一組函數,其中分別對應着不同屬性的缺失(數學做法上可能不是單純的計算某些屬性缺失後進行訓練,而有可能是計算其聯合概率分佈)。
  • 迴歸問題:對給定輸入預測數值,例如以前個房屋價格預測問題。
  • 轉錄問題:機器學習系統觀測一些非結構化表示的數據,轉錄爲離散的文本形式。例如根據圖片內容返回文本內容或者是語音識別。
  • 機器翻譯:輸入一種語言,翻譯成另外一種語言,自然語言處理問題。
  • 結構化輸出:這是針對輸出而言的,輸出是向量或者是其他包含多個值的數據結構。例子有語法分析、圖像的像素級分割。
  • 異常檢測:標記不正常或非典型的個體,例如信用卡盜刷或者是異地登錄檢測等。
  • 合成和採樣:機器學習生成一些和訓練數據相似的新樣本,比如模仿某些作家作詩、音樂家譜曲等。
  • 缺失值填補:機器學習對樣本中的缺失值進行填補。
  • 去噪:機器學習算法通過損壞的樣本預測乾淨的樣本,或者是預測條件概率分佈。

性能度量 P

對於不同的問題我們的度量指標不同,最常用的 準確率錯誤率 針對分類、缺失輸入和轉錄任務等任務。一般情況下所需要解決的實際問題就是性能度量指標。一般情況下,我們會將數據分爲 訓練集測試集,我們會用普通的辦法根據概率或經驗預測,給出一個基準值,學習後的模型優於這個基準值纔算是有效的。

經驗 E

機器學習算法根據經驗不同,可以分爲 無監督學習算法監督學習算法。無監督學習算法是在含有許多特徵的數據集中學習出有用的特徵或結構性質,在無指導的情況下理解數據;監督學習算法數據集中的樣本包含標籤或目標,有目標導向。注意機器學習中監督和非監督形式的這兩種方法很多情況下是一起使用的。這兩種方法都是固定數據集的,需要指出 強化學習 算法會和環境交互,數據集不是固定的。數據集的表示方法是 矩陣,每一行是一條數據,每一列是一個數據項。

線性迴歸

這是一個例子,這是一個迴歸問題,因此是一個預測問題,線性代表數據具有線性關係,如常說的正比關係,特點是模型簡單,容易解釋,且速度快,在機器學習中有很大的用處。

  • 本文首發自公衆號:RAIS
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章