原创 機器學習A-Z~Thompson抽樣算法

本文繼續講一個強化學習的算法,叫做Thompson抽樣算法。這個算法的數學理論基礎要用到的是貝葉斯推斷(Bayesian Inference)。我們先談談這個算法的基本原理。 Thompson抽樣算法基本原理 我們依然使用之前的多臂老虎機的

原创 機器學習A-Z~置信區間上界算法 Upper Confidence Bound or UCB

本文將要開始介紹機器學習中的強化學習, 這裏首先應用一個多臂老虎機(The Multi-Armed Bandit Problem)問題來給大家解釋什麼是強化學習。 多臂老虎機問題 如圖所示,我們有幾個單臂老虎機,組成一起我們就稱作多臂老虎

原创 機器學習A-Z~先驗算法Apriori

本文將會講述關聯規則學習中的一個基本算法,叫做先驗算法。所謂先驗算法,就是找出不同事件之間的聯繫。比如一個人在超市買了產品A,他可能會買貨物B。這裏我們看一個例子。 這裏有七筆交易,那麼根據這些數據我們可以得出一些猜測,當有貨物A時可能有

原创 機器學習A-Z~K平均聚類算法

本文來講講K平均聚類算法(K-Means Clustering),K Means算法是所有聚類算法中最經典的一種,因爲它不斷在直覺上容易理解,而且它的計算效率也是非常的高。 原理 在講K-Means算法前我們先看看,這個算法能做什麼。下面有

原创 機器學習A-Z~分類模型性能評價及選擇

本篇文章將給大家介紹一些宏觀的核心概念和測度來評價分類算法和分類器的表現,尤其是如何評價分類器預測中會產生的一些錯誤。 僞陽性(False Positives)和僞陰性(False Positives) 首先講的是僞陽性和僞陰性,英文叫做F

原创 機器學習A-Z~決策樹與隨機森林

決策樹 有的人可能聽過一個詞:CART,這個代表的意思是Classification And Regression Tree。它是一個分類和迴歸的決策樹。它被分爲兩類,一類是分類決策樹(Classification Trees),另一個類是

原创 機器學習A-Z~樸素貝葉斯

本文要講述一個古老的機器學習算法,叫做樸素貝葉斯。這個算法比較簡單明瞭,沒有使用非常複雜的數學定理。用到的核心的數學理論就是概率中的一個定理,叫做貝葉斯定理(Bayes' Theorem)。 貝葉斯定理 現在我們看一個例子,假設有一個生產扳

原创 機器學習A-Z~支持向量機

本文將介紹機器學習中一個非常重要的算法,叫做SVM,中文翻譯支持向量機。首先看一組例子來解釋這個算法。 基本概念 有一組數據如圖所示,有紅色的點和藍色的點,代表了兩種分類的數據,現在我們要做的是如何將這兩種數據準確的分隔開來。看圖像其實很

原创 機器學習A-Z~Logistic Regression

之前的課程談論的都是線性迴歸問題,現在開始看看分類問題。首先講的是邏輯迴歸,英文叫做Logistic Regression。看一下下面的圖像,因變量不再如同線性迴歸那樣相對來說比較連續,這裏的數據點是離散的。 比如我們現在是一家媒體公司,有

原创 機器學習A-Z~評估迴歸模型的表現

本文開始講解關於如何評估迴歸模型的表現的幾個方式。 R平方 首先來講一下前面也有提到的R平方的概念。來看下面這個例子。下面紅色的是數據對應的點,黑色的直線是我們擬合出來的一條簡單線性線性迴歸。 怎麼擬合這條直線呢?實際上就是假設平面上有一

原创 機器學習A-Z~多項式迴歸

之前的文章中已經學習過多元線性迴歸,現在來講講多項式迴歸。首先說說多項式線性迴歸,表達式可以表示爲: $$ y = b_0 + b_1x_1 + b_2x_1^2 + ... + b_nx_1^n $$ 這個表達式和多元線性迴歸非常像,唯一

原创 機器學習A-Z~多元線性迴歸

之前的文章已經講述了簡單線性迴歸的概念和代碼實現,現在來繼續看看多元線性迴歸。所謂多元線性迴歸其實就是自變量的個數變多了,之前的簡單線性迴歸方程可以表示爲:$y=b_0 +bx$,那麼在多元中則是$y=b_0+b_1x_1+b_2x_2+.

原创 機器學習A-Z~簡單線性迴歸

所謂簡單線性迴歸,其實就是自變量只有一個條件情況下的線性迴歸問題,是線性迴歸問題中最簡單的一種了,這種問題在生活中也經常能簡單,本文就用一個簡單的例子來講解簡單線性迴歸。 以下有一組數據集,關於工作年限和薪水之間的聯繫(篇幅問題只給一部分)

原创 機器學習A-Z~數據預處理

數據預處理是機器學習中非常重要的步驟,爲了能正確的分析數據,得到最佳的機器學習算法,拿到數據後我們一般來說都需要對數據進行預處理。數據預處理包括以下幾個步驟: 導入數據集 處理缺失數據 分類數據 數據分成訓練集和測試集 特徵縮放 導入數

原创 吳恩達機器學習筆記-非監督學習

聚類 之前的課程中我們學習的都是監督學習相關的算法,現在來開始看非監督學習。非監督學習相對於監督非學習來看,其使用的是未標記的訓練集而監督學習的是標記的訓練集。換句話說,我們不知道向量y的預期結果,僅僅只是擁有一個可以找到結構的特徵的集合。