原创 哲哲的ML筆記(三十一:異常檢測)

異常檢測問題介紹 假想你是一個飛機引擎製造商,當你生產的飛機引擎從生產線上流出時,你需要進行QA(質量控制測試),而作爲這個測試的一部分,你測量了飛機引擎的一些特徵變量,比如引擎運轉時產生的熱量,或者引擎的振動等等 這樣一來,你就有了一

原创 哲哲的ML筆記(二十九:降維)

什麼是降維 降維是一種無監督學習問題,通過數據壓縮,能加快我們的學習算法。 如果我們收集的數據集,有許多特徵時,會需要降維 2維降1維 假設我們未知兩個的特徵::長度:用釐米表示;:是用英寸表示同一物體的長度。 降維後新的座標軸爲 3維

原创 哲哲的ML筆記(三十:主成分分析PCA)

PCA基本概念 PCA:Principal Component Analysis,主成分分析 非常普遍的降維算法 要做的是找到一個方向向量,當我們把所有的數據都投射到該向量上時,我們希望投射平均均方誤差能儘可能地小。方向向量是一個經過原點

原创 哲哲的ML筆記(二十七:無監督學習簡要介紹)

無監督學習 vs 有監督學習 監督學習中,我們有一個有標籤的訓練集,我們的目標是找到能夠區分正樣本和負樣本的決策邊界 在非監督學習中,我們的數據沒有附帶任何標籤,我們拿到的數據就是這樣 在這裏我們有一系列點,卻沒有標籤。 在非監督學習中,

原创 哲哲的ML筆記(二十八:聚類——K-均值算法)

K-均值算法 K-均值是最普及的聚類算法,算法接受一個未標記的數據集,然後將數據聚類成不同的組 迭代思想 假設我們想要將數據聚類成個組,其方法爲: 首先選擇個隨機的點,稱爲聚類中心(cluster centroids); 對於數據集中

原创 雲計算與其3種服務模式

參考:http://c.biancheng.net/view/3787.html 理解之前 我們打開計算機中已有的一份文檔,編輯,保存,退出。 這份文檔存在於硬盤中,當我們打開後,讀入內存;我們敲擊鍵盤,內存會按照一定的計算方式輸出相應的文

原创 哲哲的ML筆記(二十六:SVM之核函數)

什麼是核函數 分類問題中,可以使用高級數的多項式模型來解決無法用直線進行分隔的分類問題 假設上圖的假設函數是 除了對原有的特徵進行組合以外,有沒有更好的方法來構造?我們可以利用核函數來計算出新的特徵 可以用一系列的新的特徵來替換模型中的

原创 哲哲的ML筆記(二十五:SVM背後的數學知識)

內積 如果有兩個向量,如下圖, 計算,乘出來是一個數。藉助座標系,的含義是在向量上的投影再乘的長度 注意:有正負,沿正方向投影則爲正;沿負方向投影則爲負 SVM 回顧SVM的代價函數,如下公式。 當前一項爲0時,即和時,代價函數就化簡成

原创 哲哲的ML筆記(二十四:支持向量機SVM)

從邏輯迴歸到SVM 與邏輯迴歸和神經網絡相比,支持向量機,或者簡稱SVM,在學習複雜的非線性方程時提供了一種更爲清晰,更加強大的方式 從邏輯迴歸開始展示我們如何一點一點修改來得到本質上的支持向量機 先回顧一下邏輯迴歸的假設函數和損失函數,用

原创 哲哲的ML筆記(二十三:查準率(Precision)和查全率(Recall))

基本概念介紹 根據查準率和查全率的定義,有以下4組概念: 正確肯定(True Positive,TP):預測爲正,實際爲正 正確否定(True Negative,TN):預測爲負,實際爲假負 錯誤肯定(False Positive,FP):

原创 哲哲的ML筆記(二十二:ML系統的設計-垃圾郵件分類)

任務 實現垃圾郵件分類(spam or not spam) 參數確定 y=0:不是垃圾郵件,y=1是垃圾郵件 郵件的特徵,可以選擇一個由100個最常出現在垃圾郵件中的詞所構成的列表,[buy, deal, discount,……],

原创 哲哲的ML筆記(二十一:學習曲線)

學習曲線的含義 學習曲線就是一種很好的工具,我經常使用學習曲線來判斷某一個學習算法是否處於偏差、方差問題。學習曲線是學習算法的一個很好的合理檢驗(sanity check)。學習曲線是將訓練集誤差和交叉驗證集誤差作爲訓練集樣本數量的函數繪製

原创 哲哲的ML筆記(十九到二十一小結)

高方差和高偏差的解決方案 我們已經介紹了怎樣評價一個學習算法,我們討論了模型選擇問題,偏差和方差的問題。 什麼情況下應該怎樣選擇: 獲得更多的訓練樣本——解決高方差 嘗試減少特徵的數量——解決高方差 嘗試增加正則化程度λ——解決高方差 嘗試

原创 哲哲的ML筆記(二十:偏差bias和方差variance)

不考慮正則的一般情況 運行一個學習算法時,如果這個算法的表現不理想,那麼多半是出現兩種情況:要麼是偏差比較大,要麼是方差比較大。換句話說,出現的情況要麼是欠擬合,要麼是過擬合問題 高偏差和高方差對應欠擬合和過擬合的問題,如下圖所示: 我

原创 哲哲的ML筆記(十九:如何評估假設函數)

1個場景 假如你在用線性迴歸訓練一個預測房價的模型,使用如下的代價函數 但是發現在新數據集上進行TEST環節有了很大的誤差,怎麼辦? 根據之前的學習,可以想到的方法有: 訓練更多的樣本 嘗試更少的特徵,目前使用, 從中挑選一小部分 其它