原创 哲哲的ML筆記(二十八:聚類——K-均值算法)

K-均值算法 K-均值是最普及的聚類算法,算法接受一個未標記的數據集,然後將數據聚類成不同的組 迭代思想 假設我們想要將數據聚類成個組,其方法爲: 首先選擇個隨機的點,稱爲聚類中心(cluster centroids); 對於數據集中

原创 雲計算與其3種服務模式

參考:http://c.biancheng.net/view/3787.html 理解之前 我們打開計算機中已有的一份文檔,編輯,保存,退出。 這份文檔存在於硬盤中,當我們打開後,讀入內存;我們敲擊鍵盤,內存會按照一定的計算方式輸出相應的文

原创 哲哲的ML筆記(二十六:SVM之核函數)

什麼是核函數 分類問題中,可以使用高級數的多項式模型來解決無法用直線進行分隔的分類問題 假設上圖的假設函數是 除了對原有的特徵進行組合以外,有沒有更好的方法來構造?我們可以利用核函數來計算出新的特徵 可以用一系列的新的特徵來替換模型中的

原创 哲哲的ML筆記(二十五:SVM背後的數學知識)

內積 如果有兩個向量,如下圖, 計算,乘出來是一個數。藉助座標系,的含義是在向量上的投影再乘的長度 注意:有正負,沿正方向投影則爲正;沿負方向投影則爲負 SVM 回顧SVM的代價函數,如下公式。 當前一項爲0時,即和時,代價函數就化簡成

原创 哲哲的ML筆記(二十四:支持向量機SVM)

從邏輯迴歸到SVM 與邏輯迴歸和神經網絡相比,支持向量機,或者簡稱SVM,在學習複雜的非線性方程時提供了一種更爲清晰,更加強大的方式 從邏輯迴歸開始展示我們如何一點一點修改來得到本質上的支持向量機 先回顧一下邏輯迴歸的假設函數和損失函數,用

原创 哲哲的ML筆記(二十三:查準率(Precision)和查全率(Recall))

基本概念介紹 根據查準率和查全率的定義,有以下4組概念: 正確肯定(True Positive,TP):預測爲正,實際爲正 正確否定(True Negative,TN):預測爲負,實際爲假負 錯誤肯定(False Positive,FP):

原创 哲哲的ML筆記(二十二:ML系統的設計-垃圾郵件分類)

任務 實現垃圾郵件分類(spam or not spam) 參數確定 y=0:不是垃圾郵件,y=1是垃圾郵件 郵件的特徵,可以選擇一個由100個最常出現在垃圾郵件中的詞所構成的列表,[buy, deal, discount,……],

原创 哲哲的ML筆記(二十一:學習曲線)

學習曲線的含義 學習曲線就是一種很好的工具,我經常使用學習曲線來判斷某一個學習算法是否處於偏差、方差問題。學習曲線是學習算法的一個很好的合理檢驗(sanity check)。學習曲線是將訓練集誤差和交叉驗證集誤差作爲訓練集樣本數量的函數繪製

原创 哲哲的ML筆記(十九到二十一小結)

高方差和高偏差的解決方案 我們已經介紹了怎樣評價一個學習算法,我們討論了模型選擇問題,偏差和方差的問題。 什麼情況下應該怎樣選擇: 獲得更多的訓練樣本——解決高方差 嘗試減少特徵的數量——解決高方差 嘗試增加正則化程度λ——解決高方差 嘗試

原创 哲哲的ML筆記(二十:偏差bias和方差variance)

不考慮正則的一般情況 運行一個學習算法時,如果這個算法的表現不理想,那麼多半是出現兩種情況:要麼是偏差比較大,要麼是方差比較大。換句話說,出現的情況要麼是欠擬合,要麼是過擬合問題 高偏差和高方差對應欠擬合和過擬合的問題,如下圖所示: 我

原创 哲哲的ML筆記(十九:如何評估假設函數)

1個場景 假如你在用線性迴歸訓練一個預測房價的模型,使用如下的代價函數 但是發現在新數據集上進行TEST環節有了很大的誤差,怎麼辦? 根據之前的學習,可以想到的方法有: 訓練更多的樣本 嘗試更少的特徵,目前使用, 從中挑選一小部分 其它

原创 哲哲的ML筆記(十八:反向傳播)

正向傳播 在之前介紹的通過神經網絡預測結果,我們使用的其實是一種正向傳播方法,從第一層開始正向一層一層進行計算,直到最後一層的 現在,爲了計算代價函數的偏導數,我們需要採用一種反向傳播算法,也就是首先計算最後一層的誤差,然後再一層一層反

原创 哲哲的ML筆記(十七:神經網絡中的代價函數)

參數說明 神經網絡的訓練樣本數目: 輸入:一組, 展開爲 輸出: 神經網絡的層數: 第層的激活單元數量:,下圖中 將神經網絡的分類定義爲兩種情況:二類分類和多類分類,對應輸出 二分類時, 多分類()時,表示分到第類 代價函數 邏輯迴歸中的

原创 哲哲的ML筆記(十三到十六總結:形象理解神經網絡)

舉個例子 假如我們有5000張手寫數字圖片,每一張圖片有400個pixel,將整個數據集丟給一個4層結構的神經網絡。 第2、3層爲隱藏層,權重矩陣有和 設的維度爲 設的維度爲 我畫了個圖: 圖中的圓形和方塊均爲激活單元,只是,方塊表示與相

原创 哲哲的ML筆記(十六:樣本和直觀理解)

神經網絡與二元邏輯運算符 神經網絡中,單層神經元(無中間層)的計算可用來表示邏輯運算,比如邏輯與(AND)、邏輯或(OR) 我們可以用這樣的一個神經網絡表示AND 函數 其中 我們的輸出函數即爲: 綜上, 對於函數,與AND整體一樣,區