原创 Ensemble Learning(一):Bagging,Boosting

本文從監督學習的角度來展開,主要包含bagging,boosting,隨機森林(後面補)。 一、Bagging Bagging的方法主要針對那些很複雜容易overfitting的分類器。 這種方法又稱爲boostrap aggrega

原创 Word Embedding

單詞表示目前有兩種: one-hot模型:假設有N個詞,那麼就是一個N元向量。僅當前詞的位置爲1,其他位置都爲0. 舉個栗子:假設這個世界只有3個詞,bag,dog,pig.那麼bag=[1 0 0] dog=[0 1 0] pig=[0

原创 降維(一)PCA (李宏毅機器學習)

一直以來數據降維是非常重要的預處理步驟,通過數據降維,我們可以實現數據可視化、數據降噪、數據壓縮等目標。那麼如何定義降維呢?我們定義一個映射矩陣W,z=w*x,則表示原數據通過矩陣W變成Z。 PCA(principle compon

原创 淺談半監督學習

1.半監督的生成模型 面對的問題 如下所示,綠色的點表示沒有標籤的樣本。藍色和橘色分別表示有標籤的樣本,分別是C1,C2。我們之前根據標籤的數據,給每一類計算出了先驗概率P(C1)、P(C2)、均值和協方差。(假設服從高斯分佈)。但是

原创 降維(二)LLE+t-SNE+auto-encoder(李宏毅機器學習)

LLE:Locally Linear Embedding 首先引入一下這個想法: 在圖中可以看出,在原來的數據中,1與2是距離比較近的,因爲你要到達3需要經過2,而降維後我們會導致表示結果中(1和3)比(1和2)近,因此我們需要解決

原创 神經網絡反向傳播Backpropagation(李弘毅機器學習)

神經網絡反向傳播Backpropagation 一、深度學習三部曲: 定義一個函數model 評估這個函數model 選出最好的函數 二、定義神經網絡 本次學習使用的是全連接前饋神經網絡(Fully Connect Feedfor

原创 深度學習模型遇到的問題以及解決的tips(李弘毅機器學習-Tips for deep learning)

在深度學習過程中,我們會遇到很多問題,並不是所有的問題都是overfitting。 比如下面這個很經典的例子: 這個例子中,隨着迭代次數的增加,50-layers的網絡在訓練集上本身就比20-layers的網絡表現差。而在測試集上也

原创 CNN與爲什麼要做DNN(Deep neural network)(李弘毅 機器學習)

CNN整體過程 1.整體架構 卷積操作(convolution):可以進行卷積操作是因爲對於圖像而言,有些部分區域要比整個圖像更加重要。並且相同的部分會出現在不同的區域,我們使用卷積操作可以降低成本。比如,我們識別鳥,鳥嘴部分的信

原创 無參估計(上):KNN(K nearst neighbor)

無參估計:根據直方圖定義概率公式:,其中V:the volume surrounding X,N:the total number of examples k:the number of the example inside V. 我們將

原创 EM算法詳細推導

數學基礎 公式推導 習題 1.數學基礎 在推導EM算法之前,我們給出兩個要用到的數學知識。 1.1Jensen不等式 設f是定義域爲實數的函數,如果對於所有的實數x,,那麼f是凸函數。當x是向量時,如果其hessian矩陣H是半正定的()

原创 如何評審一篇英文論文

前言 截止到目前,我也算是審了三篇文章了。結果分別是接受、拒絕、修改。也算是集齊了所有類型。 廢話不多說,開始正文。每部分該寫什麼。 1.總結:說明這篇文章主要提出了什麼,實驗結果如何。 2.優點。總結一些文章有哪些優點:比如實驗充分,i

原创 【吳恩達】機器學習第18章大規模機器學習

對於大規模數據的機器學習,有兩種處理辦法:一是隨機梯度下降,二是減少映射(MapReduce)。 1.隨機梯度下降 1.1隨機梯度下降針對每個樣本,更新一次參數。基本步驟是先隨機打亂樣本數據,然後再從頭開始,一個樣本一個樣本訓練參數。 1

原创 【吳恩達】機器學習第16章異常檢測以及ex8部分編程練習

1.異常檢測 1.1思路簡述 首先是一些沒有標籤的數據進行p(x)建模,就是擬合數據得到一個符合數據規律的p(x),然後根據一個特定的閾值來判斷,是否異常。 1.2具體步驟(假設p(x)符合高斯) 在octave中,我們可以使用hist可

原创 【吳恩達】機器學習第17章推薦系統以及ex8推薦系統編程題

1.基於內容的推薦系統 以電影推薦爲例,先介紹以下參數: r(i,j)表示用戶j對於電影i是否進行了評分。1表示已經評分,0表示沒有評分。 表示用戶j對電影i的評分情況。總共1-5分。 表示對用戶j喜愛電影題材的描述情況.比如(0,5,

原创 【吳恩達】機器學習第19章學習收穫

1.機器學習中的流水線 以照片光學字符識別爲例(OCR):   整個過程分爲三個模塊,可以分別獨立的工作。在文本檢測和字符分割的過程中,都使用了滑動窗口。在文本檢測中通過滑動窗口確定了那些是字符,用矩形框確定了這些區域,用不同的灰度表