原创 學習筆記—診斷機器學習模型

應用機器學習過程中的建議 本文源自在Coursera平臺學習machine learning 過程中的一些記錄 在評價一個機器學習模型時,當你發現你的模型在測試集上的預測性能非常差時,通常有一下解決辦法: - 增加訓練集樣本量;

原创 學習筆記-機器學習系統設計

注:該博文爲Coursera平臺的machine learning 課程學習筆記。 如何構建一個垃圾郵件分類器 要構建一個機器學習模型,首先要確定模型的輸入變量即特徵變量。 郵件都是由一個個單詞組成,而垃圾郵件裏往往都包含一些共

原创 P value校正思想與實現

1. 爲什麼要對P-value進行校正 兩兩對比做多了,不做校正的話,會獲得很多假陽性結論。具體點這裏 2. 有哪些校正方法 常用的P-value校正方法包括:Bonferroni correction, Benjamini &

原创 Python 作圖實現座標軸截斷(打斷)

主題:利用python畫圖實現座標軸截斷或打斷 關鍵詞:python, plot, matplotlib, break axes 方法一: 首先介紹一種簡單快速的方法——調用包 brokenaxes。 詳細請點擊參考。 impor

原创 幾種線性迴歸方法的簡介

在給定一列數據(x1,y1),...,(xn,yn)(x_1, y_1), ...,(x_n, y_n)(x1​,y1​),...,(xn​,yn​)時,如果認爲它滿足線性模型: y=a+bx+ϵy=a + bx + \epsilon

原创 決策樹與隨機森林

決策樹是一種常用於解決分類問題的簡單機器學習算法。 決策樹是由一系列節點組成的,每一個節點代表一個特徵和相應的決策規則。決策過程很簡單,一個簡單的例子如下圖所示: 1. 如何構建決策樹? 決策樹的構建過程就是選取特徵和確定決策規則的

原创 簡單理解t檢驗與秩和檢驗

t-檢驗 選用t-檢驗的基本前提假設是,兩組樣本都服從正態分佈,且方差相同。設有兩類(x, y)分別有mmm個和nnn個樣本,它們的總體樣本方差是: sp2=(n−1)Sx2+(m−1)Sy2m+n−2s_p^2=\frac{(n-1

原创 線性判別分析LDA

線性判別分析LDA 前言:我在我的第一家公司分析宏基因組數據時,碰到過LDA,不過當時沒有去搞明白,今天有機會再來學習它。在這裏,我們將瞭解到線性判別分析是屬於一種線性分類器。 線性分類器是最簡單的分類器。線性判別函數的一般表達式爲g

原创 概率密度函數的估計

之前的博客中已經提到,貝葉斯決策的基礎是概率密度函數的估計,即根據一定的訓練樣本來估計統計決策中用到的先驗概率P(wi)P(w_i)P(wi​)和類條件概率密度p(x∣wi)p(x|w_i)p(x∣wi​)。 概率密度函數的估計分爲參

原创 淺嘗馬爾科夫模型

馬爾科夫模型(Markov Model)又是一個我之前經常聽到但從未弄明白的模型。下面我們試着來增進對它的理解。 本文將討論在離散情況下使用馬爾科夫模型的統計決策方法。 貝葉斯決策的基本思想是根據一定的概率模型得到樣本屬於某類的後驗概

原创 2.1 閒聊貝葉斯公式

貝葉斯公式我過去一直都挺眼熟,P(A∣B)∗P(B)=P(B∣A)∗P(A)P(A|B)*P(B) = P(B|A)*P(A)P(A∣B)∗P(B)=P(B∣A)∗P(A),這麼簡單的公式到底要怎樣利用,我可是一直沒弄明白過,以至於每

原创 學習ROC

首先,我們來了解一下常用的決策分類: 在評價一種檢測方法的效果是,人們常用到兩個概念:靈敏度SnSnSn和特異度SpSpSp。 Sn=TPTP+FN,Sp=TNTN+FPSn=\frac{TP}{TP+FN}, Sp=\frac

原创 Sequence Models-第三週

第三週學得有點懵懵懂懂,教學視頻已經看完了,吳恩達老師最後的總結髮言還是挺感人的(DL superman)。 1. Sequence to sequence model 從Encoder到decoder 看圖說話 2.選擇最

原创 Sequence Models-第一週

前沿 距離上次在Coursera平臺上課已經有幾個月了,當時本以爲自己會用不到RNN的東西,所以就沒有繼續學下去。然而最近參加了一些面試,發現掌握RNN還是非常有必要的,序列模型在生活中的應用還是挺廣的,在金融量化投資領域尤其重要,所以趁

原创 學習筆記—神經網絡與正則化

神經網絡與正則化 正則化項能夠控制模型的過擬合問題,深層神經網絡模型如果不添加正則化項,很容易陷入過擬合。 1 L2 Regularization 1.1 正則化懲罰到底做了什麼? 最常見的用於控制過擬合的方法爲L2正則化,它所做的只是對