台部落ml_hhy

在周志華老師的西瓜書裏面，將這兩個詞分別翻譯爲查準率（precision）和查全率（recall），這樣可以顧名思義，瞭解到這兩個詞的意思，查準率就是對於所有機器判定爲正的裏面，有多大的比例是真的正樣本，寫成公式就是 P=TP/（TP

2018-09-02 05:51:20

對於機器學習項目來說,你開始獲得之後有一個總體思路很重要,也需要一些默認遵守的原則. 個人記錄翻譯 Hands-On Machine Learning with Scikit-Learn and TensorFlow 附錄B 指導你完

2018-09-02 05:51:20

示例：用特定於分組的值填充缺失值對於缺失數據的清理工作，有時你會用dropna將其替換掉，而有時則可能會希望用一個固定值或由數據集本身所衍生出來的值去填充NA值。這時就得使用fillna這個工具了。在下面這個例子中，我用平均值去填充NA

2018-09-02 05:51:20

作者：SeanCheney 鏈接：https://www.jianshu.com/p/047d8c1c7e14 根據簡書的加上一點自己理解, 與其中較爲常用有用的讀寫文本格式的數據 In [13]: pd.read_csv('exa

2018-09-02 05:51:20

根據利用Python進行數據分析·第2版中的numpy部分選取一些覺得需要記住的點簡書：https://www.jianshu.com/p/a380222a3292 ndarray的數據類型 dtype（數據類型）是一個特殊的對象，它

2018-09-02 05:51:17

如何對用戶進行聚類分析？ - 微調的回答 - 知乎 https://www.zhihu.com/question/19982667/answer/347473295

2018-09-02 05:51:16

https://www.jianshu.com/p/fb97b21aeb1d 什麼是決策樹答：決策樹的本質是從訓練數據中找到一組分類的規則，使得這個規則在儘量擬合訓練數據的同時又有比較好的泛化能力。也可以說是基於訓練數據估計條件概率

2018-09-02 05:51:16

merge函數的參數 concat函數（用於連接）對於pandas對象（如Series和DataFrame），帶有標籤的軸使你能夠進一步推廣數組的連接運算。具體點說，你還需要考慮以下這些東西：如果對象在其它軸上的索引不同，我們應該合

2018-09-02 05:51:16

異常檢測框架 nupic

2018-09-02 05:51:16

演化算法（Evolutionary Algorithm）, 蟻羣算法（Ant Algorithms），擬人擬物算法，量子算法等。各個算法的思想這就不再詳細給出（以後會給出一些，關注我的blog），爲什麼要引出啓發式算法，因爲NP問

2018-09-02 05:51:16

爲什麼要把原問題轉換爲對偶問題？因爲原問題是凸二次規劃問題，轉換爲對偶問題更加高效。並且可以引入核函數爲什麼求解對偶問題更加高效？因爲只用求解alpha係數，而alpha係數只有支持向量才非0，其他全部爲0. alpha係數有多

2018-09-02 05:51:16

GBDT採用的是boosting的思想，先從初始訓練集訓練出一個基學習器，再根據基學習器的表現對訓練樣本分佈進行調整，使得基學習器做錯的訓練樣本在後續受到更多的關注，然後基於調整後的樣本分佈來訓練下一個基學習器，最後將所有基學習器加權結合

2018-09-02 05:51:16

k近鄰法不具有顯式的學習過程，也就是說沒有模型 k近鄰三個要素: k值的選擇(一般使用交叉驗證) k值增大可以減少學習的估計誤差，但也會使學習近似誤差變大，使模型變得簡單。距離度量（一般會使用歐式距離 or 更一般的LpLp 距離

2018-09-02 05:51:11

作者：SeanCheney 鏈接：https://www.jianshu.com/p/b444cda10aa0 從中一部分覺得比較有用的記錄下來, 也有一些自己的理解默認值賦值方法： if key in some_dict:

2018-09-02 05:51:11

基於自己理解與ng老師的課程總結出來的LR http://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=20017020

2018-09-02 05:50:28