原创 正確理解查準率與查全率

在周志華老師的西瓜書裏面,將這兩個詞分別翻譯爲查準率(precision)和查全率(recall),這樣可以顧名思義,瞭解到這兩個詞的意思,查準率就是對於所有機器判定爲正的裏面,有多大的比例是真的正樣本,寫成公式就是 P=TP/(TP

原创 機器學習項目主要步驟詳細清單(精)

對於機器學習項目來說,你開始獲得之後有一個總體思路很重要,也需要一些默認遵守的原則. 個人記錄翻譯 Hands-On Machine Learning with Scikit-Learn and TensorFlow 附錄B 指導你完

原创 pandas用法示例

示例:用特定於分組的值填充缺失值 對於缺失數據的清理工作,有時你會用dropna將其替換掉,而有時則可能會希望用一個固定值或由數據集本身所衍生出來的值去填充NA值。這時就得使用fillna這個工具了。在下面這個例子中,我用平均值去填充NA

原创 pandas數據加載、存儲與文件格式

作者:SeanCheney 鏈接:https://www.jianshu.com/p/047d8c1c7e14 根據簡書的加上一點自己理解, 與其中較爲常用有用的 讀寫文本格式的數據 In [13]: pd.read_csv('exa

原创 numpy

根據利用Python進行數據分析·第2版中的numpy部分選取一些覺得需要記住的點 簡書:https://www.jianshu.com/p/a380222a3292 ndarray的數據類型 dtype(數據類型)是一個特殊的對象,它

原创 如何對用戶進行聚類分析?

如何對用戶進行聚類分析? - 微調的回答 - 知乎 https://www.zhihu.com/question/19982667/answer/347473295

原创 CART決策樹要點

https://www.jianshu.com/p/fb97b21aeb1d 什麼是決策樹 答:決策樹的本質是從訓練數據中找到一組分類的規則,使得這個規則在儘量擬合訓練數據的同時又有比較好的泛化能力。 也可以說是基於訓練數據估計條件概率

原创 數據規整:聚合、合併和重塑

merge函數的參數 concat函數(用於連接) 對於pandas對象(如Series和DataFrame),帶有標籤的軸使你能夠進一步推廣數組的連接運算。具體點說,你還需要考慮以下這些東西: 如果對象在其它軸上的索引不同,我們應該合

原创 異常檢測相關

異常檢測框架 nupic

原创 什麼是啓發式算法(轉)

演化算法(Evolutionary Algorithm), 蟻羣算法(Ant Algorithms), 擬人擬物算法,量子算法等。 各個算法的思想這就不再詳細給出(以後會給出一些,關注我的blog) ,爲什麼要引出啓發式算法,因爲NP問

原创 SVM面試常見問題

爲什麼要把原問題轉換爲對偶問題? 因爲原問題是凸二次規劃問題,轉換爲對偶問題更加高效。 並且可以引入核函數 爲什麼求解對偶問題更加高效? 因爲只用求解alpha係數,而alpha係數只有支持向量才非0,其他全部爲0. alpha係數有多

原创 GBDT面試

GBDT採用的是boosting的思想,先從初始訓練集訓練出一個基學習器,再根據基學習器的表現對訓練樣本分佈進行調整,使得基學習器做錯的訓練樣本在後續受到更多的關注,然後基於調整後的樣本分佈來訓練下一個基學習器,最後將所有基學習器加權結合

原创 K近鄰 (k-nearest neighbor k-NN)(面試要點)

k近鄰法不具有顯式的學習過程,也就是說沒有模型 k近鄰三個要素: k值的選擇(一般使用交叉驗證) k值增大可以減少學習的估計誤差,但也會使學習近似誤差變大,使模型變得簡單。 距離度量(一般會使用歐式距離 or 更一般的LpLp 距離

原创 python常用方法

作者:SeanCheney 鏈接:https://www.jianshu.com/p/b444cda10aa0 從中一部分覺得比較有用的記錄下來, 也有一些自己的理解 默認值賦值方法: if key in some_dict:

原创 邏輯迴歸掌握要點(全)

基於自己理解與ng老師的課程總結出來的LR http://mooc.study.163.com/learn/2001281002?tid=2001392029#/learn/content?type=detail&id=20017020