原创 評分卡項目總結

評分卡項目總結一、分析目的二、數據處理2.1、列名格式規範性處理2.2、重複數據處理2.3、缺失值處理2.3.1、查看缺失值分佈情況2.3.2、缺失值處理邏輯2.3.2、單一值替換缺失值2.4、異常值處理2.4、自定義函數,彙總數

原创 學習筆記之梯度下降算法

梯度下降(Gradient Descent, GD)是目前機器學習、深度學習解決最優化問題的算法中,最核心、應用最廣的方法。它不是一個機器學習算法,而是一種基於搜索的最優化方法。其作用是用來對原始模型的損失函數進行優化,以便尋找到

原创 基於聚類的個性化推薦電商案例分析總結

在寫文章之前,首先感謝兩位老師:菊安醬老師和羅老師。在他倆的指導下,項目才能完美收官。 數據是經過脫敏的,請不要糾結數據的真實性: 完整代碼鏈接. 基於聚類的個性化推薦電商案例分析總結一、目的二、分析思路三、基於用戶的數據進行聚類

原创 學習筆記之PCA

一、主成分分析 1、定義 PCA(Principal Component Analysis),即主成分分析方法,是一種使用最廣泛的數據降維算法。 主成分分析在減少需要分析的指標同時,儘量減少原指標包含信息的損失,以達到對所收集數據

原创 學習筆記之邏輯迴歸

引言: 今天我們學習邏輯迴歸。我們都知道線性迴歸模型是y=wTX+by=w^TX+by=wTX+b,我們對他進行變形,得到lny=wTX+blny=w^TX+blny=wTX+b,這就是“對數線性迴歸”(logit linear

原创 sklearn.metrics.roc_curve使用簡要說明

sklearn.metrics.roc_curve使用簡要說明一、背景說明二、TP、TN、FP、FN概念四、roc_curve運行機制簡單剖析4.1、roc_curve簡單介紹4.1.1 重要參數4.1.2 返回的結果4.2、第一

原创 學習筆記之支持向量機

一、數學原理 支撐向量機,SVM(Support Vector Machine),其實就是一個線性分類器。 1、定義及思想 2、決策邊界 3、數學推導 第一步:給出表達式。 第二步:求導。 第三步:轉換對偶問題。 第四步:求a。

原创 學習筆記之決策樹

決策樹是一種常見的機器學習算法,它的思想十分樸素,類似於我們平時利用選擇做決策的過程。它是類似流程圖的結構,其中每個內部節點表示一個測試功能,即類似做出決策的過程(動作),每個葉節點都表示一個類標籤,即在計算所有特徵之後做出的決定

原创 學習筆記之模型正則化

我們前面提到過,降低方差的方法有模型正則化,此方法也是最重要提供模型泛化能力方法。我們今天瞭解L1和L2兩種正則化方法。用到正則化的算法有Lasso迴歸、嶺迴歸、支持向量機等。 一、模型正則化概念 模型正則化(Regulariza

原创 學習筆記之多項式迴歸和Pipeline及偏差和方差

今天我們簡單談下,多項式迴歸和Pipeline的應用。 之前我們瞭解了線性迴歸,線性迴歸的假設條件是:數據存在線性關係。並不是所有的數據具有線性關係。我們想要使用迴歸,可以對特徵進行升維處理,轉化成多項式迴歸。 一、多項式迴歸 研

原创 線性迴歸評價指標

本文參考餅乾Japson《模型之母:線性迴歸的評價指標》編寫 今天,我們學習線性迴歸算法的評價指標——MSE、RMSE、MAE、R Square。 一、瞭解線性迴歸算法的衡量標準 引用餅乾Japson的話。已知訓練數據樣本x、y,

原创 機器學習算法總結

機器學習算法總結一、k-NN1、基本原理2、實現過程2.1 算距離2.2 找鄰居2.3 做分類3、注意事項4、模型特點二、決策樹1、基本原理2、實現過程2.1 特徵選擇2.2 生成樹結構2.3 剪枝三、樸素貝葉斯1、基本原理四、線