原创 五、python 缺失值處理(Imputation)

一、缺失值的處理方法       由於各種各樣的原因,真實世界中的許多數據集都包含缺失數據,這些數據經常被編碼成空格、nans或者是其他的佔位符。但是這樣的數據集並不能被scikit - learn算法兼容,因爲大多數的學習算法都會默認數

原创 四、數據標準化 Scikit-learn Preprocessing

一、標準化、去均值、方差縮放(variance scaling) 1.原理介紹    通過將屬性值按比例縮放,使之落入一個小的特定區間,如0.0~1.0,對屬性規範化。有很多數據規範化的方法,這裏我們將介紹三種:最小--最大規範化,z-s

原创 三、迴歸——logistic迴歸二分類的python實現

一、訓練算法:使用梯度上升找到最佳參數 1.使用Logistic迴歸梯度上升優化算法        每次更新迴歸係數都要遍歷整個數據集,該算法在處理100左右各樣本時還可以,但是如果有數十億樣本或者成千上萬的特徵,那麼該算法就太過於複雜了

原创 一、聚類——機器學習:Mean Shift聚類算法

本文由ChardLau原創,轉載請添加原文鏈接https://www.chardlau.com/mean-shift/ 今天的文章介紹如何利用Mean Shift算法的基本形式對數據進行聚類操作。而有關Mean Shift算法加入核函數計

原创 七、基於機器學習方法對銷售預測的研究

基於機器學習方法對銷售預測的研究 在開始今天的分享之前,我首先跟大家簡單的聊一下,剛剛過去的雙十一,大家可能更關心的是雙十一的折扣,什麼商品打了什麼折扣。但是對於天貓而言,他們可能更關心的是雙十一當天的銷售額是多少,因爲知道銷售額,他就能

原创 十、模型自變量選擇方法

在本系列的最後一篇文章中,我們討論了多元線性迴歸模型。費爾南多創建了一個模型,根據五個輸入參數估算汽車價格。 費爾南多的確獲得了一個比較好的模型,然而,費爾南多想要獲得最好的輸入變量集 本文將詳細介紹模型選擇方法 一、概念 模型選擇方法

原创 五、線性迴歸——嶺迴歸Ridge Regression

一、嶺迴歸引進的原因 當數據之間存在多重共線性(自變量高度相關)時,就需要使用嶺迴歸分析。在存在多重共線性時,儘管最小二乘法(OLS)測得的估計值不存在偏差,它們的方差也會很大,從而使得觀測值與真實值相差甚遠。嶺迴歸通過給迴歸估計值添加一

原创 十、假設檢驗

Edward Teller, the famous Hungarian-American physicist, once quoted: “A fact is a simple statement that everyone believ

原创 七、迴歸——迴歸預測的評價指標(附python代碼)

目錄 一、常用的評價指標 1、SSE(誤差平方和) 2、R-square(決定係數) 3、Adjusted R-Square (校正決定係數) 二、python中的sklearn. metrics (1) explained_varian

原创 一、完美的定價如何讓我在2天內獲得1500個銷量

        這是Sacha Greif的客座文章,   他是一位設計師和企業家,他最近出售了數千本自行出版的電子書,展示了  如何逐步設計用戶界面。他曾與多家創業公司合作,也是Folyo的創始人,這項服務可以幫助公司找到經過審查的自由

原创 二、算法太多挑花眼?教你如何選擇正確的機器學習算法

張樂 • 2018-07-05 09:09 • 人工智能 • 閱讀 1543 機器學習算法雖多,卻沒有什麼普適的解決方案。決策樹、隨機森林、樸素貝葉斯、深度網絡等等等等,是不是有時候覺得挑花了眼呢?   作者 Rajat Harlalk

原创 九、機器學習一些基本概念

一、數據科學項目的各個階段 1.定義業務問題       Albert Einstein once quoted “Everything should be made as simple as possible, but not sim

原创 八、使用sklearn做單機特徵工程

目錄 1 特徵工程是什麼? 2 數據預處理   2.1 無量綱化     2.1.1 標準化     2.1.2 區間縮放法     2.1.3 標準化與歸一化的區別   2.2 對定量特徵二值化   2.3 對定性特徵啞編碼   2.4

原创 九、迴歸——XGBoost算法

  一、Xgboost模型參數          Xgboost模型有3種類型的參數:通用參數、輔助參數和任務參數。通用參數確定上升過程中上升模型類型,常用樹或線性模型;輔助參數取決於所選的上升模型;任務參數定義學習任務和相應的學習目標。

原创 六、迴歸——套索迴歸 (Lasso Regression)的基本應用

一、使用場合 與嶺迴歸類似,套索 (Least Absolute Shrinkage and Selection Operator) 也會對迴歸係數的絕對值添加一個罰值。此外,它能降低偏差並提高線性迴歸模型的精度。看看下面的等式: 套索