原创 數據進行歸一化原因

爲什麼要進行歸一化處理,下面從尋找最優解這個角度給出自己的看法。 例子 假定爲預測房價的例子,自變量爲面積,房間數兩個,因變量爲房價。 那麼可以得到的公式爲: [公式] 其中[公式]代表房間數,[公式]代表[公式]變量前面的係數。

原创 Python+pandas計算數據關聯繫數

本文主要演示pandas中DataFrame對象corr()方法的用法,該方法用來計算DataFrame對象中所有列之間的相關係數(包括pearson相關係數和spearman相關係數)。 perason描述的是兩個變量之間的線性

原创 數據分析業務問題

一、如何估算今年新生兒出生數量 首先,這類估算問題會經常出現在數據分析、產品、諮詢類崗位,統稱爲費米問題。分析這類問題可以 分別從兩個角度展開。 根據情況,可以採用 Top down bottom up 法則 ,即 先從宏觀層面,

原创 決策樹的Cart算法及案例

數據挖掘中使用的決策樹有兩種類型: 1.分類樹指預測結果是數據所屬的類別 2.迴歸樹值預測結果可是是實數(例如:房子的價格,患者在醫院逗留的時間等) Cart是二分類算法,將每個特徵二分(這裏包括離散值和連續值),並經過最優二分特

原创 【機器學習】Random Forest、Adaboost、GBDT (非常詳細)

本文主要介紹基於集成學習的決策樹,其主要通過不同學習框架生產基學習器,並綜合所有基學習器的預測結果來改善單個基學習器的識別率和泛化性。 集成學習 常見的集成學習框架有三種:Bagging,Boosting 和 Stacking

原创 熵和信息增益

熵:通常指隨機變量取值的不確定性 例如:在花壇邊坐着一個人,我讓你去猜他的性別?由於你不確定他是男還是女,只能隨機猜測一個,此時的熵就等於1,對其取值的不確定性等於1,如圖所示:當X軸取0.5時,不確定性最大爲1. 熵計算公式:

原创 特徵工程之距離相關係數( Distance correlation coefficient )

距離相關係數: 線性關係可以通過pearson相關係數來描述,單調關係可以通過spearman或者kendall來描述,非線性如何描述,距離相關係數可以非線性相關性。 我們都知道,皮爾森關聯繫數只能描述數據鍵的線性相關性程度,對於

原创 嶺迴歸算法

嶺迴歸算法簡介 迴歸算法的本質上就是爲了解決一個線性方程: Ax = b 標準估計方法是普通的最小二法的線性迴歸,然而如果x是一個病態的矩陣,在這種情況下使用普通最小二法估計會導致過擬合或者欠擬合的情況。此外,嶺迴歸還可以處理矩陣