台部落轻轻一point

爲什麼要進行歸一化處理，下面從尋找最優解這個角度給出自己的看法。例子假定爲預測房價的例子，自變量爲面積，房間數兩個，因變量爲房價。那麼可以得到的公式爲： [公式] 其中[公式]代表房間數，[公式]代表[公式]變量前面的係數。

2020-07-08 11:01:06

本文主要演示pandas中DataFrame對象corr()方法的用法，該方法用來計算DataFrame對象中所有列之間的相關係數（包括pearson相關係數和spearman相關係數）。 perason描述的是兩個變量之間的線性

2020-07-08 11:01:06

一、如何估算今年新生兒出生數量首先，這類估算問題會經常出現在數據分析、產品、諮詢類崗位，統稱爲費米問題。分析這類問題可以分別從兩個角度展開。根據情況，可以採用 Top down bottom up 法則，即先從宏觀層面，

2020-02-24 05:33:29

數據挖掘中使用的決策樹有兩種類型： 1.分類樹指預測結果是數據所屬的類別 2.迴歸樹值預測結果可是是實數（例如：房子的價格，患者在醫院逗留的時間等） Cart是二分類算法，將每個特徵二分（這裏包括離散值和連續值），並經過最優二分特

2020-02-22 11:56:58

本文主要介紹基於集成學習的決策樹，其主要通過不同學習框架生產基學習器，並綜合所有基學習器的預測結果來改善單個基學習器的識別率和泛化性。集成學習常見的集成學習框架有三種：Bagging，Boosting 和 Stacking

2020-02-22 11:56:58

熵：通常指隨機變量取值的不確定性例如：在花壇邊坐着一個人，我讓你去猜他的性別？由於你不確定他是男還是女，只能隨機猜測一個，此時的熵就等於1，對其取值的不確定性等於1，如圖所示：當X軸取0.5時，不確定性最大爲1. 熵計算公式：

2020-02-22 11:56:58

距離相關係數：線性關係可以通過pearson相關係數來描述，單調關係可以通過spearman或者kendall來描述，非線性如何描述，距離相關係數可以非線性相關性。我們都知道，皮爾森關聯繫數只能描述數據鍵的線性相關性程度，對於

2020-02-22 11:56:58

嶺迴歸算法簡介迴歸算法的本質上就是爲了解決一個線性方程： Ax = b 標準估計方法是普通的最小二法的線性迴歸，然而如果x是一個病態的矩陣，在這種情況下使用普通最小二法估計會導致過擬合或者欠擬合的情況。此外，嶺迴歸還可以處理矩陣

2020-02-22 11:56:48