原创 格蘭傑因果檢驗_R實現

前言 先做單位根檢驗,看變量序列是否平穩序列,若平穩,可構造迴歸模型等經典計量經濟學模型;若非平穩,進行差分 當進行到第i次差分時序列平穩,則服從i階單整(注意趨勢、截距不同情況選擇,根據P值和原假設判定)。 若所有檢驗序列均服

原创 方差分析原理及python演練

前言 檢驗多個總體均值是否相等,通過分析察數據的誤差判斷各總體均值是否相等 相關概念: 因素或因子(factor):所要檢驗的對象,要分析行業對投訴次數是否有影響,行業是要檢驗的因素或因子 水平或處理(treatment):因素

原创 tensorflow2.0入門操作

開篇 作爲用tensorflow1.4一值沒更新的人來講,本來決定換pytorch,但是看了下tensorflow2的一些簡單操作後,決定再次投入到tensorflow的懷抱。 基礎操作 首先看一些基礎操作 import tens

原创 從XGboost到lightGBM

XGboost XGBoost是GBDT的一種高效實現,但是裏面也加入了很多獨有的思路和方法 我們先回顧一下CART迴歸樹 CART迴歸樹 CART迴歸樹是假設樹的結構爲二叉樹,通過不斷將特徵進行分裂去完成整個樹的構建。比如當前樹

原创 python生存分析入門

引入 什麼是生存分析 生存分析是對生存資料的分析。所謂生存資料是指描述壽命或者一個發生時間的數據。通過對某一具有相同特質的羣體進行數據分析,我們可以得到這類人活過一定時間的概率。這就叫做生存分析。一個人的生存時間長短與許多因素有關

原创 pytorch迴歸模型

數據簡介 數據是常見的氣溫預測數據 先導入數據 features = pd.read_csv('temps.csv') features.head() year,moth,day,week分別表示的具體的時間 temp_2

原创 adaboost與GBDT

adaboost AdaBoost是最著名的Boosting族算法,是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器,即弱分類器,然後把這些弱分類器集合起來,構造一個更強的最終分類器。算法本身是改變數據分佈實現的,它根

原创 羅輯迴歸原理及源碼實戰

Logistic regression介紹 Logistic regression模型是廣義線性模型的一種,屬於線性的分類模型。對於一個線性函數Wx+b=0Wx+b=0Wx+b=0通過對訓練樣本的學習,最終得到一個超平面,將不同的

原创 matplotlib入門-直方圖、餅圖、散點圖

直方圖 首先需要區分清楚概念:直方圖和條形圖。 條形圖:條形圖用長條形表示每一個類別,長條形的長度表示類別的頻數,寬度表示表示類別。 直方圖:直方圖是一種統計報告圖,形式上也是一個個的長條形,但是直方圖用長條形的面積表示頻數,所

原创 pytorch-Mnist分類任務

讀取數據 import pickle import gzip #解壓數據 with gzip.open((PATH / FILENAME).as_posix(), "rb") as f: ((x_train, y_

原创 seaborn風格和色系設置

seaborn開篇 seaborn風格設置 plt.figure(figsize=(12,8)) #默認風格 plt.subplot(231) sns.boxplot(data=data) #darkgrid with sn

原创 seaborn變量分析+熱力圖

單變量 直方圖看數據分佈 plt.figure(figsize=(12,5)) #默認圖形 plt.subplot(141) sns.distplot(x) #不畫直方圖 plt.subplot(142) sns.distp

原创 從隨機森林到極端隨機森林,再到深度森林

隨機森林 再介紹隨機森林之前有必要介紹下集成算法的一些理論 集成學習算法本身不算一種單獨的機器學習算法,而是通過構建並結合多個機器學習器來完成學習任務。可以說是集百家之所長,能在機器學習算法中擁有較高的準確率,不足之處就是模型的訓

原创 matplotlib入門-條形圖

條形圖是日常畫圖中最常使用的圖形之一 簡單模板 首先看一個簡單的模板,條形圖一般分爲豎向和橫向兩種,如果圖中有負數的話,最好畫一條橫線或者豎線,可以讓圖看起來更加完整和美觀,如下: plt.figure(figsize=(10,8

原创 梯度下降-不同優化方法比較

前言 上篇介紹了梯度下降的原理,接下來介紹下,除了SGD外,其他的優化算法,以及python簡易實現代碼 雖然梯度下降算法效果很好,並且廣泛使用,但同時其也存在一些挑戰與問題需要解決: 選擇一個合理的學習速率很難。如果學習速率