原创 唐宇迪機器學習進階第一講數據特徵

唐宇迪機器學習進階第一講數據特徵 ###1數據特徵 離散值處理 總結下來就是csv文件數據進行添加索引序號 主要庫 import pandas as pd import numpy as np from sklearn.prepr

原创 利用Python進行數據分析之Python的數據結構

##元組 元組是一個固定長度,不可改變的Python序列對象。創建元組的最簡單方式,是用逗號分隔一列值 在這裏插入tup = 4,5,6#元組 tup 輸出: (4, 5, 6) nested_tup = (1,2,3),(4,

原创 GBDT梯度提升迴歸樹

原理: 提升樹利用加法模型與向前分步算法實現學習的優化過程。 (我覺得就是把提升樹算法裏的殘差用當前損失函數的負梯度在當前模型的值近似替代,擬合下一顆樹。) 爲啥用負梯度的值而不用提升樹裏的方法算殘差呢,是因爲當前損失函數是平方損

原创 提升樹

提升樹是以分類樹或迴歸樹爲基本分類器的提升方法,提升樹被認爲是統計學習中性能最好的方法之一。 提升樹模型 提升樹採用向前分步算法,首先確定初始提升樹f0(x) = 0,第m步的模型是: fm(x) = fm-1(x)+T(x;θm

原创 李航提升方法第八章

##定義 提升方法是一種常用的統計學習方法,應用廣泛有效。基本思想爲:對於一個複雜任務來說,將多個專家的判斷進行適當的綜合所得出的判斷,要比其中任何一個專家單獨判斷的好。實際上,就是“三個臭皮匠頂個諸葛亮”的道理。 1.1此章主要