原创 Python實戰|用決策樹實現NBA獲勝球隊預測

NBA預測獲勝球隊 數據獲取 因爲疫情原因導致NBA2019-2020賽季沒有進行完,所以我們使用NBA2018-2019賽季的數據進行預測,數據獲取方式有下面兩種: 通過網站獲取 我們可以通過網站去獲取任意一年的所有場次比賽數據

原创 Python|一行代碼獲取股票數據

隨着金融行業的發展,金融相關的數據變得越來越有價值。股票的歷史數據就是一種非常重要的時間序列數據,本文介紹一個不需要自己動手寫爬蟲就能夠獲取各個公司的股票信息的Python庫——yfinance。 yfinance的安裝 yfin

原创 常見的超參數調優方法

學習器模型中一般有兩類參數,一類是可以從數據中學習估計得到,還有一類參數時無法從數據中估計,只能靠人的經驗進行設計指定,後者成爲超參數。比如,支持向量機裏面的C, Kernal, game;樸素貝葉斯里面的alpha等。 網格搜索 網格搜

原创 一文讀懂XGBoost|機器學習

XGBoost 和GBDT一樣,XGBoost也是一種基於CART樹的Boosting算法,讓我們來看一下如何通俗的去理解XGBoost。 先簡單的回想一下,在我們之前提到過的GBDT中是怎樣用很多棵樹去做預測的?很簡單,我們給了

原创 用Python走迷宮|Q-Learning|強化學習

Q-Learning走迷宮 上文中我們瞭解了Q-Learning算法的思想,基於這種思想我們可以實現很多有趣的功能和小demo,本文讓我們通過Q-Learning算法來實現用計算機來走迷宮。 原理簡述 我們先從一個比較高端的例子說

原创 連載|模型評估與過擬合(下)

模型評估與過擬合 性能度量 我們在進行對學習器泛化能力評估的同時,不僅需要有效的評估方法,還需要一個好的衡量模型泛化能力的評價標準。我們先來學習一下在分類算法中經常用到的模型評價指標。 準確率(Accuracy) 分類正確的樣本個

原创 連載|決策樹(上)

決策樹 簡單理解決策樹 決策樹是一類常見的機器學習方法,和我們人類在進行問題決策時一樣,決策樹基於樹的結構進行決策。例如對於西瓜來說,我們要對“這是好瓜嗎”進行決策,通常我們會先進行一些判斷:西瓜顏色、根蒂形態、敲打聲音等等,最終

原创 邏輯迴歸和線性迴歸有何不同?

分類和迴歸問題 首先我們來明確兩個大類:分類問題和迴歸問題。 分類問題:輸入變量與輸出變量均爲連續變量的預測問題是迴歸問題 迴歸問題:輸出變量爲有限個離散變量的預測問題爲分類問題 舉個例子: 預測明天的氣溫是多少度,這是一個迴歸問題; 預

原创 連載|線性迴歸

線性模型|線性迴歸 基本形式 給定由d個屬性描述的示例X=(x1;x2;...;xd)X=(x_1;x_2;...;x_d)X=(x1​;x2​;...;xd​),其中xix_ixi​是XXX在第i個屬性上的取值,線性模型想要通過

原创 連載|模型評估與過擬合(上)

模型評估與過擬合 1、誤差 錯誤率(error rate):分類錯誤的樣本佔總樣本的比例 準確率(accuracy):分類正確的樣本佔總樣本的比例 誤差(error):學習器的實際預測輸出與樣本的真實輸出之間的差異 經驗誤差

原创 怎麼算特徵值和特徵矩陣?

怎樣更通俗的理解特徵值和特徵矩陣? 設A是一個n階矩陣,若數和n維非零列向量滿足,數稱爲A的特徵值,x稱爲A對應於特徵值的特徵向量。此時叫做特徵多項式,若特徵多項式爲0則稱爲A的特徵方程(齊次線性方程組),求解特徵值的過程其實就是求解特徵

原创 小工具|Python進度條模塊Progressbar

Python進度條模塊Progressbar 今天突然被問了一個問題:程序在執行中很久不結束是怎麼回事?看不到程序執行的進度,在我們進行大工程的時候的確是一件很頭疼的事,本文讓我們來了解一個很常用的進度條展示小工具——Progressba

原创 Jupyter中顯示DataFrame的全部行和列

如果想要指定最大的行數和列數,代碼如下: pd.set_option('max_rows', 5) pd.set_option('max_columns', 5) 如果想要直接指定顯示所有的行和列,代碼如下: pd.options.d

原创 無須推導的LightGBM|機器學習

LightGBM 上文中我們瞭解了一下XGBoost的原理,本文再來了解一下GBDT的另一個進化算法LightGBM,從原理上來說它和GBDT及XGBoost類似,都採用損失函數的負梯度作爲當前決策樹的殘差近似值,去擬合新的決策樹

原创 怎樣處理過擬合和欠擬合?

過擬合和欠擬合 從模型在不同集合上的表現來看 首先來明確一下過擬合和欠擬合的概念。 過擬合(下圖中最右側的圖像) 過擬合指的是訓練數據擬合程度過高的情況,也就是說模型在訓練集上表現的很好,但是在測試集和新的數據集上表現的較差。 欠擬合(下