【白話機器學習】算法理論+實戰之LightGBM算法

1. 寫在前面

如果想從事數據挖掘或者機器學習的工作,掌握常用的機器學習算法是非常有必要的,在這簡單的先捋一捋, 常見的機器學習算法:

  • 監督學習算法:邏輯迴歸,線性迴歸,決策樹,樸素貝葉斯,K近鄰,支持向量機,集成算法Adaboost等

  • 無監督算法:聚類,降維,關聯規則, PageRank等

前面已經嘗試用最白話的語言完成了一個白話機器學習算法理論+實戰系列,這個系列已經基本包含了上面這些算法的原理和基本使用。但是,如果僅僅是會用這些算法可是不夠的, 我們也得跟着時代的步伐前進,近幾年,有很多大佬又在上面的某些算法上加以改進,發明了更加厲害的算法,而這些算法纔是當今時代解決問題的主流,所以我們學習的一個方式就是掌握傳統,而又得緊跟時代

所以,後面考慮加上當前流行的一些主流機器學習算法,既當複習,又當提升。由於不想和傳統的機器學習算法混合起來,故稱之爲番外,也是傳統機器學習算法的延伸, 同樣是儘量白話,同樣是豐富實戰,但會夾雜數學的身影,畢竟後面的很多算法如果沒有了數學就彷彿失去了靈魂,無法活靈活現。所以機器學習算法的故事還沒有完,我們還得繼續走着。

學習算法的過程,獲得的不應該只有算法理論,還應該有樂趣和解決實際問題的能力!

今天又帶來了一個在數據競賽中刷分奪冠的必備神兵利器叫做LightGBM, 2017年由微軟提出,是GBDT模型的另一個進化版本, 主要用於解決GBDT在海量數據中遇到的問題,以便更好更快的用於工業實踐中。從 LightGBM 名字我們可以看出其是輕量級(Light)的梯度提升機器(GBM), 所以面對大規模數據集,它依然非常淡定,跑起來更加輕盈。
談到競賽中的神器,我們難免又想到了xgboost, 同是神器, 既然有了一個xgboost, 爲啥還要出個Lightgbm呢?所謂既生瑜何生亮, 難道Lightgbm相對於xgboost會有什麼優勢嗎?那是當然, LightGBM在xgboost的基礎上進行了很多的優化, 可以看成是XGBoost的升級加強版,它延續了xgboost的那一套集成學習的方式,但是它更加關注模型的訓練速度,相對於xgboost, 具有訓練速度快和內存佔用率低的特點。對於Lightgbm, 重點就是兩個字:要快,快,還是快!基於這些優勢,lightGBM現在不管是在工業界和競賽界,都混的越來越風生水起,名頭大震, 那麼LightGBM到底是如何做到更快的訓練速度和更低的內存使用的呢?在xgboost上做出了哪些優化策略呢?LightGBM和xgboost到底有何不同呢?LightGBM又是如何來解決實際問題的呢?下面就拿好板凳,聽我娓娓道來吧 ;)

當然既然是基於xgboost進行的優化版本,所以這篇文章依然會看到xgboost的身影,以對比的方式進行學習,有利於加深對算法的理解。由於這個算法我也是剛接觸,可能有些地方會理解不當或者有些細節描述不到,歡迎留言指出,這篇文章只是拋磚引玉,明白基本原理之後建議去讀原文。

大綱如下:

  • LightGBM? 我們還得先從xgboost說起(看看xgboost存在的問題以及可以改進的地方)

  • LightGBM的直方圖算法(確實和xgboost的不一樣)

  • LightGBM的兩大先進技術(單邊梯度抽樣GOSS和互斥特徵捆綁EFB)

  • LightGBM的生長策略(基於最大深度的Leaf-wise)

  • LightGBM的工程優化(類別特徵支持與並行化)

  • LightGBM的實戰應用(分爲基礎使用和調參)

OK, Let's go!

2. LightGBM? 我們還得先從xgboost說起

談起Lightgbm, 我們已經知道了是xgboost的強化版本, 關於xgboost,從其工作原理到數學推導再到優化策略最後到實戰應用,【白話機器學習】算法理論+實戰之Xgboost算法都已經描述過了,這裏只進行簡單的回憶和梳理,在這次回憶中我們看看xgboost在某些策略上是不是依然存在一些問題?然後這些問題是不是可以有改進的方式?

我們在上一篇文章中提到過, xgboost是屬於boosting家族,是GBDT算法的一個工程實現, 在模型的訓練過程中是聚焦殘差,在目標函數中使用了二階泰勒展開並加入了正則,在決策樹的生成過程中採用了精確貪心的思路,尋找最佳分裂點的時候,使用了預排序算法, 對所有特徵都按照特徵的數值進行預排序, 然後遍歷所有特徵上的所有分裂點位,計算按照這些候選分裂點位分裂後的全部樣本的目標函數增益,找到最大的那個增益對應的特徵和候選分裂點位,從而進行分裂。這樣一層一層的完成建樹過程, xgboost訓練的時候,是通過加法的方式進行訓練,也就是每一次通過聚焦殘差訓練一棵樹出來, 最後的預測結果是所有樹的加和表示。

上面簡單的把xgboost的一些知識給梳理了一下,我們主要是看看xgboost在樹生成的過程中,是否存在某些策略上的問題啊!機智的你可能會說:xgboost在進行最優分裂點的選擇上是先進行預排序,然後對所有特徵的所有分裂點計算按照這些分裂點位分裂後的全部樣本的目標函數增益,這樣會不會太費時間和空間了啊! 哈哈, 果真是一語中的, 還真會帶來這樣的問題, 首先就是空間消耗很大,因爲預排序的話既需要保存數據的特徵值, 還得保存特徵排序後的索引,畢竟這樣後續計算分割點的時候快一些,但是這樣就需要消耗訓練數據兩倍的內存。其次, 時間上也有很大的開銷,在遍歷每一個分割點的時候,都需要進行分裂增益的計算,消耗的代價大。

這時候你又可能說了xgboost不是有個近似分割的算法嗎?這個不就對分裂點進行了分桶了,不就可以少遍歷一些分裂點了?  嗯嗯, 這個其實就是下面要講的lightgbm裏面的直方圖的思路, 所以直方圖這個思路在xgboost裏面也體現過,不算是lightgbm的亮點了, 這個是會有一些效果,可以減少點計算,但是比較微妙,lightgbm直方圖算法進行了更好的優化(具體的下面說), 比xgboost的這個還要快很多,並且XGB雖然每次只需要遍歷幾個可能的分裂節點,然後比較每個分裂節點的信息增益,選擇最大的那個進行分割,但比較時需要考慮所有樣本帶來的信息增益,這樣還是比較費勁。所以基於xgboost尋找最優分裂點的複雜度,我總結了下面三點:

尋找最優分裂點的複雜度特徵數量分裂點的數量樣本的數量

所以如果想在xgboost上面做出一些優化的話,我們是不是就可以從上面的三個角度下手,比如想個辦法減少點特徵數量啊, 分裂點的數量啊, 樣本的數量啊等等。 元芳,你怎麼看?

哈哈, 微軟裏面提出lightgbm的那些大佬還真就是這樣做的, Lightgbm裏面的直方圖算法就是爲了減少分裂點的數量, Lightgbm裏面的單邊梯度抽樣算法就是爲了減少樣本的數量, 而Lightgbm裏面的互斥特徵捆綁算法就是爲了減少特徵的數量。並且後面兩個是Lightgbm的亮點所在

這些算法到底在做什麼事情呢?竟然有這樣神器的功效! 下面我們一一來看看吧。

3. LightGBM的直方圖算法(Histogram)

LightGBM的直方圖算法是代替Xgboost的預排序算法的, 之前我們提到過,Lightgbm是在xgboost的基礎上進行的優化,爲什麼要基於xgboost進行優化呢?這是因爲在GBDT的衆多演化算法裏面,Xgboost性能應該算是最好的一個,而Lightgbm也算是演變家族中的一員,所以爲了凸顯其優越性,都是一般和xgboost進行對比。雖然直方圖的算法思路不算是Lightgbm的亮點,畢竟xgboost裏面的近似算法也是用的這種思想,但是這種思路對於xgboost的預排序本身也是一種優化,所以Lightgbm本着快的原則,也採用了這種直方圖的思想。那麼直方圖究竟在做什麼事情呢?

直方圖算法說白了就是把連續的浮點特徵離散化爲k個整數(也就是分桶bins的思想), 比如[0, 0.1) ->0, [0.1, 0.3)->1。並根據特徵所在的bin對其進行梯度累加和個數統計,在遍歷數據的時候,根據離散化後的值作爲索引在直方圖中累積統計量,當遍歷一次數據後,直方圖累積了需要的統計量,然後根據直方圖的離散值,遍歷尋找最優的分割點。這麼說起來,可能還是一臉懵逼, 那麼就再來形象的畫個圖吧(有圖就有真相了,哈哈,我們就拿出某一個連續特徵來看看如何分桶的):

這樣在遍歷到該特徵的時候,只需要根據直方圖的離散值,遍歷尋找最優的分割點即可,由於bins的數量是遠小於樣本不同取值的數量的,所以分桶之後要遍歷的分裂點的個數會少了很多,這樣就可以減少計算量。基於上面的這個方式,如果是把所有特徵放到一塊的話,應該是下面的這種感覺:這裏注意一下,XGBoost 在進行預排序時只考慮非零值進行加速,而 LightGBM 也採用類似策略:只用非零特徵構建直方圖。這種離散化分桶思路其實有很多優點的, 首先最明顯就是內存消耗的降低,xgboost需要用32位的浮點數去存儲特徵值, 並用32位的整型去存儲索引,而Lightgbm的直方圖算法不僅不需要額外存儲預排序的結果,而且可以只保存特徵離散化後的值,而這個值一般用8位整型存儲就足夠了,內存消耗可以降低爲原來的1/8。然後在計算上的代價也大幅降低,預排序算法每遍歷一個特徵值就需要計算一次分裂的增益,而Lightgbm直方圖算法只需要計算k次(k可以認爲是常數),時間複雜度從優化到。而我們知道

但是你知道嗎?Histogram算法還可以進一步加速。一個葉子節點的Histogram可以直接由父節點的Histogram和兄弟節點的Histogram做差得到。一般情況下,構造Histogram需要遍歷該葉子上的所有數據,通過該方法,只需要遍歷Histogram的k個捅。速度提升了一倍。再說一下這個細節, 到底這是啥意思呢?

直方圖作差加速

當節點分裂成兩個時,右邊的子節點的直方圖其實等於其父節點的直方圖減去左邊子節點的直方圖:這是爲啥啊?看完之後,又一臉懵逼呢? 其實在說這麼個意思, 舉個例子就明白了,

通過這種直方圖加速的方式,又可以使得Lightgbm的速度快進一步啦。
關於直方圖算法基本上就是這些了,當然還有很多細節簡單的描述一下, Histogram算法並不是完美的。由於特徵被離散化後,找到的並不是很精確的分割點,所以會對結果產生影響。但在實際的數據集上表明,離散化的分裂點對最終的精度影響並不大,甚至會好一些。原因在於decision tree本身就是一個弱學習器,分割點是不是精確並不是太重要,採用Histogram算法會起到正則化的效果,有效地防止模型的過擬合(bin數量決定了正則化的程度,bin越少懲罰越嚴重,欠擬合風險越高)。 直方圖算法可以起到的作用就是可以減小分割點的數量, 加快計算。

如果你要說xgboost不是後面的近似分割算法也進行了分桶嗎?爲啥會比lightgbm的直方圖算法慢這麼多呢?emmm, 你還記得xgboost那裏的分桶是基於什麼嗎? 那個算法叫做Weight Quantile Sketch算法,考慮的是對loss的影響權值,用的每個樣本的hi來表示的(如果忘了,可以去看看我寫的xgboost),相當於基於hi的分佈去找候選分割點,這樣帶來的一個問題就是每一層劃分完了之後,下一次依然需要構建這樣的直方圖,畢竟樣本被劃分到了不同的節點中,二階導分佈也就變了。 所以xgboost在每一層都得動態構建直方圖, 因爲它這個直方圖算法不是針對某個特定的feature的,而是所有feature共享一個直方圖(每個樣本權重的二階導)。而lightgbm對每個特徵都有一個直方圖,這樣構建一次就OK, 並且分裂的時候還能通過直方圖作差進行加速。故xgboost的直方圖算法是不如lightgbm的直方圖算法快的。

4. LightGBM的兩大先進技術(GOSS & EFB)

到了這裏,纔是Lightgbm的亮點所在, 下面的這兩大技術是Lightgbm相對於xgboost獨有的, 分別是單邊梯度抽樣算法(GOSS)和互斥特徵捆綁算法(EFB), 我們上面說到,GOSS可以減少樣本的數量,而EFB可以減少特徵的數量,這樣就能降低模型分裂過程中的複雜度。減少樣本和減少特徵究竟是怎麼做到的?我們下面一一來看看吧。

4.1 單邊梯度抽樣算法(GOSS)

單邊梯度抽樣算法(Gradient-based One-Side Sampling)是從減少樣本的角度出發, 排除大部分權重小的樣本,僅用剩下的樣本計算信息增益,它是一種在減少數據和保證精度上平衡的算法。

看到這裏你可能一下子跳出來進行反駁了,衆所周知,GBDT中沒有原始樣本的權重,既然Lightgbm是GBDT的變種,應該也沒有原始樣本的權重,你這裏怎麼排除大部分權重小的樣本?我讀的書少,你可別蒙我。哈哈,你還別說, 你這樣想還真是有點道理的, 我們知道在AdaBoost中,會給每個樣本一個權重,然後每一輪之後調大錯誤樣本的權重,讓後面的模型更加關注前面錯誤區分的樣本,這時候樣本權重是數據重要性的標誌(你還記得AdaBoost的這個過程嗎?),到了GBDT中, 確實沒有一個像Adaboost裏面這樣的樣本權重,理論上說是不能應用權重進行採樣的, But, 我們發現啊, GBDT中每個數據都會有不同的梯度值, 這個對採樣是十分有用的, 即梯度小的樣本,訓練誤差也比較小,說明數據已經被模型學習的很好了,因爲GBDT不是聚焦殘差嗎?在訓練新模型的過程中,梯度比較小的樣本對於降低殘差的作用效果不是太大,所以我們可以關注梯度高的樣本,這樣不就減少計算量了嗎?  當然這裏你可能沒有明白爲啥梯度小的樣本對降低殘差效果不大, 那咱可以看看GBDT的這個殘差到底是個什麼東西。  我把我xgboost裏面的一個圖截過來:

當然GBDT沒有用到二階導,這個不用管,我們就看上面的一階導部分,是不是可以發現這個參數其實就是每個樣本梯度的一個相反數啊?  也就是

這個常數不用管, 這樣也就是說如果我新的模型想降低殘差的效果好,那麼樣本的梯度應該越大越好,所以這就是爲啥梯度小的樣本對於降低殘差的效果不大。也是爲啥樣本的梯度大小可以反映樣本權重的原因,這樣說清楚了吧。

但是要是盲目的直接去掉這些梯度小的數據,這樣就會改變數據的分佈了啊,所Lightgbm才提出了單邊梯度抽樣算法,根據樣本的權重信息對樣本進行抽樣,減少了大量梯度小的樣本,但是還能不會過多的改變數據集的分佈,這就比較牛了。怎麼做的呢?

GOSS 算法保留了梯度大的樣本,並對梯度小的樣本進行隨機抽樣,爲了不改變樣本的數據分佈,在計算增益時爲梯度小的樣本引入一個常數進行平衡。首先將要進行分裂的特徵的所有取值按照絕對值大小降序排序(xgboost也進行了排序,但是LightGBM不用保存排序後的結果),然後拿到前 的梯度大的樣本,和剩下樣本的,在計算增益時,後面的這通過乘上來放大梯度小的樣本的權重。一方面算法將更多的注意力放在訓練不足的樣本上,另一方面通過乘上權重來防止採樣對原始數據分佈造成太大的影響。

這個地方要注意一下,我看到很多資料描述的並不是那麼清晰,如果去看論文的話,這個前的樣本和剩下樣本的其實是這樣算的, 前就是選出個樣本作爲梯度大的, 就是在剩下的樣本中選出個樣本作爲梯度小但是保留下來的樣本,這就是原文的:

len(I)  -> topN, len(I) -> randN。這裏的I代表輸入數據

一般講寫這種文章是不太願意直接截圖原文的, 但是這個地方確實好多文章講的不是那麼清晰, 我估計我即使是這樣說可能依然一臉懵逼,不知道具體怎麼操作,哈哈,好吧, 又得請出我這個靈魂畫手看看具體應該怎麼操作了,之所以爲白話,就是儘量的講清楚每個細節,看了下面圖估計就明白怎麼操作了(如果還不明白,那就多看兩眼,無它,唯眼熟爾 ;)):通過上面,我們就通過採樣的方式,選出了我們的樣本,兩個梯度大的6號和7號,然後又從剩下的樣本里面隨機選了2個梯度小的,4號和2號,這時候我們重點看看基於採樣樣本的估計直方圖長什麼樣子,畢竟我們從8個裏面選出了四個,如果直接把另外四個給刪掉的話,這時候會改變數據的分佈,但應該怎麼做呢?也就是乘上來放大梯度小的樣本的權重到底是怎麼算的?看下圖:

梯度小的樣本乘上相應的權重之後,我們在基於採樣樣本的估計直方圖中可以發現Ni的總個數依然是8個, 雖然6個梯度小的樣本中去掉了4個,留下了兩個。但是這2個樣本在梯度上和個數上都進行了3倍的放大,所以可以防止採樣對原數數據分佈造成太大的影響, 這也就是論文裏面說的將更多的注意力放在訓練不足的樣本上的原因。

PS:小雨姑娘機器學習筆記中的那個例子挺有意思:GOSS的感覺就好像一個公寓裏本來住了10個人,感覺太擠了,趕走了6個人,但是剩下的人要分攤他們6個人的房租。(恰不恰當不知道,但是符合我的大白話系列,哈哈,具體的可以看後面的鏈接)

好了, 單邊梯度抽樣算法基本上就理清楚了,Lightgbm正是通過這樣的方式,在不降低太多精度的同時,減少了樣本數量,使得訓練速度加快

4.2 互斥特徵捆綁算法(EFB)

高維度的數據往往是稀疏的,這種稀疏性啓發我們設計一種無損的方法來減少特徵的維度。通常被捆綁的特徵都是互斥的(即特徵不會同時爲非零值,像one-hot),這樣兩個特徵捆綁起來纔不會丟失信息。如果兩個特徵並不是完全互斥(部分情況下兩個特徵都是非零值),可以用一個指標對特徵不互斥程度進行衡量,稱之爲衝突比率,當這個值較小時,我們可以選擇把不完全互斥的兩個特徵捆綁,而不影響最後的精度。

到這又一臉懵逼,這又是說的什麼鬼?什麼稀疏,互斥,衝突的?如果上面的聽不懂,我可以舉個比較極端的例子來看一下特徵捆綁到底是在幹嘛:

看到上面的這些特徵夠稀疏了吧(大部分都是0),而每一個特徵都只有一個訓練樣本是非0且都不是同一個訓練樣本,這樣的話特徵之間也沒有衝突了。這樣的情況就可以把這四個特徵捆綁成一個,這樣是不是維度就減少了啊。(有沒有感覺這種矩陣很眼熟,從右往左的話有沒有種one-hot的味道)

所以互斥特徵捆綁算法(Exclusive Feature Bundling)是從減少特徵的角度去幫助Lightgbm更快, 它指出如果將一些特徵進行融合綁定,則可以降低特徵數量。這樣在構建直方圖的時候時間複雜度從變成, 這裏的指的特徵融合後特徵包的個數,且。這樣又可以使得速度加快了,哈哈。但是針對這個特徵捆綁融合,有兩個問題需要解決, 畢竟像我上面舉得那種極端的例子除了OneHot之後的編碼,其實很少見。

  • 怎麼判定哪些特徵應該綁在一起?

  • 特徵綁在一起之後,特徵值應該如何確定呢?

對於問題一:EFB 算法利用特徵和特徵間的關係構造一個加權無向圖,並將其轉換爲圖着色的問題來求解,求解過程中採用的貪心策略。感覺這裏如果說成圖着色問題的話反而有點難理解了,畢竟這裏是加權無向圖,而圖着色問題可以去百度一下到底是怎麼回事,反正覺得還不如直接說過程好理解,所以直接看過程反而簡單一些。

其實說白了,捆綁特徵就是在幹這樣的一件事:

  • 首先將所有的特徵看成圖的各個頂點,將不相互獨立的特徵用一條邊連起來,邊的權重就是兩個相連接的特徵的總衝突值(也就是這兩個特徵上不同時爲0的樣本個數)。

  • 然後按照節點的度對特徵降序排序, 度越大,說明與其他特徵的衝突越大

  • 對於每一個特徵, 遍歷已有的特徵簇,如果發現該特徵加入到特徵簇中的矛盾數不超過某一個閾值,則將該特徵加入到該簇中。如果該特徵不能加入任何一個已有的特徵簇,則新建一個簇,將該特徵加入到新建的簇中。

什麼?沒明白?  比如上面畫的那個圖的例子,會發現這些特徵都是相互獨立的點,度爲0,這樣排序之後也發現與其他特徵的衝突爲0,這樣的直接放到一個簇裏面就沒問題,所以這四個特徵直接可以合併。當然一般沒有這麼巧的事, 所以我把上面的隨便改幾個數看看這個過程是什麼樣子的:

上面這個過程的時間複雜度其實是的,因爲要遍歷特徵,每個特徵還要遍歷所有的簇, 在特徵不多的情況下還行,但是如果特徵維度很大,就不好使了。所以爲了改善效率,可以不建立圖,而是將特徵按照非零值個數進行排序,因爲更多的非零值的特徵會導致更多的衝突,所以跳過了上面的第一步,直接排序然後第三步分簇。

這樣哪些特徵捆綁的問題就解決了,下面就是第二個, 捆綁完了之後特徵應該如何取值呢?這裏面的一個關鍵就是原始特徵能從合併的特徵中分離出來, 這是什麼意思?綁定幾個特徵在同一個bundle裏需要保證綁定前的原始特徵的值可以在bundle裏面進行識別,考慮到直方圖算法將連續的值保存爲離散的bins,我們可以使得不同特徵的值分到簇中的不同bins裏面去,這可以通過在特徵值中加入一個偏置常量來解決。

比如,我們把特徵A和B綁定到了同一個bundle裏面, A特徵的原始取值區間[0,10), B特徵原始取值區間[0,20), 這樣如果直接綁定,那麼會發現我從bundle裏面取出一個值5, 就分不出這個5到底是來自特徵A還是特徵B了。所以我們可以再B特徵的取值上加一個常量10轉換爲[10, 30),這樣綁定好的特徵取值就是[0,30),  我如果再從bundle裏面取出5, 就一下子知道這個是來自特徵A的。這樣就可以放心的融合特徵A和特徵B了。看下圖:

特徵捆綁算法到這裏也就基本上差不多了, 通過EFB,許多排他的特徵就被捆綁成了更少的密集特徵,這個大大減少的特徵的數量,對訓練速度又帶來很大的提高。利用這種思路,可以通過對某些特徵的取值重新編碼,將多個這樣互斥的特徵捆綁成爲一個新的特徵。有趣的是,對於類別特徵,如果轉換成onehot編碼,則這些onehot編碼後的多個特徵相互之間是互斥的,從而可以被捆綁成爲一個特徵。因此,對於指定爲類別型的特徵,LightGBM可以直接將每個類別取值和一個bin關聯,從而自動地處理它們,而無需預處理成onehot編碼多此一舉。

5. LightGBM的生長策略(Leaf-wise)

上面我們已經整理完了LightGBM是如何在尋找最優分裂點的過程中降低時間複雜度的, 可以簡單的回憶一下,我們說xgboost在尋找最優分裂點的時間複雜度其實可以歸到三個角度:特徵的數量,分裂點的數量和樣本的數量。而LightGBM也提出了三種策略分別從這三個角度進行優化,直方圖算法就是爲了減少分裂點的數量, GOSS算法爲了減少樣本的數量,而EFB算法是爲了減少特徵的數量。

那麼lightgbm除了在尋找最優分裂點過程中進行了優化,其實在樹的生成過程中也進行了優化, 它拋棄了xgboost裏面的按層生長(level-wise), 而是使用了帶有深度限制的按葉子生長(leaf-wise)。這個有什麼好處嗎?

好不好處先不談,首先看看這兩種生長方式是怎麼回事, XGBoost 在樹的生成過程中採用 Level-wise 的增長策略,該策略遍歷一次數據可以同時分裂同一層的葉子,容易進行多線程優化,也好控制模型複雜度,不容易過擬合。但實際上Level-wise是一種低效的算法,因爲它不加區分的對待同一層的葉子,實際上很多葉子的分裂增益較低,沒必要進行搜索和分裂,因此帶來了很多沒必要的計算開銷(一層一層的走,不管它效果到底好不好)Leaf-wise 則是一種更爲高效的策略,每次從當前所有葉子中,找到分裂增益最大的一個葉子,然後分裂,如此循環。因此同 Level-wise 相比,在分裂次數相同的情況下,Leaf-wise 可以降低更多的誤差,得到更好的精度。Leaf-wise 的缺點是可能會長出比較深的決策樹,產生過擬合。因此 LightGBM 在 Leaf-wise 之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。(最大信息增益的優先, 我纔不管層不層呢)

所以看到這裏應該知道Leaf-wise的優勢了吧, Level-wise的做法會產生一些低信息增益的節點,浪費運算資源,但是這個對於防止過擬合挺有用。而Leaf-wise能夠追求更好的精度,降低誤差,但是會帶來過擬合問題。那你可能問,那爲啥還要用Leaf-wise呢?過擬合這個問題挺嚴重鴨! 但是人家能提高精度啊,哈哈,哪有那麼十全十美的東西, 並且作者也使用了max_depth來控制樹的高度。其實敢用Leaf-wise還有一個原因就是Lightgbm在做數據合併,直方圖和GOSS等各個操作的時候,其實都有天然正則化的作用,所以作者感覺在這裏使用Leaf-wise追求高精度是一個不錯的選擇。

6.  LightGBM的工程優化

這部分其實涉及到工程上的一些問題了, 不算是本篇文章的重點內容,畢竟我只是想白話原理部分。但是也做一個瞭解吧,畢竟Lightgbm提出的初衷就是解決工程上的問題,不過後面這些我主要是參考的一些其他資料,因爲着實沒在工程上進行使用過,參考資料都會在後面給出,具體的可以去那裏面看。

工程優化這部分主要涉及到了三個點:

  1. 類別特徵的支持(這個不算是工程)

  2. 高效並行

  3. Cache命中率優化

6.1 支持類別特徵

首先從第一個點開始,LightGBM是第一個直接支持類別特徵的GBDT工具。我們知道大多數機器學習工具都無法直接支持類別特徵,一般需要把類別特徵,通過one-hot 編碼,轉化到多維的0/1特徵,降低了空間和時間的效率。但對於決策樹來說,其實並不推薦使用獨熱編碼,尤其是特徵中類別很多,會存在以下問題:

  • 會產生樣本切分不平衡問題,切分增益會非常小。如,國籍切分後,會產生是否中國,是否美國等一系列特徵,這一系列特徵上只有少量樣本爲 1,大量樣本爲 0。這種劃分的增益非常小:較小的那個拆分樣本集,它佔總樣本的比例太小。無論增益多大,乘以該比例之後幾乎可以忽略;較大的那個拆分樣本集,它幾乎就是原始的樣本集,增益幾乎爲零;

  • 影響決策樹學習:決策樹依賴的是數據的統計信息,而獨熱碼編碼會把數據切分到零散的小空間上。在這些零散的小空間上統計信息不準確的,學習效果變差。本質是因爲獨熱碼編碼之後的特徵的表達能力較差的,特徵的預測能力被人爲的拆分成多份,每一份與其他特徵競爭最優劃分點都失敗,最終該特徵得到的重要性會比實際值低。

LightGBM 原生支持類別特徵,採用 many-vs-many 的切分方式將類別特徵分爲兩個子集,實現類別特徵的最優切分。假設有某維特徵有 k 個類別,則有 中可能,時間複雜度爲 ,LightGBM 基於 Fisher 大佬的 《On Grouping For Maximum Homogeneity》實現了 的時間複雜度。上圖爲左邊爲基於 one-hot 編碼進行分裂,後圖爲 LightGBM 基於 many-vs-many 進行分裂,右邊葉子節點的含義是或者放到左孩子,其餘放到右孩子, 右邊的切分方法,數據會被切分到兩個比較大的空間,進一步的學習也會更好。

其基本思想在於每次分組時都會根據訓練目標對類別特徵進行分類,在枚舉分割點之前,先把直方圖按照每個類別對應的label均值進行排序;然後按照排序的結果依次枚舉最優分割點。看下面這個圖:

從上面可以看到,爲類別的均值。當然,這個方法很容易過擬合,所以LightGBM裏面還增加了很多對於這個方法的約束和正則化。實驗結果證明,這個方法可以使訓練速度加速8倍

6.2 支持高效並行

我們知道,並行計算可以使得速度更快, lightgbm支持三個角度的並行:特徵並行,數據並行和投票並行。下面我們一一來看看:

  1. 特徵並行 特徵並行的主要思想是不同機器在不同的特徵集合上分別尋找最優的分割點,然後在機器間同步最優的分割點。XGBoost使用的就是這種特徵並行方法。這種特徵並行方法有個很大的缺點:就是對數據進行垂直劃分,每臺機器所含數據不同,然後使用不同機器找到不同特徵的最優分裂點,劃分結果需要通過通信告知每臺機器,增加了額外的複雜度。

    LightGBM 則不進行數據垂直劃分,而是在每臺機器上保存全部訓練數據,在得到最佳劃分方案後可在本地執行劃分而減少了不必要的通信。具體過程如下圖所示。

  2. 數據並行 傳統的數據並行策略主要爲水平劃分數據,讓不同的機器先在本地構造直方圖,然後進行全局的合併,最後在合併的直方圖上面尋找最優分割點。這種數據劃分有一個很大的缺點:通訊開銷過大。如果使用點對點通信,一臺機器的通訊開銷大約爲 ;如果使用集成的通信,則通訊開銷爲

    LightGBM在數據並行中使用分散規約 (Reduce scatter) 把直方圖合併的任務分攤到不同的機器,降低通信和計算,並利用直方圖做差,進一步減少了一半的通信量。具體過程如下圖所示。

  3. 投票並行 基於投票的數據並行則進一步優化數據並行中的通信代價,使通信代價變成常數級別。在數據量很大的時候,使用投票並行的方式只合並部分特徵的直方圖從而達到降低通信量的目的,可以得到非常好的加速效果。具體過程如下圖所示。大致步驟爲兩步:

  • 本地找出 Top K 特徵,並基於投票篩選出可能是最優分割點的特徵;

  • 合併時只合並每個機器選出來的特徵。

6.3 Cache命中率優化

XGBoost對cache優化不友好,如下圖所示。在預排序後,特徵對梯度的訪問是一種隨機訪問,並且不同的特徵訪問的順序不一樣,無法對cache進行優化。同時,在每一層長樹的時候,需要隨機訪問一個行索引到葉子索引的數組,並且不同特徵訪問的順序也不一樣,也會造成較大的cache miss。爲了解決緩存命中率低的問題,XGBoost 提出了緩存訪問算法進行改進。而 LightGBM 所使用直方圖算法對 Cache 天生友好:

  • 首先,所有的特徵都採用相同的方式獲得梯度(區別於XGBoost的不同特徵通過不同的索引獲得梯度),只需要對梯度進行排序並可實現連續訪問,大大提高了緩存命中率;

  • 其次,因爲不需要存儲行索引到葉子索引的數組,降低了存儲消耗,而且也不存在 Cache Miss的問題。

7. LightGBM的實戰應用

Lightgbm實戰部分,我們先用Lightgbm做一個波士頓房價預測的任務, 這個任務比較簡單,用lightgbm有點大材小用的感覺,但是在這裏就是想看看Lightgbm到底應該如何使用,如何訓練預測和調參等。其實在複雜的數據上也是這樣的使用方法,而波士頓房價數據集不用過多的數據預處理內容,在sklearn直接有,導入數據直接建立模型即可。所以這裏才考慮使用一個簡單的數據集,既能說明問題,也能節省時間,還能節省篇幅。  然後我們再用sklearn的乳腺癌數據看看lightgbm應該怎麼調參。這兩部分稱爲基本使用和調參技術。

7.1 lightgbm的基本使用

Lightgbm支持兩種形式的調用接口:原生形式和sklearn接口的形式。所以接下來我們用波士頓房價的數據集先來看看這兩種接口應該怎麼使用:

  1. 原生形式使用lightgbm

    import lightgbm as lgb
    from sklearn.metrics import mean_squared_error
    from sklearn.datasets import load_boston
    from sklearn.model_selection import train_test_split
     
    boston = load_boston()
    data = boston.data
    target = boston.target
    X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
     
    # 創建成lgb特徵的數據集格式
    lgb_train = lgb.Dataset(X_train, y_train)
    lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)
     
    # 將參數寫成字典下形式
    params = {
        'task': 'train',
        'boosting_type': 'gbdt',  # 設置提升類型
        'objective': 'regression',  # 目標函數
        'metric': {'l2', 'auc'},  # 評估函數
        'num_leaves': 31,  # 葉子節點數
        'learning_rate': 0.05,  # 學習速率
        'feature_fraction': 0.9,  # 建樹的特徵選擇比例
        'bagging_fraction': 0.8,  # 建樹的樣本採樣比例
        'bagging_freq': 5,  # k 意味着每 k 次迭代執行bagging
        'verbose': 1  # <0 顯示致命的, =0 顯示錯誤 (警告), >0 顯示信息
    }
     
    # 訓練 cv and train
    gbm = lgb.train(params, lgb_train, num_boost_round=20, valid_sets=lgb_eval, early_stopping_rounds=5)
     
    # 保存模型到文件
    #gbm.save_model('model.txt')
    joblib.dump(lgb, './model/lgb.pkl')
     
    # 預測數據集
    y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)
     
    # 評估模型
    print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)
    
  2. sklearn接口形式的Lightgbm

    # 加載數據
    boston = load_boston()
    data = boston.data
    target = boston.target
    X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
     
    # 創建模型,訓練模型
    gbm = lgb.LGBMRegressor(objective='regression', num_leaves=31, learning_rate=0.05, n_estimators=20)
    gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], eval_metric='l1', early_stopping_rounds=5)
     
    # 測試機預測
    y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration_)
     
    # 模型評估
    print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)
     
    # feature importances
    print('Feature importances:', list(gbm.feature_importances_))
     
    # 網格搜索,參數優化
    estimator = lgb.LGBMRegressor(num_leaves=31)
    param_grid = {
        'learning_rate': [0.01, 0.1, 1],
        'n_estimators': [20, 40]
    }
    gbm = GridSearchCV(estimator, param_grid)
    gbm.fit(X_train, y_train)
    print('Best parameters found by grid search are:', gbm.best_params_)
    

7.2 Lightgbm調參

Lightgbm的參數非常多,有核心參數,學習控制參數,IO參數,目標函數參數,度量參數等很多,但是我們調參的時候不需要關注這麼多,只需要記住常用的關鍵的一些參數即可,下面從四個問題的維度整理一些調參的指導:

  • 針對leaf-wise樹的參數優化

    • num_leaves:控制了葉節點的數目。它是控制樹模型複雜度的主要參數。如果是level-wise,則該參數爲,其中depth爲樹的深度。但是當葉子數量相同時,leaf-wise的樹要遠遠深過level-wise樹,非常容易導致過擬合。因此應該讓num_leaves小於。在leaf-wise樹中,並不存在depth的概念。因爲不存在一個從leaves到depth的合理映射。

    • min_data_in_leaf: 每個葉節點的最少樣本數量。它是處理leaf-wise樹的過擬合的重要參數。將它設爲較大的值,可以避免生成一個過深的樹。但是也可能導致欠擬合。

    • max_depth:控制了樹的最大深度。該參數可以顯式的限制樹的深度。

  • 針對更快的訓練速度

    • 通過設置 bagging_fraction 和 bagging_freq 參數來使用 bagging 方法

    • 通過設置 feature_fraction 參數來使用特徵的子抽樣

    • 使用較小的 max_bin

    • 使用 save_binary 在未來的學習過程對數據加載進行加速

  • 獲得更好的準確率

    • 使用較大的 max_bin (學習速度可能變慢)

    • 使用較小的 learning_rate 和較大的 num_iterations

    • 使用較大的 num_leaves (可能導致過擬合)

    • 使用更大的訓練數據

    • 嘗試DART

  • 緩解過擬合

    • 使用較小的 max_bin, 分桶粗一些

    • 使用較小的 num_leaves   不要在單棵樹分的太細

    • 使用 lambda_l1, lambda_l2 和 min_gain_to_split 來使用正則

    • 嘗試 max_depth 來避免生成過深的樹

    • 使用 min_data_in_leaf 和 min_sum_hessian_in_leaf, 確保葉子節點有足夠多的數據

下面就以一個乳腺癌數據的例子,看看我們應該怎麼具體去調參:

LightGBM的調參過程和RF、GBDT等類似,其基本流程如下:

  • 首先選擇較高的學習率,大概0.1附近,這樣是爲了加快收斂的速度。這對於調參是很有必要的。

  • 對決策樹基本參數調參

  • 正則化參數調參

  • 最後降低學習率,這裏是爲了最後提高準確率

下面具體看看:

  1. 第一步:學習率和迭代次數我們先把學習率先定一個較高的值,這裏取 learning_rate = 0.1,其次確定估計器boosting/boost/boosting_type的類型,不過默認都會選gbdt。

    迭代的次數,也可以說是殘差樹的數目,參數名爲n_estimators/num_iterations/num_round/num_boost_round。我們可以先將該參數設成一個較大的數,然後在cv結果中查看最優的迭代次數,具體如代碼。

    在這之前,我們必須給其他重要的參數一個初始值。初始值的意義不大,只是爲了方便確定其他參數。下面先給定一下初始值:

    以下參數根據具體項目要求定:

    'boosting_type'/'boosting': 'gbdt'
    'objective': 'binary'
    'metric': 'auc'
     
    # 以下是選擇的初始值
    'max_depth': 5     # 由於數據集不是很大,所以選擇了一個適中的值,其實4-10都無所謂。
    'num_leaves': 30   # 由於lightGBM是leaves_wise生長,官方說法是要小於2^max_depth
    'subsample'/'bagging_fraction':0.8           # 數據採樣
    'colsample_bytree'/'feature_fraction': 0.8   # 特徵採樣
    

    下面用Lightgbm的cv函數確定

    import pandas as pd
    import lightgbm as lgb
    from sklearn.datasets import load_breast_cancer
    from sklearn.cross_validation import train_test_split
     
    canceData=load_breast_cancer()
    X=canceData.data
    y=canceData.target
    X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0,test_size=0.2)
    params = {    
              'boosting_type': 'gbdt',
              'objective': 'binary',
              'metric': 'auc',
              'nthread':4,
              'learning_rate':0.1,
              'num_leaves':30, 
              'max_depth': 5,   
              'subsample': 0.8, 
              'colsample_bytree': 0.8, 
        }
        
    data_train = lgb.Dataset(X_train, y_train)
    cv_results = lgb.cv(params, data_train, num_boost_round=1000, nfold=5, stratified=False, shuffle=True, metrics='auc',early_stopping_rounds=50,seed=0)
    print('best n_estimators:', len(cv_results['auc-mean']))
    print('best cv score:', pd.Series(cv_results['auc-mean']).max())
    
    # 結果:
    ('best n_estimators:', 188)
    ('best cv score:', 0.99134716298085424)
    

    我們根據以上結果,就可以取n_estimators=188

  2. 第二步:確定max_depth和num_leaves這是提高精確度的最重要的參數。這裏我們引入sklearn裏的GridSearchCV()函數進行搜索

    from sklearn.grid_search import GridSearchCV
    
    params_test1={'max_depth': range(3,8,1), 'num_leaves':range(5, 100, 5)}
                  
    gsearch1 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=6, bagging_fraction = 0.8,feature_fraction = 0.8), 
                           param_grid = params_test1, scoring='roc_auc',cv=5,n_jobs=-1)
    gsearch1.fit(X_train,y_train)
    gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_
    
    
    # 結果:
    ([mean: 0.99248, std: 0.01033, params: {'num_leaves': 5, 'max_depth': 3},
      mean: 0.99227, std: 0.01013, params: {'num_leaves': 10, 'max_depth': 3},
      mean: 0.99227, std: 0.01013, params: {'num_leaves': 15, 'max_depth': 3},
     ······
      mean: 0.99331, std: 0.00775, params: {'num_leaves': 85, 'max_depth': 7},
      mean: 0.99331, std: 0.00775, params: {'num_leaves': 90, 'max_depth': 7},
      mean: 0.99331, std: 0.00775, params: {'num_leaves': 95, 'max_depth': 7}],
     {'max_depth': 4, 'num_leaves': 10},
     0.9943573667711598)
    

    根據結果,我們取max_depth=4, num_leaves=10

  3. 第三步:確定min_data_in_leaf和max_bin

    params_test2={'max_bin': range(5,256,10), 'min_data_in_leaf':range(1,102,10)}
                  
    gsearch2 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,bagging_fraction = 0.8,feature_fraction = 0.8), 
                           param_grid = params_test2, scoring='roc_auc',cv=5,n_jobs=-1)
    gsearch2.fit(X_train,y_train)
    gsearch2.grid_scores_, gsearch2.best_params_, gsearch2.best_score_
    

    這個結果就不顯示了,根據結果,我們取min_data_in_leaf=51,max_bin in=15。

  4. 第四步:確定feature_fraction、bagging_fraction、bagging_freq

     params_test3={'feature_fraction': [0.6,0.7,0.8,0.9,1.0],
                  'bagging_fraction': [0.6,0.7,0.8,0.9,1.0],
                  'bagging_freq': range(0,81,10)
    }
                  
    gsearch3 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51), 
                           param_grid = params_test3, scoring='roc_auc',cv=5,n_jobs=-1)
    gsearch3.fit(X_train,y_train)
    gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_
    
  5. 第五步:確定lambda_l1和lambda_l2

    params_test4={'lambda_l1': [1e-5,1e-3,1e-1,0.0,0.1,0.3,0.5,0.7,0.9,1.0],
                  'lambda_l2': [1e-5,1e-3,1e-1,0.0,0.1,0.3,0.5,0.7,0.9,1.0]
    }
                  
    gsearch4 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51,bagging_fraction=0.6,bagging_freq= 0, feature_fraction= 0.8), 
                           param_grid = params_test4, scoring='roc_auc',cv=5,n_jobs=-1)
    gsearch4.fit(X_train,y_train)
    gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_
    
  6. 第六步:確定 min_split_gain

    params_test5={'min_split_gain':[0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]}
                  
    gsearch5 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51,bagging_fraction=0.6,bagging_freq= 0, feature_fraction= 0.8,
    lambda_l1=1e-05,lambda_l2=1e-05), 
                           param_grid = params_test5, scoring='roc_auc',cv=5,n_jobs=-1)
    gsearch5.fit(X_train,y_train)
    gsearch5.grid_scores_, gsearch5.best_params_, gsearch5.best_score_
    
  7. 第七步:降低學習率,增加迭代次數,驗證模型

    model=lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.01, n_estimators=1000, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51,bagging_fraction=0.6,bagging_freq= 0, feature_fraction= 0.8,
    lambda_l1=1e-05,lambda_l2=1e-05,min_split_gain=0)
    model.fit(X_train,y_train)
    y_pre=model.predict(X_test)
    print("acc:",metrics.accuracy_score(y_test,y_pre))
    print("auc:",metrics.roc_auc_score(y_test,y_pre))
    

這樣會發現, 調完參之後, 比使用默認參數的acc,auc都會有所提高。還有一種是LightGBM的cv函數調參, 這個比較省事,寫好代碼自動尋優,但是需要調參經驗,如何設置一個好的參數範圍, 這個不寫了,篇幅太長,具體的看最後面那個鏈接吧。

關於lightgbm的實戰部分,先說這麼多吧,因爲這個實戰的東西,說再多也是個經驗,遇到不同的問題,不同的數據,得需要不斷的嘗試,況且我用lightgbm實戰的並不太多,經驗不足,所以說再多就可能誤人子弟了。就此打住哈哈。

8. 總結

到這裏終於把Lightgbm說的差不多了,不知不覺依然是整理了這麼多,篇幅和xgboost差不多,因爲這個算法也是超級的重要,面試的時候也會扣得很細,所以能多整理點還是儘量多整理一些。這次我重點放到了算法的原理上面,儘量用白話的語言去描述,關於論文裏面的算法流程圖我可沒敢放上來,但具體的細節還是建議去看原文,這次內容挺多,依然是快速回顧一遍。

講Lightgbm,基本上就是圍繞着快進行的,爲了實現這個目的,lightgbm基於xgboost做了很多的優化,首先,從尋找最優分裂點上,我們說了直方圖算法算法原理,這個可以降低分裂點的數量,然後我們又說了lightgbm的兩大亮點技術GOSS和EFB的算法原理, 前者是爲了降低樣本的數量,後者是爲了減少特徵的數量,這樣從這三個角度lightgbm降低了xgboost在尋找最優分裂點上的複雜度,從而實現了快。然後Lightgbm又從樹的生長策略上對xgboost進行了優化,使用了Leaf-wise實現了高精度。最後工程上Lightgbm首次支持類別特徵,並且在並行方式上也做了很多的優化,然後就是提高了cache的命中率,這些方式都提高了lightgbm的訓練速度,所以相比於xgboost,快,更快,越來越快 ;)  後面作爲收尾,依然是給出了一個實戰示例,並整理了一些調參技術。

下面就與xgboost對比一下,總結一下lightgbm的優點作爲收尾, 從內存和速度兩方面總結:

  1. 內存更小

  • XGBoost 使用預排序後需要記錄特徵值及其對應樣本的統計值的索引,而 LightGBM 使用了直方圖算法將特徵值轉變爲 bin 值,且不需要記錄特徵到樣本的索引,將空間複雜度從 O(2*#data) 降低爲 O(#bin) ,極大的減少了內存消耗;

  • LightGBM 採用了直方圖算法將存儲特徵值轉變爲存儲 bin 值,降低了內存消耗;

  • LightGBM 在訓練過程中採用互斥特徵捆綁算法減少了特徵數量,降低了內存消耗。

  • 速度更快

    • LightGBM 採用了直方圖算法將遍歷樣本轉變爲遍歷直方圖,極大的降低了時間複雜度;

    • LightGBM 在訓練過程中採用單邊梯度算法過濾掉梯度小的樣本,減少了大量的計算;

    • LightGBM 採用了基於 Leaf-wise 算法的增長策略構建樹,減少了很多不必要的計算量;

    • LightGBM 採用優化後的特徵並行、數據並行方法加速計算,當數據量非常大的時候還可以採用投票並行的策略;

    • LightGBM 對緩存也進行了優化,增加了 Cache hit 的命中率。

    好了,lightgbm的故事就先到這裏了, 希望能對你有所幫助,本文依然是拋磚引玉, 還是建議去看看原文,畢竟這個算法還是超級重要的,面試的時候也會摳得很細, 不看原文的話有些精華get不到。

    更多精彩內容(請點擊圖片進行閱讀)

    公衆號:AI蝸牛車

    保持謙遜、保持自律、保持進步

    個人微信

    備註:暱稱+學校/公司+方向

    如果沒有備註不拉羣!

    拉你進AI蝸牛車交流羣

    點個在看,麼麼噠!
    
    發表評論
    所有評論
    還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
    相關文章