爲何工業界多用離散邏輯迴歸

在工業界，很少直接將連續值作爲邏輯迴歸模型的特徵輸入，而是將連續特徵離散化爲一系列0、1特徵交給邏輯迴歸模型，這樣做的優勢有以下幾點：

離散特徵的增加和減少都很容易，易於模型的快速迭代；
稀疏向量內積乘法運算速度快，計算結果方便存儲，容易擴展；
離散化後的特徵對異常數據有很強的魯棒性：比如一個特徵是年齡>30是1，否則0。如果特徵沒有離散化，一個異常數據“年齡300歲”會給模型造成很大的干擾；
邏輯回歸屬於廣義線性模型，表達能力受限；單變量離散化爲N個後，每個變量有單獨的權重，相當於爲模型引入了非線性，能夠提升模型表達能力，加大擬合；
離散化後可以進行特徵交叉，由M+N個變量變爲M*N個變量，進一步引入非線性，提升表達能力；
特徵離散化後，模型會更穩定，比如如果對用戶年齡離散化，20-30作爲一個區間，不會因爲一個用戶年齡長了一歲就變成一個完全不同的人。當然處於區間相鄰處的樣本會剛好相反，所以怎麼劃分區間是門學問；
特徵離散化以後，起到了簡化了邏輯迴歸模型的作用，降低了模型過擬合的風險。

李沐曾經說過：模型是使用離散特徵還是連續特徵，其實是一個“海量離散特徵+簡單模型” 同 “少量連續特徵+複雜模型”的權衡。既可以離散化用線性模型，也可以用連續特徵加深度學習。就看是喜歡折騰特徵還是折騰模型了。通常來說，前者容易，而且可以n個人一起並行做，有成功經驗；後者目前看很贊，能走多遠還須拭目以待

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

爲何工業界多用離散邏輯迴歸

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

《Spark官方文檔》Spark操作指南

python3的內建函數

如何設置Scala的ide及配置ide

R語言-data.table包使用(方便自己使用參考)

hive函數_split 字符串分割函數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結