正則化線性模型+嶺迴歸+lasso迴歸+彈性網絡+糖尿病數據案例分析

原創

晓菜成长记

2020-03-06 16:42

1、嶺迴歸+lasso迴歸+彈性網絡

嶺迴歸的由來以及效果在上一篇博客中已經介紹過了，這裏用另一種方法介紹：
在原損失函數中添加懲罰項，控制擬合參數的大小，即添加正則項。使正則項和原最小二乘法之和達到最小時，求得的參數爲最後解。

lasso添加的正則項稍有不同，彈性網絡則結合了lasso和嶺迴歸。
j

嶺迴歸：

lasso:

彈性網絡：

小結：

嶺迴歸比較常用，當自變量較多時，而有用的變量可能較少時，lasso和彈性網絡更常用。其中彈性網絡應用更爲廣泛，很多時候效果更好。

糖尿病數據案例分析

這裏僅僅展現lasso部分:

library("lars")
data= data.frame(data(diabetes))
diabetes
lar1 = lars(diabetes$x2,as.matrix(diabetes$y))
summary(lar1)
plot(lar1)
lar1$Cp
min(lar1$Cp)
which.min(lar1$Cp)

cv1= cv.lars(diabetes$x2,as.matrix(diabetes$y),K=10)
cv1$index
cv1$cv
cv1$mode#lasso方法

index1 = cv1$index[which.min(cv1$cv)]
coef = coef.lars(lar1,mode="fraction",s=index1)
coef[coef!=0]

coef1 = coef.lars(lar1,mode="step",s=15)
coef1[coef1!=0]

library("msgps")
w=read.csv("diabetes.csv")[,11:75]
y=w[,1];x2=as.matrix(w[,-1])
al=msgps(x2,y,penalty="alasso",gamma=1,lambda=0)
summary(al);plot(al)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

R語言字符處理函數

文章目錄@[toc]描述示例字符處理函數用於處理文本型數據。 nchar() substr() grep() sub() strsplit() paste() toupper() tolower() 描述函數描述

2020-07-05 04:31:27

R語言_針對表格某列進行切割

設置路徑並導入數據 setwd("E:/data_set") datas <- read.csv("Datas.csv") 提取Date數據 Date <- datas["Date"] 切割數據 install.package

2020-07-08 09:52:05

使用R進行描述性統計分析（連續性變量）

使用R進行描述性統計分析（連續性變量）對於描述性統計來說，R可以實現的方法有很多，基礎自帶的有summary()函數，還有其他packages，如Hmisc包，pastecs包，psych包提供了計算更多內容的函數。基礎函數

走在码农路上的医学狗

2020-07-07 16:50:20

Pattern Recognition and Machine Learning（模式識別與機器學習）第一章導讀

持續更新中... ...0引言1、基礎的概念梳理1.1機器學習的學習模式1.2訓練數據與測試數據1.3均方根誤差（RMSE）和MSE均方誤差1.4泛化能力（generalization）1.5預處理（pre-processed）2

2020-07-07 05:35:03

R語言筆記二：向量、向量索引及其運算

1.內置數據集 R中的內置數據集存儲在datasets這個包中，這些數據一般蒐集於真實的調查數據。 help(package=“datasets”)：查看數據集包。 data()：列出所有數據集。直接輸入數據集名字，就可以使用該

取个name太难

2020-07-06 23:34:10

R語言觀察日誌(part4)--paste函數

學習筆記轉載自：R語言中字符串的拼接操作 paste函數在R語言中 paste 是一個很有用的字符串處理函數，可以連接不同類型的變量及常量。函數paste的一般使用格式爲： paste(..., sep = " ", co

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part3)--repeat循環

學習筆記，僅供參考 repeat循環 repeat循環可以重複執行相同的代碼，直到滿足停止條件。語法 repeat { 命令行 if(關係表達式) { break #關係表達式

安财小山羊

2020-07-06 21:42:02

R語言觀察日誌(part5)--利用readr和readxl包讀寫數據

學習筆記，僅供參考利用readr和readxl包讀寫數據讀取數據相關函數函數包readr和readxl提供了一系列的數據讀入功能，主要函數如下： #readr包 read_delim(file, delim

安财小山羊

2020-07-06 21:42:02

R語言-迴歸分析

一元線形迴歸模型：有變量x,y。假設有關係y=c+bx+e,其中c+bx 是y隨x變化的部分，e是隨機誤差。可以很容易的用函數lm()求出迴歸參數b,c並作相應的假設檢驗，如： x<-c(0.10, 0.11,

2020-07-06 11:20:42

決策樹、隨機森林、聚類分析

背景預測新承包商的信用評級，這5個特徵指標分別是： x1 市場份額 x2 客訴率 x3 當年度毛利率 x4 銷售收入佔實收資本比例 x5 淨利潤利用上述五項指標及歷史評級結果的821條樣本數據開發多分類信用評級模型和

2020-07-06 10:28:33

R語言基本技巧

1.清除所有變量【 rm( list=ls() )】

「已注销」

2020-07-06 09:55:17

R語言-安裝ggplot2

>options(CRAN="https://cloud.r-project.org/");>install.packages("ggplot2")#處理日期時間相關的R包，非常有用，強烈推薦>install.packages("lub

2020-07-05 08:11:41

數據治理的十五個最佳實踐

根據2019年的數據管理狀況顯示，數據治理是2019年全球組織機構的前5大戰略計劃之一。由於機器學習和人工智能（AI）等技術趨勢依賴於數據質量，並且隨着全球數字化轉型進程的推進，技術趨勢可能不會很快改變。因此，我們希望提高對數據治理的認

2020-07-08 05:03:59

爲何需要數據血緣解決方案

在數據Show的這期節目中，記者採訪了Stitch Fix的軟件工程師Neelesh Salian，該公司結合了機器學習和人類專業知識進行了個性化購物的研究探索。隨着公司將機器學習集成到其產品和系統中，關鍵基礎技術開始發揮作用。這並不意外

2020-07-08 05:03:59

數據中臺行業應用與實踐

智領雲第六次技術直播如約而至。智領雲科技解決方案架構師文徵就數據中臺的行業應用與實踐與與會的觀衆進行了深入細緻的交流。在前五次的直播中，智領雲科技的諸多技術大咖們分別對數據中臺的一些概念、方法論以及底層所涉及到的技術，都做了很詳細的講

2020-07-08 05:03:59

24小時熱門文章

最新文章

最新評論文章