R筆記之基礎建模技術

1.有監督和無監督
2.誤差極其來源
(1)系統誤差和隨機誤差
(2) 因變量誤差
(3) 自變量誤差
3.數據劃分和再抽樣
數據劃分:將一部分數據預留出來用於模型測試,只用另外的部分數據進行模型訓練。
再抽樣:重複從數據集中抽取樣本並且在不同樣本上擬合模型
,以此得到關於擬合模型的信息。
爲什麼要對數據進行劃分和再抽樣?
爲了避免過度擬合。
過程:
(1)將樣本劃分成訓練集合測試集
(2)使用訓練集擬合模型
(3)將擬合模型用於測試集,評估模型表現
數據劃分方法:
(1)按照結果變量劃分數據
(2)按照預測變量劃分數據
(3)按照實際序列劃分數據
再抽樣方法:bootstrp和交互校驗
4.劃分訓練集合測試集
爲什麼要劃分訓練集?
數據科學家要解決預測問題,從預測模型中得到相應指導決策的推斷。
多少比例的數據用於訓練集?
通常需要考慮兩個因素
(1)樣本量
(2)計算速度
建議(60%,70%,80%這三個比例)
具體如何劃分?
(1)按照結果變量劃分數據
(2)按照自變量劃分
(3)按時間序列劃分
劃分缺陷:
1.由於訓練集合測試集劃分是隨機的,重複這一過程誤差會有波動
2.由於訓練集中只包含原始觀測的一個子集,擬合模型使用的是部分數據。這意味着該過程可能過度估計模型誤差。
重抽樣:
目的:
(1)對於有調優參數的模型,能夠找到優化該度量的調優參數
(2)對於不含有調優參數 模型,可以通過重抽樣考察模型擬合結果的穩定性,也可以用於檢驗模型在和訓練集無關的樣本上的表現。
重抽樣方法:(詳解會有單獨篇章介紹)
(1)K折交叉驗證
(2)Bootstrap方法

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章