Where does the error come from 誤差來自哪裏?
一:
提出問題: 不同的model對同一個testing data的performance是不同的,而且不一定越複雜的model表現越好,Error來自哪裏?
答案:Error 的來源主要是來自 bias 或者 variance
二:
提出問題:what is bias and variance?
答案: Bias:槍瞄的準不準,最後的期望值能夠落在目標上
即模型的期望輸出與其真實輸出之間的差異。 bias越小,越接近靶心。
Variance:槍性能好不好,打的散不散。
即方差表示數據的離散程度。越小越聚集
三:
提出問題:how bias and variance working?
答案:
bias:簡單model,大的bias
複雜model,小的bias,接近靶心
variance:越簡單的模型,受訓練數據的影響越小
四:
提出問題: bias v.s. variance
答案:
1. error來自bias會欠擬合
error來自variance會過擬合
2.簡單的model,bias大,variance小
複雜的model,bias小,variance大
五:
提出問題:大的bias,大的variance怎麼處理?
答案:首先判斷
1.如果您的模型不能匹配訓練樣例--------------->大的bias
2.如果你能擬合訓練數據,但測試數據誤差較大------------》較大的variance
解決:
對於bias:重新設計你的model ,可增加更多的特性作爲輸入,可使用更復雜的模型。
對於variance:最有效的方法首先是增加訓練數據,其次是Regularization(在調整regularization的位置在variance和bias中取得平衡)
六:
提出問題:如何選擇model?
答案:1.把training set 分爲 training set 和validation set ,先把各個model在trainingset套用後,看在validation上的error
2. 交叉驗證,即將全部的數據在選中的模型上驗證
3.此時的error 才代表public set上的error
ps.如果分壞了,或者可以多分