seven老師直播課筆記(7月9號,流水賬式,沒整理)

raw 數據——>能被學習的數據的過程:特徵工程

分類:離散的輸出空間
迴歸:連續的輸出空間

線性分類器:
D維的空間映射到K維的空間的空間,W=W*D維
向量的點積:其物理意義是計算兩個變量之間的相關度和相似性

softmax:輸出的是概率空間

yiy_i是一個獨熱編碼列向量,yi^\hat{y_i}也是列向量
所以Li=yi.log(yi^)L_i=-y_i.log(\hat{y_i}),yi=1y_i=1,

數據損失,過擬合的風險
L2Norm:在相同結果的原則下,優先選擇權重小的值,原因:不希望輸入變化一點點時帶來很大的輸出變化。
L1 norm的形式相當於做一次特徵選擇,W爲0時相當於把一部分特徵過濾掉了,LASSO,

a:0.1-0.3
當模型參數遠遠大於樣本個數時,容易過擬合(方程個數大於未知數)
1.測試時不做dropout,相當於做了融合,能夠提高預測能力
batch-size的大小影響loss的幅度,要讓loss變小,batch-size需要增大

增加訓練的數據

embedding: 語義相關性
特徵關聯

FM layer:幹特徵工程的事=Dense embedding中的特徵之間的內積

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章