seven老師直播課筆記（7月9號，流水賬式，沒整理）

原創

2019-07-11 11:46

raw 數據——>能被學習的數據的過程：特徵工程

分類：離散的輸出空間
迴歸：連續的輸出空間

線性分類器：
D維的空間映射到K維的空間的空間，W=W*D維
向量的點積：其物理意義是計算兩個變量之間的相關度和相似性

softmax:輸出的是概率空間

$y_i$ 是一個獨熱編碼列向量， $\hat{y_i}$ 也是列向量
所以 $L_i=-y_i.log(\hat{y_i})$ , $y_i=1$ ,

數據損失，過擬合的風險
L2Norm：在相同結果的原則下，優先選擇權重小的值，原因：不希望輸入變化一點點時帶來很大的輸出變化。
L1 norm的形式相當於做一次特徵選擇，W爲0時相當於把一部分特徵過濾掉了，LASSO，

a:0.1-0.3
當模型參數遠遠大於樣本個數時，容易過擬合（方程個數大於未知數）
1.測試時不做dropout，相當於做了融合，能夠提高預測能力
batch-size的大小影響loss的幅度，要讓loss變小，batch-size需要增大

增加訓練的數據

embedding：語義相關性
特徵關聯

FM layer：幹特徵工程的事=Dense embedding中的特徵之間的內積

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.