raw 數據——>能被學習的數據的過程:特徵工程
分類:離散的輸出空間
迴歸:連續的輸出空間
線性分類器:
D維的空間映射到K維的空間的空間,W=W*D維
向量的點積:其物理意義是計算兩個變量之間的相關度和相似性
softmax:輸出的是概率空間
是一個獨熱編碼列向量,也是列向量
所以,,
數據損失,過擬合的風險
L2Norm:在相同結果的原則下,優先選擇權重小的值,原因:不希望輸入變化一點點時帶來很大的輸出變化。
L1 norm的形式相當於做一次特徵選擇,W爲0時相當於把一部分特徵過濾掉了,LASSO,
a:0.1-0.3
當模型參數遠遠大於樣本個數時,容易過擬合(方程個數大於未知數)
1.測試時不做dropout,相當於做了融合,能夠提高預測能力
batch-size的大小影響loss的幅度,要讓loss變小,batch-size需要增大
增加訓練的數據
embedding: 語義相關性
特徵關聯
FM layer:幹特徵工程的事=Dense embedding中的特徵之間的內積