部分基本數學概念記錄

1. 統計學概念

1.1. 數學期望

數學期望就是平均值,描述的是樣本集合的中間點

1.2. 標準差

描述的是樣本集合的各個樣本點到均值的距離之平均

1.3. 方差

方差就是標準差的平方

1.4. 協方差

標準差和方差一般是用來描述一維數據的,但現實生活中我們常常會遇到含有多維數據的數據集,協方差來度量各個維度偏離其均值的程度(公式參照方差定義)

協方差的結果有什麼意義呢?如果結果爲正值,則說明兩者是正相關的(從協方差可以引出“相關係數”的定義);如果結果爲負值, 就說明兩者是負相關;如果爲0,則兩者之間沒有關係,就是統計上說的“相互獨立”。

1.5. 協方差矩陣

協方差只能處理二維問題,那維數多了自然就需要計算多個協方差,比如n維的數據集就需要計算個協方差,那自然而然我們會想到使用矩陣來組織這些數據。給出協方差矩陣的定義:

舉一個三維的例子,假設數據集有三個維度,那麼協方差矩陣爲:

可見協方差矩陣是一個對稱矩陣(因爲cov(x,y)=cov(y,x)),而且對角線是各個維度的方差。

1.6. 均方誤差

MSE: Mean Squared Error 
均方誤差是指參數估計值與參數真值之差平方的期望值; 
MSE可以評價數據的變化程度,MSE的值越小,說明預測模型描述實驗數據具有更好的精確度。

1.7. 均方根誤差

RMSE 
均方根誤差:均方根誤差是均方誤差的算術平方根

1.8. 平均絕對誤差

MAE :Mean Absolute Error 
平均絕對誤差是絕對誤差的平均值 
平均絕對誤差能更好地反映預測值誤差的實際情況.

2. 線性代數部分

2.1. 向量的COS相似度計算

餘弦距離,也稱爲餘弦相似度,是用向量空間中兩個向量夾角的餘弦值作爲衡量兩個個體間差異的大小的度量。餘弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"餘弦相似性"。

在向量表示的三角形中,假設a向量是(x1, y1),b向量是(x2, y2),那麼可以將餘弦定理改寫成下面的形式:

向量a和向量b的夾角θ的餘弦計算如下:

如果向量a和b不是二維而是n維,上述餘弦的計算法仍然正確。假定a和b是兩個n維向量,則a與b的夾角θ的餘弦等於:

餘弦距離使用兩個向量夾角的餘弦值作爲衡量兩個個體間差異的大小。相比歐氏距離,餘弦距離更加註重兩個向量在方向上的差異。

發佈了65 篇原創文章 · 獲贊 9 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章