數據的分析基本知識2

1.SVM(support vector machine):

支持向量機。SVM是一個面向數據的分類算法。目標是爲確定一個分類超平面,從而將不同的數據分隔開。

2.向量的範數

向量的1-範數:各個元素的絕對值之和。

向量的2-範數:每個元素的平方和再開平方根;

向量的無窮範數:

  • 正無窮範數:向量的所有元素的絕對值中最大值。
  • 負無窮範數:向量的所有元素的絕對值的最小值

3.矩陣的範數

      L1範數: 爲x向量各個元素絕對值之和。 
  L2範數: 爲x向量各個元素平方和的1/2次方,L2範數又稱Euclidean範數或Frobenius範數 
  Lp範數: 爲x向量各個元素絕對值p次方和的1/p次方.

1.矩陣的1範數(列模):矩陣的每一列上的元素絕對值先求和,再從中取個最大的(列和最大)

2.矩陣的2-範數(譜模)

3.矩陣的無窮範數(行模):矩陣的每一行上的元素絕對值先求和,再從中取個最大的,(行和最大)

4.矩陣的L0範數:矩陣的非0元素的個數,通常用它來表示稀疏,L0範數越小0元素越多,也就越稀疏。

4.L1和L2正則先驗分別服從什麼分佈

L1是拉普拉斯分佈

L2是高斯分佈

5.監督學習和無監督學習

監督學習:對具有標記的樣本進行學習,以儘可能對訓練樣本集外的數據進行分類預測。

無監督學習:對未標記的樣本進行訓練學習,比發現這些樣本中的結構知識。

6.正則化

正則化是針對過擬合而提出的,以爲在求解模型最優的是一般優化最小的經驗風險,現在在該經驗風險上加入模型複雜度這一項(正則化項是模型參數向量的範數),並使用一個rate比率來權衡模型複雜度與以往經驗風險的權重,如果模型複雜度越高,結構化的經驗風險會越大,現在的目標就變爲了結構經驗風險的最優化,可以防止模型訓練過度複雜,有效的降低過擬合的風險。
  奧卡姆剃刀原理,能夠很好的解釋已知數據並且十分簡單纔是最好的模型。

7.機器學習常見評價指標

AUC(Area under Curve):是一個模型評價指標,用於二分類模型的評價。

Precision、Recall、F-measure、Accuracy的計算 
  首先,我們看如下圖示: 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章