基本術語

1.一組記錄的集合稱爲一個數據集,其中每條記錄是關於一個對象或事件的描述,稱爲一個“實例”或者“樣本”。


2.屬性(也可以稱爲特徵):反映事件或對象在某方面的表現或性質的事項。


3.屬性上的取值,稱爲屬性值


4.由於空間中的每個點對應一個座標向量,因此我們也把一個實例稱爲一個“特徵向量”


5.從數據中學得模型的過程 稱爲“學習”或者“訓練”,這個過程通過執行某個學習算法來完成的。


6.訓練過程中使用的數據稱爲“訓練數據”,其中每個樣本稱爲一個“訓練樣本”。


7.示例結果的信息稱爲“標記


8.擁有了標記信息的示例(可以理解成:擁有了結果的示例),稱爲“樣例”。


9.如果我們想預測的是離散值,就將此類學習任務稱爲“分類”;

  • 只涉及兩個類別的“二分類任務”,通常稱其中一個是“正類”,另一個是“反類”
  • 涉及多個類別時,則稱“多分類”任務

   如果我們想預測的是連續值,就將此類學習任務稱爲 “迴歸”。


10.聚類:將訓練集中的樣本分成若干組,每組稱爲一個“簇”,這些自動形成的簇可能對應一些潛在的概念劃分。

需要說明的是,在聚類學習中,我們是事先不知道概念的,而且學習過程中使用的訓練樣本通常不擁有標記信息。


11.根據訓練數據是否擁有標記信息,學習任務可大致劃分爲兩大類:“監督學習”(有標記信息)和“無監督學習”(無標記信息)。

分類和迴歸 是監督學習的代表

聚類 是無監督學習的代表


12.需要注意的是,機器學習的目標是使學得的模型能很好的適用於“新樣本”,而不是僅僅在訓練樣本上工作的很好;幾遍對聚類這樣的無監督學習,我們也希望學得的簇劃分能夠適用於 沒在訓練集中出現的樣本。

泛化能力:學得模型適用於新樣本的能力。


13.通常假設樣本空間中全體樣本服從一個未知“分佈”,我們獲得的每個樣本都是孤立的從這個分佈上採樣獲得的,即“獨立同分布”。

經過查找資料得到,“獨立同分布”的意思是:在隨機過程中,任何時刻的取值都爲隨機變量,如果這些隨機變量服從同一分佈,並且相互獨立,那麼這些隨機就是獨立同分布的。

隨機變量X1和X2獨立,是指,X1的取值不影響X2的取值,X2的取值也不影響X1的取值

隨機變量X1和X2同分布,是指,X1和X2服從同一分佈,這意味着X1和X2具有相同的分佈律,有相同的分佈函數,相同的方差和期望。

例如:如果實驗條件不變,一系列的拋硬幣的正反面結果是獨立同分布的。



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章