基本術語

基本術語

原創

2018-09-04 15:55

1.一組記錄的集合稱爲一個數據集，其中每條記錄是關於一個對象或事件的描述，稱爲一個“實例”或者“樣本”。

2.屬性（也可以稱爲特徵）：反映事件或對象在某方面的表現或性質的事項。

3.屬性上的取值，稱爲屬性值。

4.由於空間中的每個點對應一個座標向量，因此我們也把一個實例稱爲一個“特徵向量”。

5.從數據中學得模型的過程稱爲“學習”或者“訓練”，這個過程通過執行某個學習算法來完成的。

6.訓練過程中使用的數據稱爲“訓練數據”，其中每個樣本稱爲一個“訓練樣本”。

7.示例結果的信息稱爲“標記”

8.擁有了標記信息的示例（可以理解成：擁有了結果的示例），稱爲“樣例”。

9.如果我們想預測的是離散值，就將此類學習任務稱爲“分類”；

如果我們想預測的是連續值，就將此類學習任務稱爲 “迴歸”。

10.聚類：將訓練集中的樣本分成若干組，每組稱爲一個“簇”，這些自動形成的簇可能對應一些潛在的概念劃分。

需要說明的是，在聚類學習中，我們是事先不知道概念的，而且學習過程中使用的訓練樣本通常不擁有標記信息。

11.根據訓練數據是否擁有標記信息，學習任務可大致劃分爲兩大類：“監督學習”（有標記信息）和“無監督學習”（無標記信息）。

分類和迴歸 是監督學習的代表

聚類是無監督學習的代表

12.需要注意的是，機器學習的目標是使學得的模型能很好的適用於“新樣本”，而不是僅僅在訓練樣本上工作的很好；幾遍對聚類這樣的無監督學習，我們也希望學得的簇劃分能夠適用於沒在訓練集中出現的樣本。

泛化能力：學得模型適用於新樣本的能力。

13.通常假設樣本空間中全體樣本服從一個未知“分佈”，我們獲得的每個樣本都是孤立的從這個分佈上採樣獲得的，即“獨立同分布”。

經過查找資料得到，“獨立同分布”的意思是：在隨機過程中，任何時刻的取值都爲隨機變量，如果這些隨機變量服從同一分佈，並且相互獨立，那麼這些隨機就是獨立同分布的。

隨機變量X1和X2獨立，是指，X1的取值不影響X2的取值，X2的取值也不影響X1的取值

隨機變量X1和X2同分布，是指，X1和X2服從同一分佈，這意味着X1和X2具有相同的分佈律，有相同的分佈函數，相同的方差和期望。

例如：如果實驗條件不變，一系列的拋硬幣的正反面結果是獨立同分布的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.