機器學習

機器學習基本術語

屬性(attribute)/特徵(feature): 反映事件或對象在某方面的表現或性質的事項。
屬性值(attribute value)/特徵值(feature value): 屬性的取值。
屬性空間(attribute space): 屬性張成的空間。也稱樣本空間、輸入空間。
特徵向量(feature vector): 一個樣本的N項特徵在N維空間上的一個向量。
學習(learning)/訓練(training): 從給定數據中學得模型的過程。
訓練數據(training data): 訓練中使用的數據。
訓練樣本(training sample): 每一組訓練數據就是訓練樣本。
訓練集(training set): 由訓練樣本構成的集合就是訓練集。
標記(label): 樣本的實際結果,類似於貓狗分類中,給出一個樣本數據,這個樣本到底是貓還是狗的這樣一個結果。
樣例(example): 具有標記信息的示例叫做樣例。
標記空間(label space): 所有標記的集合,也稱爲輸出空間。
分類(classification): 預測的是離散值。
迴歸(regression): 預測的是連續值。
二分類(binary classification): 只涉及兩個類別的分類。通常稱一個類是“正類(positive class)”,另一個類是“反類(negative class)”,也稱“負類”。
多分類(multi-class classification): 涉及多個類別的分類。
測試(testing): 學得模型後,使用它對數據進行預測的過程。
測試樣本/示例(testing sample/instance): 被預測的樣本。
聚類(clustering): 將物理或抽象對象的集合(無標記的)分成由類似的對象組成的多個類的過程。
簇(cluster): 聚類形成的每個類就是簇。
監督學習(supervised learning): 訓練數據有標記信息。例如,分類和迴歸。
無監督學習(unsupervised learning): 訓練數據無標記信息。例如,聚類。
泛化(generalization): 訓練所得模型對於新樣本的適應能力。模型的泛化能力越強,它就越能適應整個樣本空間。
分佈(distribution): 樣本空間中全體樣本服從的一個未知的規律。
獨立同分布(independent and identically distributed): 獲得的每個樣本都是獨立地從這個分佈上採樣獲得的。
歸納(induction): 從特殊到一般的“泛化”(generalization)過程,即從具體的事實歸結出一般性或者概括性的規律。例如,“從樣本中學習”,通過給定的樣本歸納出這一類事物的規律,這就是歸納的過程。
演繹(deduction): 從一般到特殊的“特化”(specialization)過程,從既有的普遍性結論或一般性事理,推導出個別性結論。例如,“數學公理系統中”,通過一組公理和推理規則爲推導出與之相恰的定理,就是演繹過程。
版本空間(version space): 存在一個與訓練集一致的“假設集合”,這個假設集合就是版本空間。
把學習過程看作一個在所有假設(hypothesis)組成的空間中進行搜索的過程,搜索目標是找到與訓練集“匹配(fit)”的假設。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章