機器學習

機器學習

原創

2019-05-01 00:59

機器學習基本術語

屬性(attribute)/特徵(feature)： 反映事件或對象在某方面的表現或性質的事項。
屬性值(attribute value)/特徵值(feature value)： 屬性的取值。
屬性空間(attribute space)： 屬性張成的空間。也稱樣本空間、輸入空間。
特徵向量(feature vector)： 一個樣本的N項特徵在N維空間上的一個向量。
學習(learning)/訓練(training)： 從給定數據中學得模型的過程。
訓練數據(training data)： 訓練中使用的數據。
訓練樣本(training sample)： 每一組訓練數據就是訓練樣本。
訓練集(training set)： 由訓練樣本構成的集合就是訓練集。
標記(label)： 樣本的實際結果，類似於貓狗分類中，給出一個樣本數據，這個樣本到底是貓還是狗的這樣一個結果。
樣例(example)： 具有標記信息的示例叫做樣例。
標記空間(label space)： 所有標記的集合，也稱爲輸出空間。
分類(classification)： 預測的是離散值。
迴歸(regression)： 預測的是連續值。
二分類(binary classification)： 只涉及兩個類別的分類。通常稱一個類是“正類(positive class)”，另一個類是“反類(negative class)”，也稱“負類”。
多分類(multi-class classification)： 涉及多個類別的分類。
測試(testing)： 學得模型後，使用它對數據進行預測的過程。
測試樣本/示例(testing sample/instance)： 被預測的樣本。
聚類(clustering)： 將物理或抽象對象的集合(無標記的)分成由類似的對象組成的多個類的過程。
簇(cluster)： 聚類形成的每個類就是簇。
監督學習(supervised learning)： 訓練數據有標記信息。例如，分類和迴歸。
無監督學習(unsupervised learning)： 訓練數據無標記信息。例如，聚類。
泛化(generalization)： 訓練所得模型對於新樣本的適應能力。模型的泛化能力越強，它就越能適應整個樣本空間。
分佈(distribution)： 樣本空間中全體樣本服從的一個未知的規律。
獨立同分布(independent and identically distributed)： 獲得的每個樣本都是獨立地從這個分佈上採樣獲得的。
歸納(induction)： 從特殊到一般的“泛化”(generalization)過程，即從具體的事實歸結出一般性或者概括性的規律。例如，“從樣本中學習”，通過給定的樣本歸納出這一類事物的規律，這就是歸納的過程。
演繹(deduction)： 從一般到特殊的“特化”(specialization)過程，從既有的普遍性結論或一般性事理，推導出個別性結論。例如，“數學公理系統中”，通過一組公理和推理規則爲推導出與之相恰的定理，就是演繹過程。
版本空間(version space)： 存在一個與訓練集一致的“假設集合”，這個假設集合就是版本空間。
把學習過程看作一個在所有假設(hypothesis)組成的空間中進行搜索的過程，搜索目標是找到與訓練集“匹配(fit)”的假設。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習基本術語

Wireshark 安裝+使用（一）

使用Visual Studio Code開發前端

Unity 3D在Linux系統下的安裝

C++與C#通信 bind socket failed！

一、雲計算基礎1-數據中心發展階段

Excel如何安裝VBA？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結