第1章 p1-p23 2017-2-20 Mon
模型:泛指從數據中學得的結果
Instance示例(或sample樣本):每條記錄的數據。每條記錄是關於一個事件或對象的描述。
Data set數據集:記錄數據的集合
Attribute屬性(或feature特徵):反映事件或對象在某方面的表現或性質的事項
Attribute value屬性值:屬性上的取值
Attribute space屬性空間(或sample space樣本空間或輸入空間):屬性張成的空間
Feature vector特徵向量:一個示例
D={x1,x2,...,xm}:
示例:m個
D:包含m個示例的數據集
xi=(xi1;xi2;...;xid)
樣本:xi
xi:d維樣本空間中的一個向量
屬性:d個
Dimensionality維數:d:每個示例由d個屬性描述;的維數。
Learning學習(或training訓練):從數據中學得模型的過程;此過程通過執行某個學習算法來完成。
Training data訓練數據:訓練過程中使用的數據
Training sample訓練樣本:訓練過程中使用的每個樣本
Training set訓練集:訓練樣本組成的集合
Hypothesis假設:學得模型對應了關於數據的某種潛在的規律
Ground-truth真相或真實:這種潛在規律自身
學習過程目的:找出或逼近真相
Learner學習器:即模型的別稱;可看作學習算法在給定數據和參數空間上的實例化
Prediction預測:
Label標記:關於示例結果的信息
Example樣例:擁有標記信息的示例
(xi,yi):第i個樣例
yi:示例的標記
Label space標記空間(或輸出空間):所有標記的集合
Classification分類:預測的是離散值的學習任務
Binary classification:只涉及兩個類別的任務,positive class正類,negative class反類
Multi-class classification:多分類任務,
Regression迴歸:預測的是連續值的學習任務
Testing測試:使用學習的模型進行預測的過程
Testing sample測試樣本:被預測的樣本
Clustering聚類:將訓練集中的對象分成若干組
Cluster簇:訓練集中每組稱爲一個簇
學習任務分類——根據訓練數據是否擁有標記信息——supervised learning監督學習(分類&迴歸)
——unsupervised learning無監督學習(聚類)
機器學習的目標:使學得的模型能很好地適用於“新樣本”,而不僅僅在訓練樣本上工作得很好
Generalization泛化(能力):學得模型適用於新樣本的能力
(具有強泛化能力的模型能很好地使用於整個樣本空間)
Specialization特化
D:distribution分佈(未知的)
independent and identically distributed獨立同分布:每個樣本都是獨立地從這個分佈上採樣獲得的
科學推理的兩大基本手段:歸納與演繹
Induction歸納:從特殊到一般的泛化過程;即從具體的事實歸結出一般性規律
Deduction演繹:從一般到特殊的特化過程;即從基礎原理推演出具體狀況
Inductive learning歸納學習<——從樣例中學習
(基於一組公理和推理規則推導出與之相洽的定理)
歸納學習:廣義——從樣例中學習
狹義——從訓練數據中學得概念(concept):又稱概念學習/概念形成
概念學習——最基本的:布爾概念學習:是/否;0/1
機械學習:記住訓練樣本
Hypothesis假設
Fit匹配
Version space版本空間:存在一個與訓練集一致的“假設集合”
Inductive bias(歸納)偏好:機器學習算法在血洗過程中對某種類型假設的偏好
(任何一個有效的機器學習算法必有其歸納偏好,否則將無法產生確定的學習結果)
Feature selection特徵選擇
(歸納偏好:可看作學習算法自身在一個可能很龐大的假設空間中對假設進行選擇的啓發式或價值觀
:對應學習算法本身所做出的關於什麼樣的模型更好的假設)
Occam's razor奧卡姆剃刀:——若有多個假設與觀察一致,則選最簡單的那個
——一種常用的、自然科學研究中最基本的原則)
NFL;No Free Lunch Theorem沒有免費的午餐
(在某些問題上表現好的學習算法,在另一些問題上卻可能不盡如人意,學習算法自身的歸納偏好與問題是否相配,往往會起到決定性的作用)
Artificial intelligence人工智能
People————achievements
A.Newell & H.Simon——Logic Theorist邏輯理論家程序&General Problem Solving通用問題求解程序
John McCarthy約翰. 麥卡錫——人工智能之父
E.A.Feigenbaum(Edward Feigenbaum愛德華. 費根鮑姆)——知識工程之父
A. Samuel(Arthur. Samuel阿瑟. 薩繆爾)——跳棋程序
——————connectionism連接主義學習
F. Rosenblatt——Perceptron感知機
B. Widrow——Adaline
——————symbolism符號主義學習
N. J. Nilson——學習機器
symbolism符號主義學習——decision tree決策樹&基於邏輯的學習
ILP:Inductive Logic Programming歸納邏輯程序設計
Statistical learning統計學習——代表性技術:SVM:Support Vector Machine&kernel methods核方法
深度學習:狹義上:很多層的神經網絡
計算——目的:數據分析
數據科學——核心:通過數據分析來獲得價值(利用大數據)
(美國最尖端科技的研究推進——NASA&DARPA)
crowdsourcing衆包
Data mining數據挖掘——從海量數據中發覺知識
——管理技術:數據庫
——數據分析技術:機器學習&統計學
(數據挖掘:兩大支撐:機器學習&數據庫;統計學通過機器學習對數據挖掘發揮影響)
Transfer learning遷移學習
Learning by analogy類比學習
Deep learning深度學習
Principle of multiple explanations多釋原則
Ensemble learning集成學習
機器學習領域國際學術會議——ICML國際機器學習會議
國際學術期刊——Journal of Machine Learning Research
人工智能領域國際學術會議——AAAI
國際學術期刊——Journal of Artificial Intelligence Research