機器學習技術棧之機器學習基礎

概述

機器學習(Machine Learning,ML) 是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能。它是人工智能的核心，是使計算機具有智能的根本途徑，其應用遍及人工智能的各個領域。
機器學習是用數據或以往的經驗，以此優化計算機程序的性能標準，主要使用歸納、綜合而不是演繹。
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

機器學習已廣泛應用於數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA 序列測序、語音和手寫識別、戰略遊戲和機器人等領域。

數據集的劃分

訓練集（Training set） —— 學習樣本數據集，包含數據標籤/數據特性結構分析，主要用來訓練模型。
驗證集（validation set）—— 用於對構建模型調整和優化。驗證集還用來確定網絡結構或者控制模型複雜程度的參數。
測試集（Test set） —— 測試和評估模型。

模型擬合問題

擬合（Fitting）：泛化。

欠擬合（Underfitting）: 模型沒有很好地捕捉到數據特徵，不能夠很好地擬合數據，對訓練樣本的一般性質尚未學好。一般原因是模型簡單, 數據量/特徵不足。解決辦法一般爲增加特徵, 減少正則化參數, 使用非線性模型, 調整模型的容量等.
過擬合（Overfitting）: 爲了構建準確率比較高的模型，把樣本輔助性質或者噪聲作爲所有數據集的一般性質，導致泛化能力下降。出現原因爲樣本選取有誤, 噪音干擾過大, 參數過於複雜. 解決方案爲正則化, 數據擴增, Dropout等.

常見的模型指標

正確率 —— 提取出的正確信息條數 / 提取出的信息條數
召回率 —— 提取出的正確信息條數 / 樣本中的信息條數
F 值 —— 正確率 * 召回率 * 2 / （正確率 + 召回率）（F值即爲正確率和召回率的調和平均值）

模型

分類問題 —— 說白了就是將一些未知類別的數據分到現在已知的類別中去。評判分類效果好壞的三個指標就是上面介紹的三個指標: 正確率，召回率，F值。
迴歸問題 —— 對數值型連續隨機變量進行預測和建模的監督學習算法。迴歸往往會通過計算誤差（Error）來確定模型的精確性。
聚類問題 —— 聚類是一種無監督學習任務，該算法基於數據的內部結構尋找觀察樣本的自然族羣（即集羣）。聚類問題的標準一般基於距離: 簇內距離（Intra-cluster Distance）和簇間距離（Inter-cluster Distance）。簇內距離是越小越好，也就是簇內的元素越相似越好；而簇間距離越大越好，也就是說簇間（不同簇）元素越不相同越好。一般的，衡量聚類問題會給出一個結合簇內距離和簇間距離的公式。

特徵工程

特徵選擇 —— 也叫特徵子集選擇（FSS，Feature Subset Selection）。是指從已有的 M 個特徵（Feature）中選擇 N 個特徵使得系統的特定指標最優化，是從原始特徵中選擇出一些最有效特徵以降低數據集維度的過程，是提高算法性能的一個重要手段，也是模式識別中關鍵的數據預處理步驟。
特徵提取 —— 特徵提取是計算機視覺和圖像處理中的一個概念。它指的是使用計算機提取圖像信息，決定每個圖像的點是否屬於一個圖像特徵。特徵提取的結果是把圖像上的點分爲不同的子集，這些子集往往屬於孤立的點，連續的曲線或者連續的區域。

機器學習技術棧之機器學習基礎

機器學習技術棧之機器學習基礎

概述

分類

按學習方式

按功能劃分

數據集的劃分

模型擬合問題

常見的模型指標

模型

特徵工程

參考:

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

大數據技術面試題整理(持續更新)

機器學習技術棧之邏輯迴歸(Logistic Regression)

機器學習技術棧之機器學習基礎

安裝tensorflow中 Not Found for url: http://mirrors.aliyun.com/pypi/simple/pkg-resources/ 問題解決

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

機器學習 技術棧 之 機器學習基礎

機器學習 技術棧 之 機器學習基礎

概述

分類

按學習方式

按功能劃分

數據集的劃分

模型擬合問題

常見的模型指標

模型

特徵工程

參考:

機器學習技術棧之機器學習基礎

機器學習技術棧之機器學習基礎