機器學習2018-12-28

機器學習組成
主要任務
分類（classification）：將實例數據劃分到合適的類別中。
應用實例：判斷網站是否被黑客入侵（二分類），手寫數字的自動識別（多分類）
迴歸（regression）：主要用於預測數值型數據
應用實例：股價價格波動的預測，房屋價格的預測等。

監督學習（superviesd learning）
必須確定目標變量的值，以便機器學習算法可以發現特徵和目標變量之間的關係。在監督學習中，給定一組數據，我們知道正確的輸出結果應該是什麼樣子，並且知道在輸入和輸出之間有着一個特定的關係。（包括：分類和迴歸）
樣本集：訓練數據+測試數據
訓練樣本=特徵（feature）+目標變量（label：分類-離散值/迴歸-連續值）
特徵通常是訓練樣本集的列，它們是獨立測量得到的。
目標變量：目標變量是機器學習預測算法的測試結果。
在分類算法中目標變量的類型通常是標稱型（如：真與假），二組迴歸算法中通常是連續型（如：1~100）。
監督學習需要注意的問題：
偏置方差權衡
功能的複雜性和數量的訓練數據
輸入空間的維數
噪聲中的輸出值

非監督學習（unsupervised learning）
在機器學習，無監督學習的問題是，在未加標籤的數據中，試圖找到隱藏的結構。因爲提供給學習者的實例是未標記的，因此沒有錯誤或報酬信號來評估潛在的解決方案。
無監督學習是密切相關的統計數據密度估計的問題。然而無監督學習還包括尋求，總結和解釋數據的主要特點等諸多技術。在無監督學習使用的許多方法是基於用於處理數據的數據挖掘方法。
數據沒有類別信息，也不會給定目標值。
非監督學習包括的類型：
聚類：在無監督學習中，將數據集分成由類似的對象組成多個類的過程稱爲聚類。
密度估計：通過樣本分佈的緊密程度，來估計與分組的相似性。
此外，無監督學習還可以減少數據特徵的難度，以便我們可以使用二維或三維圖形更加直觀地展示數據信息。

k-近鄰算法
k 近鄰算法的輸入爲實例的特徵向量，對應於特徵空間的點；輸出爲實例的類別，可以取多類。k 近鄰算法假設給定一個訓練數據集，其中的實例類別已定。分類時，對新的實例，根據其 k 個最近鄰的訓練實例的類別，通過多數表決等方式進行預測。因此，k近鄰算法不具有顯式的學習過程。

KNN原理
KNN工作原理
1、假設有一個帶有標籤的樣本數據集（訓練樣本集），其中包含每條數據與所屬分類的對應關係。
2、輸入沒有標籤的新數據後，將新數據的每個特徵與樣本集中數據對應的特徵進行比較。
i.計算新數據與樣本數據集中每條數據的距離。
ii.對求得的所有距離進行排序（從小到大，越小表示越相似）。
iii.取前k（k一般小於等於20）個樣本數據對應的分類標籤。
3、求k個數據中出現次數最多的分類標籤作爲新數據的分類。

決策樹原理
決策樹的定義：分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點（node）和有向邊（directed edge）組成。結點有兩種類型：內部結點（internal node）和葉結點（leaf node）。內部結點表示一個特徵或屬性（feature），葉結點表示一個類（labels）。
用決策樹對需要測試的實例進行分類：從根節點開始，對實例的某一特徵進行測試，根據測試結果，將實例分配到其子結點；這時，每一個子結點對應着該特徵的一個取值。如此遞歸地對實例進行測試並分配，直至達到葉結點。最後將實例分配到葉結點的類中。

決策樹須知概念
信息熵&信息增益
熵（entropy）：熵指的是體系的混亂的程度。
信息論中的熵（香農熵）：一種信息的度量方式，表示信息的混亂程度，也就是說：信息越有序，信息熵越低。
信息增益（information gain）：在劃分數據集前後信息發生的變化成爲信息增益。

樸素貝葉斯

貝葉斯決策理論核心思想：選擇具有最高概率的決策。

Logistic迴歸
Logistic 迴歸或者叫邏輯迴歸雖然名字有迴歸，但是它是用來做分類的。其主要思想是: 根據現有數據對分類邊界線(Decision Boundary)建立迴歸公式，以此進行分類。

支持向量機
SVM是一種監督學習算法。
支持向量就是離分隔超平面最近的那些點。

核函數

隨機森林和AdaBoost
三個臭皮匠頂個諸葛亮

線性迴歸
樹迴歸 CART(Classification And Regression Trees，分類迴歸樹)

K-Means（K-均值）聚類算法

使用Apriori算法進行關聯分析
關聯分析是一種在大規模數據集中尋找有趣關係的任務。這些關係可以由兩種形式：
頻繁項集（frequent item sets）：經常出現在一塊的物品的集合。
關聯規則（associational rules）：暗示兩種物品之間可能存在很強的關係。
使用FP-growth算法來高效發現頻繁項集

降維技術
在以下3種降維技術中， PCA的應用目前最爲廣泛，因此本章主要關注PCA。
1、主成分分析(Principal Component Analysis, PCA)
通俗理解：就是找出一個最主要的特徵，然後進行分析。
例如：考察一個人的智力情況，就直接看數學成績就行(存在：數學、語文、英語成績)
因子分析(Factor Analysis)
通俗理解：將多個實測變量轉換爲少數幾個綜合指標。它反映一種降維的思想，通過降維將相關性高的變量聚在一起,從而減少需要分析的變量的數量,而減少問題分析的複雜性
例如：考察一個人的整體情況，就直接組合3樣成績(隱變量)，看平均成績就行(存在：數學、語文、英語成績)
應用的領域：社會科學、金融和其他領域
在因子分析中，我們
假設觀察數據的成分中有一些觀察不到的隱變量(latent variable)。
假設觀察數據是這些隱變量和某些噪音的線性組合。
那麼隱變量的數據可能比觀察數據的數目少，也就說通過找到隱變量就可以實現數據的降維。
獨立成分分析(Independ Component Analysis, ICA)
通俗理解：ICA 認爲觀測信號是若干個獨立信號的線性組合，ICA 要做的是一個解混過程。
例如：我們去ktv唱歌，想辨別唱的是什麼歌曲？ICA 是觀察發現是原唱唱的一首歌【2個獨立的聲音（原唱／主唱）】。
ICA 是假設數據是從 N 個數據源混合組成的，這一點和因子分析有些類似，這些數據源之間在統計上是相互獨立的，而在 PCA 中只假設數據是不相關（線性關係）的。
同因子分析一樣，如果數據源的數目少於觀察數據的數目，則可以實現降維過程。

來源於 ApacheCN

機器學習2018-12-28

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

機器學習2018-12-28

C++調用MySQL實例

Python二維數組初始化陷阱

vector迭代器失效問題

python subprocess

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結