Google 機器學習術語表 Part 1 of 4

文章目錄

3. B

4. C

1. 背景

Google出了一份機器學習術語表，列出了一般的機器學習術語和 TensorFlow 專用術語的定義，並且翻譯成了中文，對理解機器學習中的術語很有幫助，於是我把它轉載過來，方便學習和記錄，這一篇是首字母A-C的內容。

原文鏈接：https://developers.google.cn/machine-learning/glossary/?hl=zh-CN

2. A

2.1. A/B 測試 (A/B testing)

一種統計方法，用於將兩種或多種技術進行比較，通常是將當前採用的技術與新技術進行比較。A/B 測試不僅旨在確定哪種技術的效果更好，而且還有助於瞭解相應差異是否具有顯著的統計意義。A/B 測試通常是採用一種衡量方式對兩種技術進行比較，但也適用於任意有限數量的技術和衡量方式。

2.2. 準確率 (accuracy)

分類模型的正確預測所佔的比例。在多類別分類中，準確率的定義如下：

$\text{準確率} = \frac{\text{正確的預測數}}{\text{樣本總數}}$

在二元分類中，準確率的定義如下：

$\text{準確率} = \frac{\text{正例數 + 負例數}}{\text{樣本總數}}$

請參閱正例和負例。

2.3. 激活函數 (activation function)

一種函數（例如 ReLU 或 S 型函數），用於對上一層的所有輸入求加權和，然後生成一個輸出值（通常爲非線性值），並將其傳遞給下一層。

2.4. AdaGrad

一種先進的梯度下降法，用於重新調整每個參數的梯度，以便有效地爲每個參數指定獨立的學習速率。如需查看完整的解釋，請參閱這篇論文。

2.5. ROC 曲線下面積 (AUC, Area under the ROC Curve)

一種會考慮所有可能分類閾值的評估指標。

ROC 曲線下面積是，對於隨機選擇的正類別樣本確實爲正類別，以及隨機選擇的負類別樣本爲正類別，分類器更確信前者的概率。

3. B

3.1. 反向傳播算法 (backpropagation)

在神經網絡上執行梯度下降法的主要算法。該算法會先按前向傳播方式計算（並緩存）每個節點的輸出值，然後再按反向傳播遍歷圖的方式計算損失函數值相對於每個參數的偏導數。

3.2. 基準 (baseline)

一種簡單的模型或啓發法，用作比較模型效果時的參考點。基準有助於模型開發者針對特定問題量化最低預期效果。

3.3. 批次 (batch)

模型訓練的一次迭代（即一次梯度更新）中使用的樣本集。

另請參閱批次大小。

3.4. 批次大小 (batch size)

一個批次中的樣本數。例如，SGD 的批次大小爲 1，而小批次的大小通常介於 10 到 1000 之間。批次大小在訓練和推斷期間通常是固定的；不過，TensorFlow 允許使用動態批次大小。

3.5. 偏差 (bias)

距離原點的截距或偏移。偏差（也稱爲偏差項）在機器學習模型中用 b 或 w₀ 表示。例如，在下面的公式中，偏差爲 b：

$y' = b + w_1 x_1 + w_2 x_2 + \dots + w_n x_n$

請勿與預測偏差混淆。

3.6. 二元分類 (binary classification)

一種分類任務，可輸出兩種互斥類別之一。例如，對電子郵件進行評估並輸出"垃圾郵件"或"非垃圾郵件"的機器學習模型就是一個二元分類器。

3.7. 分箱 (binning)

請參閱分桶。

3.8. 分桶 (bucketing)

將一個特徵（通常是連續特徵）轉換成多個二元特徵（稱爲桶或箱），通常根據值區間進行轉換。例如，您可以將溫度區間分割爲離散分箱，而不是將溫度表示成單個連續的浮點特徵。假設溫度數據可精確到小數點後一位，則可以將介於 0.0 到 15.0 度之間的所有溫度都歸入一個分箱，將介於 15.1 到 30.0 度之間的所有溫度歸入第二個分箱，並將介於 30.1 到 50.0 度之間的所有溫度歸入第三個分箱。

4. C

4.1. 校準層 (calibration layer)

一種預測後調整，通常是爲了降低預測偏差的影響。調整後的預測和概率應與觀察到的標籤集的分佈一致。

4.2. 候選採樣 (candidate sampling)

一種訓練時進行的優化，會使用某種函數（例如 softmax）針對所有正類別標籤計算概率，但對於負類別標籤，則僅針對其隨機樣本計算概率。例如，如果某個樣本的標籤爲"小獵犬"和"狗"，則候選採樣將針對"小獵犬"和"狗"類別輸出以及其他類別（貓、棒棒糖、柵欄）的隨機子集計算預測概率和相應的損失項。這種採樣基於的想法是，只要正類別始終得到適當的正增強，負類別就可以從頻率較低的負增強中進行學習，這確實是在實際中觀察到的情況。候選採樣的目的是，通過不針對所有負類別計算預測結果來提高計算效率。

4.3. 分類數據 (categorical data)

一種特徵，擁有一組離散的可能值。以某個名爲 house style 的分類特徵爲例，該特徵擁有一組離散的可能值（共三個），即 Tudor, ranch, colonial。通過將 house style 表示成分類數據，相應模型可以學習 Tudor、ranch 和 colonial 分別對房價的影響。

有時，離散集中的值是互斥的，只能將其中一個值應用於指定樣本。例如，car maker 分類特徵可能只允許一個樣本有一個值 (Toyota)。在其他情況下，則可以應用多個值。一輛車可能會被噴塗多種不同的顏色，因此，car color 分類特徵可能會允許單個樣本具有多個值（例如 red 和 white）。

分類特徵有時稱爲離散特徵。

與數值數據相對。

4.4. 形心 (centroid)

聚類的中心，由 k-means 或 k-median 算法決定。例如，如果 k 爲 3，則 k-means 或 k-median 算法會找出 3 個形心。

4.5. 檢查點 (checkpoint)

一種數據，用於捕獲模型變量在特定時間的狀態。藉助檢查點，可以導出模型權重，跨多個會話執行訓練，以及使訓練在發生錯誤之後得以繼續（例如作業搶佔）。請注意，圖本身不包含在檢查點中。

4.6. 類別 (class)

爲標籤枚舉的一組目標值中的一個。例如，在檢測垃圾郵件的二元分類模型中，兩種類別分別是"垃圾郵件"和"非垃圾郵件"。在識別狗品種的多類別分類模型中，類別可以是"貴賓犬"、“小獵犬”、"哈巴犬"等等。

4.7. 分類不平衡的數據集 (class-imbalanced data set)

一種二元分類問題，在此類問題中，兩種類別的標籤在出現頻率方面具有很大的差距。例如，在某個疾病數據集中，0.0001 的樣本具有正類別標籤，0.9999 的樣本具有負類別標籤，這就屬於分類不平衡問題；但在某個足球比賽預測器中，0.51 的樣本的標籤爲其中一個球隊贏，0.49 的樣本的標籤爲另一個球隊贏，這就不屬於分類不平衡問題。

4.8. 分類模型 (classification model)

一種機器學習模型，用於區分兩種或多種離散類別。例如，某個自然語言處理分類模型可以確定輸入的句子是法語、西班牙語還是意大利語。請與迴歸模型進行比較。

4.9. 分類閾值 (classification threshold)

一種標量值條件，應用於模型預測的得分，旨在將正類別與負類別區分開。將邏輯迴歸結果映射到二元分類時使用。以某個邏輯迴歸模型爲例，該模型用於確定指定電子郵件是垃圾郵件的概率。如果分類閾值爲 0.9，那麼邏輯迴歸值高於 0.9 的電子郵件將被歸類爲"垃圾郵件"，低於 0.9 的則被歸類爲"非垃圾郵件"。

4.10. 聚類 (clustering)

將關聯的樣本分成一組，一般用於非監督式學習。在所有樣本均分組完畢後，相關人員便可選擇性地爲每個聚類賦予含義。

聚類算法有很多。例如，k-means 算法會基於樣本與形心的接近程度聚類樣本，如下圖所示：

之後，研究人員便可查看這些聚類並進行其他操作，例如，將聚類 1 標記爲"矮型樹"，將聚類 2 標記爲"全尺寸樹"。

再舉一個例子，例如基於樣本與中心點距離的聚類算法，如下所示：

4.11. 協同過濾 (collaborative filtering)

根據很多其他用戶的興趣來預測某位用戶的興趣。協同過濾通常用在推薦系統中。

4.12. 混淆矩陣 (confusion matrix)

一種 NxN 表格，用於總結分類模型的預測效果；即標籤和模型預測的分類之間的關聯。在混淆矩陣中，一個軸表示模型預測的標籤，另一個軸表示實際標籤。N 表示類別個數。在二元分類問題中，N=2。例如，下面顯示了一個二元分類問題的混淆矩陣示例：

	腫瘤（預測的標籤）	非腫瘤（預測的標籤）
腫瘤（實際標籤）	18	1
非腫瘤（實際標籤）	6	452

上面的混淆矩陣顯示，在 19 個實際有腫瘤的樣本中，該模型正確地將 18 個歸類爲有腫瘤（18 個正例），錯誤地將 1 個歸類爲沒有腫瘤（1 個假負例）。同樣，在 458 個實際沒有腫瘤的樣本中，模型歸類正確的有 452 個（452 個負例），歸類錯誤的有 6 個（6 個假正例）。

多類別分類問題的混淆矩陣有助於確定出錯模式。例如，某個混淆矩陣可以揭示，某個經過訓練以識別手寫數字的模型往往會將 4 錯誤地預測爲 9，將 7 錯誤地預測爲 1。

混淆矩陣包含計算各種效果指標（包括精確率和召回率）所需的充足信息。

4.13. 連續特徵 (continuous feature)

一種浮點特徵，可能值的區間不受限制。與離散特徵相對。

4.14. 收斂 (convergence)

通俗來說，收斂通常是指在訓練期間達到的一種狀態，即經過一定次數的迭代之後，訓練損失和驗證損失在每次迭代中的變化都非常小或根本沒有變化。也就是說，如果採用當前數據進行額外的訓練將無法改進模型，模型即達到收斂狀態。在深度學習中，損失值有時會在最終下降之前的多次迭代中保持不變或幾乎保持不變，暫時形成收斂的假象。

另請參閱早停法。

另請參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization（《凸優化》）。

4.15. 凸函數 (convex function)

一種函數，函數圖像以上的區域爲凸集。典型凸函數的形狀類似於字母 U。例如，以下都是凸函數：

相反，以下函數則不是凸函數。請注意圖像上方的區域如何不是凸集：

嚴格凸函數只有一個局部最低點，該點也是全局最低點。經典的 U 形函數都是嚴格凸函數。不過，有些凸函數（例如直線）則不是這樣。

很多常見的損失函數（包括下列函數）都是凸函數：

梯度下降法的很多變體都一定能找到一個接近嚴格凸函數最小值的點。同樣，隨機梯度下降法的很多變體都有很高的可能性能夠找到接近嚴格凸函數最小值的點（但並非一定能找到）。

兩個凸函數的和（例如 $L_2$ 損失函數 + $L_1$ 正則化）也是凸函數。

深度模型絕不會是凸函數。值得注意的是，專門針對凸優化設計的算法往往總能在深度網絡上找到非常好的解決方案，雖然這些解決方案並不一定對應於全局最小值。

4.16. 凸優化 (convex optimization)

使用數學方法（例如梯度下降法）尋找凸函數最小值的過程。機器學習方面的大量研究都是專注於如何通過公式將各種問題表示成凸優化問題，以及如何更高效地解決這些問題。

如需完整的詳細信息，請參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization（《凸優化》）。

4.17. 凸集 (convex set)

歐幾里得空間的一個子集，其中任意兩點之間的連線仍完全落在該子集內。例如，下面的兩個圖形都是凸集：

相反，下面的兩個圖形都不是凸集：

4.18. 卷積 (convolution)

簡單來說，卷積在數學中指兩個函數的組合。在機器學習中，卷積結合使用卷積過濾器和輸入矩陣來訓練權重。

機器學習中的"卷積"一詞通常是卷積運算或卷積層的簡稱。

如果沒有卷積，機器學習算法就需要學習大張量中每個單元格各自的權重。例如，用 2K x 2K 圖像訓練的機器學習算法將被迫找出 400 萬個單獨的權重。而使用卷積，機器學習算法只需在卷積過濾器中找出每個單元格的權重，大大減少了訓練模型所需的內存。在應用卷積過濾器後，它只需跨單元格進行復制，每個單元格都會與過濾器相乘。