Google 機器學習術語表 Part 4 of 4

文章目錄

1. 背景

Google出了一份機器學習術語表，列出了一般的機器學習術語和 TensorFlow 專用術語的定義，並且翻譯成了中文，對理解機器學習中的術語很有幫助，於是我把它轉載過來，方便學習和記錄，這一篇是首字母R-W的內容。

原文鏈接：https://developers.google.cn/machine-learning/glossary/?hl=zh-CN

19. R

19.1. 等級 (rank)

機器學習中的一個多含義術語，可以理解爲下列含義之一：

張量中的維數。例如，標量等級爲 0，向量等級爲 1，矩陣等級爲 2。
在將類別從最高到最低進行排序的機器學習問題中，類別的順序位置。例如，行爲排序系統可以將狗狗的獎勵從最高（牛排）到最低（枯萎的羽衣甘藍）進行排序。

19.2. 評分者 (rater)

爲樣本提供標籤的人。有時稱爲"註釋者"。

19.3. 召回率 (recall)

一種分類模型指標，用於回答以下問題：在所有可能的正類別標籤中，模型正確地識別出了多少個？即：

$\text{召回率} = \frac{正例數}{正例數 + 假負例數}$

19.4. 修正線性單元 (ReLU, Rectified Linear Unit)

一種激活函數，其規則如下：

如果輸入爲負數或 0，則輸出 0。
如果輸入爲正數，則輸出等於輸入。

19.5. 迴歸模型 (regression model)

一種模型，能夠輸出連續的值（通常爲浮點值）。請與分類模型進行比較，分類模型會輸出離散值，例如"黃花菜"或"虎皮百合"。

19.6. 正則化 (regularization)

對模型複雜度的懲罰。正則化有助於防止出現過擬合，包含以下類型：

$L_1$ 正則化
$L_2$ 正則化
丟棄正則化
早停法（這不是正式的正則化方法，但可以有效限制過擬合）

19.7. 正則化率 (regularization rate)

一種標量值，以 lambda 表示，用於指定正則化函數的相對重要性。從下面簡化的損失公式中可以看出正則化率的影響：

$\min(\text{損失方程} + \lambda \text{正則化方程})$

提高正則化率可以減少過擬合，但可能會使模型的準確率降低。

19.8. 表示法 (representation)

將數據映射到實用特徵的過程。

19.9. 受試者工作特徵曲線（receiver operating characteristic，簡稱 ROC 曲線）

不同分類閾值下的正例率和假正例率構成的曲線。另請參閱曲線下面積。

19.10. 根目錄 (root directory)

您指定的目錄，用於託管多個模型的 TensorFlow 檢查點和事件文件的子目錄。

19.11. 均方根誤差 (RMSE, Root Mean Squared Error)

均方誤差的平方根。

19.12. 旋轉不變性 (rotational invariance)

在圖像分類問題中，即使圖像的方向發生變化，算法也能成功地對圖像進行分類。例如，無論網球拍朝上、側向還是朝下放置，該算法仍然可以識別它。請注意，並非總是希望旋轉不變；例如，倒置的"9"不應分類爲"9"。

另請參閱平移不變性和大小不變性。

20. S

20.1. SavedModel

保存和恢復 TensorFlow 模型時建議使用的格式。SavedModel 是一種獨立於語言且可恢復的序列化格式，使較高級別的系統和工具可以創建、使用和轉換 TensorFlow 模型。

如需完整的詳細信息，請參閱《TensorFlow 編程人員指南》中的保存和恢復。

20.2. Saver

一種 TensorFlow 對象，負責保存模型檢查點。

20.3. 縮放 (scaling)

特徵工程中的一種常用做法，是指對某個特徵的值區間進行調整，使之與數據集中其他特徵的值區間一致。例如，假設您希望數據集中所有浮點特徵的值都位於 0 到 1 區間內，如果某個特徵的值位於 0 到 500 區間內，您就可以通過將每個值除以 500 來縮放該特徵。

另請參閱標準化。

20.4. scikit-learn

一個熱門的開放源代碼機器學習平臺。請訪問 www.scikit-learn.org。

20.5. 半監督式學習 (semi-supervised learning)

訓練模型時採用的數據中，某些訓練樣本有標籤，而其他樣本則沒有標籤。半監督式學習採用的一種技術是推斷無標籤樣本的標籤，然後使用推斷出的標籤進行訓練，以創建新模型。如果獲得有標籤樣本需要高昂的成本，而無標籤樣本則有很多，那麼半監督式學習將非常有用。

20.6. 序列模型 (sequence model)

一種模型，其輸入具有序列依賴性。例如，根據之前觀看過的一系列視頻對觀看的下一個視頻進行預測。

20.7. 會話 (tf.session)

封裝了 TensorFlow 運行時狀態的對象，用於運行全部或部分圖。在使用底層 TensorFlow API 時，您可以直接創建並管理一個或多個 tf.session 對象。在使用 Estimator API 時，Estimator 會爲您創建會話對象。

20.8. S 型函數 (sigmoid function)

一種函數，可將邏輯迴歸輸出或多項迴歸輸出（對數機率）映射到概率，以返回介於 0 到 1 之間的值。S 型函數的公式如下：

$y = \frac{1}{1 + e^{-\sigma}}$

在邏輯迴歸問題中，非常簡單：

$\sigma = b + w_1 x_1 + w_2 x_2 + \dots + w_n x_n$

換句話說，S 型函數可將 $\sigma$ 轉換爲介於 0 到 1 之間的概率。

在某些神經網絡中，S 型函數可作爲激活函數使用。

20.9. 大小不變性 (size invariance)

在圖像分類問題中，即使圖像的大小發生變化，算法也能成功地對圖像進行分類。例如，無論一隻貓以 200 萬像素還是 20 萬像素呈現，該算法仍然可以識別它。請注意，即使是最好的圖像分類算法，在大小不變性方面仍然會存在切實的限制。例如，對於僅以 20 像素呈現的貓圖像，算法（或人）不可能正確對其進行分類。

另請參閱平移不變性和旋轉不變性。

20.10. softmax

一種函數，可提供多類別分類模型中每個可能類別的概率。這些概率的總和正好爲 1.0。例如，softmax 可能會得出某個圖像是狗、貓和馬的概率分別是 0.9、0.08 和 0.02。（也稱爲完整 softmax。）

與候選採樣相對。

20.11. 稀疏特徵 (sparse feature)

一種特徵向量，其中的大多數值都爲 0 或爲空。例如，某個向量包含一個爲 1 的值和一百萬個爲 0 的值，則該向量就屬於稀疏向量。再舉一個例子，搜索查詢中的單詞也可能屬於稀疏特徵 - 在某種指定語言中有很多可能的單詞，但在某個指定的查詢中僅包含其中幾個。

與密集特徵相對。

20.12. 稀疏表示法 (sparse representation)

一種張量表示法，僅存儲非零元素。

例如，英語中包含約一百萬個單詞。表示一個英語句子中所用單詞的數量，考慮以下兩種方式：

要採用密集表示法來表示此句子，則必須爲所有一百萬個單元格設置一個整數，然後在大部分單元格中放入 0，在少數單元格中放入一個非常小的整數。
要採用稀疏表示法來表示此句子，則僅存儲象徵句子中實際存在的單詞的單元格。因此，如果句子只包含 20 個獨一無二的單詞，那麼該句子的稀疏表示法將僅在 20 個單元格中存儲一個整數。

例如，假設以兩種方式來表示句子"Dogs wag tails."。如下表所示，密集表示法將使用約一百萬個單元格；稀疏表示法則只使用 3 個單元格：

$\text{密集表示法}$

單元格編號	單詞	出現次數
0	a	0
1	aardvark	0
2	aargh	0
3	aarti	0
… 出現次數爲 0 的另外 140391 個單詞
140395	dogs	1
… 出現次數爲 0 的 633062 個單詞
773458	tails	1
… 出現次數爲 0 的 189136 個單詞
962594	wag	1
… 出現次數爲 0 的很多其他單詞

$\text{稀疏表示法}$

單元格編號	單詞	出現次數
140395	dogs	1
773458	tails	1
962594	wag	1

20.13. 稀疏性 (sparsity)

向量或矩陣中設置爲 0（或空）的元素數除以該向量或矩陣中的條目總數。以一個 10x10 矩陣（其中 98 個單元格都包含 0）爲例。稀疏性的計算方法如下：

$\text{稀疏性} = \frac{98}{100} = 0.98$

特徵稀疏性是指特徵向量的稀疏性；模型稀疏性是指模型權重的稀疏性。

20.14. 空間池化 (spatial pooling)

請參閱池化。

20.15. 平方合頁損失函數 (squared hinge loss)

合頁損失函數的平方。與常規合頁損失函數相比，平方合頁損失函數對離羣值的懲罰更嚴厲。

20.16. 平方損失函數 (squared loss)

在線性迴歸中使用的損失函數（也稱爲 $L_2$ 損失函數）。該函數可計算模型爲有標籤樣本預測的值和標籤的實際值之差的平方。由於取平方值，因此該損失函數會放大不佳預測的影響。也就是說，與 $L_1$ 損失函數相比，平方損失函數對離羣值的反應更強烈。

20.17. 靜態模型 (static model)

離線訓練的一種模型。

20.18. 平穩性 (stationarity)

數據集中數據的一種屬性，表示數據分佈在一個或多個維度保持不變。這種維度最常見的是時間，即表明平穩性的數據不隨時間而變化。例如，從 9 月到 12 月，表明平穩性的數據沒有發生變化。

20.19. 步 (step)

對一個批次的向前和向後評估。

20.20. 步長 (step size)

與學習速率的含義相同。

20.21. 隨機梯度下降法 (SGD, stochastic gradient descent)

批次大小爲 1 的一種梯度下降法。換句話說，SGD 依賴於從數據集中隨機均勻選擇的單個樣本來計算每步的梯度估算值。

20.22. 結構風險最小化 (SRM, structural risk minimization)

一種算法，用於平衡以下兩個目標：

期望構建最具預測性的模型（例如損失最低）。
期望使模型儘可能簡單（例如強大的正則化）。

例如，旨在將基於訓練集的損失和正則化降至最低的函數就是一種結構風險最小化算法。

如需更多信息，請參閱 http://www.svms.org/srm/。

與經驗風險最小化相對。

20.23. 步長 (stride)

在卷積運算或池化中，下一個系列的輸入切片的每個維度中的增量。例如，下面的動畫演示了卷積運算過程中的一個 (1,1) 步長。因此，下一個輸入切片是從上一個輸入切片向右移動一個步長的位置開始。當運算到達右側邊緣時，下一個切片將回到最左邊，但是下移一個位置。

前面的示例演示了一個二維步長。如果輸入矩陣爲三維，那麼步長也將是三維。

20.24. 下采樣 (subsampling)

請參閱池化。

20.25. 總結 (summary)

在 TensorFlow 中的某一步計算出的一個值或一組值，通常用於在訓練期間跟蹤模型指標。

20.26. 監督式機器學習 (supervised machine learning)

根據輸入數據及其對應的標籤來訓練模型。監督式機器學習類似於學生通過研究一系列問題及其對應的答案來學習某個主題。在掌握了問題和答案之間的對應關係後，學生便可以回答關於同一主題的新問題（以前從未見過的問題）。請與非監督式機器學習進行比較。

20.27. 合成特徵 (synthetic feature)

一種特徵，不在輸入特徵之列，而是從一個或多個輸入特徵衍生而來。合成特徵包括以下類型：

對連續特徵進行分桶，以分爲多個區間分箱。
將一個特徵值與其他特徵值或其本身相乘（或相除）。
創建一個特徵組合。

僅通過標準化或縮放創建的特徵不屬於合成特徵。

21. T

21.1. 目標 (target)

與標籤的含義相同。

21.2. 時態數據 (temporal data)

在不同時間點記錄的數據。例如，記錄的一年中每一天的冬外套銷量就屬於時態數據。

21.3. 張量 (Tensor)

TensorFlow 程序中的主要數據結構。張量是 N 維（其中 N 可能非常大）數據結構，最常見的是標量、向量或矩陣。張量的元素可以包含整數值、浮點值或字符串值。

21.4. 張量處理單元 (TPU, Tensor Processing Unit)

一種 ASIC（應用專用集成電路），用於優化 TensorFlow 程序的性能。

21.5. 張量等級 (Tensor rank)

請參閱等級。

21.6. 張量形狀 (Tensor shape)

張量在各種維度中包含的元素數。例如，張量 [5, 10] 在一個維度中的形狀爲 5，在另一個維度中的形狀爲 10。

21.7. 張量大小 (Tensor size)

張量包含的標量總數。例如，張量 [5, 10] 的大小爲 50。

21.8. TensorBoard

一個信息中心，用於顯示在執行一個或多個 TensorFlow 程序期間保存的摘要信息。

21.9. TensorFlow

一個大型的分佈式機器學習平臺。該術語還指 TensorFlow 堆棧中的基本 API 層，該層支持對數據流圖進行一般計算。

雖然 TensorFlow 主要應用於機器學習領域，但也可用於需要使用數據流圖進行數值計算的非機器學習任務。

21.10. TensorFlow Playground

一款用於直觀呈現不同的超參數對模型（主要是神經網絡）訓練的影響的程序。要試用 TensorFlow Playground，請前往 http://playground.tensorflow.org。

21.11. TensorFlow Serving

一個平臺，用於將訓練過的模型部署到生產環境。

21.12. 測試集 (test set)

數據集的子集，用於在模型經由驗證集的初步驗證之後測試模型。

與訓練集和驗證集相對。

21.13. tf.Example

一種標準協議緩衝區，旨在描述用於機器學習模型訓練或推斷的輸入數據。

21.14. 時間序列分析 (time series analysis)

機器學習和統計學的一個子領域，旨在分析時態數據。很多類型的機器學習問題都需要時間序列分析，其中包括分類、聚類、預測和異常檢測。例如，您可以利用時間序列分析根據歷史銷量數據預測未來每月的冬外套銷量。

21.15. 訓練 (training)

確定構成模型的理想參數的過程。

21.16. 訓練集 (training set)

數據集的子集，用於訓練模型。

與驗證集和測試集相對。

21.17. 遷移學習 (transfer learning)

將信息從一個機器學習任務遷移到另一個機器學習任務。例如，在多任務學習中，一個模型可以完成多項任務，例如針對不同任務具有不同輸出節點的深度模型。遷移學習可能涉及將知識從較簡單任務的解決方案遷移到較複雜的任務，或者將知識從數據較多的任務遷移到數據較少的任務。

大多數機器學習系統都只能完成一項任務。遷移學習是邁向人工智能的一小步；在人工智能中，單個程序可以完成多項任務。

21.18. 平移不變性 (translational invariance)

在圖像分類問題中，即使圖像中對象的位置發生變化，算法也能成功對圖像進行分類。例如，無論一隻狗位於畫面正中央還是畫面左側，該算法仍然可以識別它。

另請參閱大小不變性和旋轉不變性。

21.19. 負例 (TN, true negative)

被模型正確地預測爲負類別的樣本。例如，模型推斷出某封電子郵件不是垃圾郵件，而該電子郵件確實不是垃圾郵件。

21.20. 正例 (TP, true positive)

被模型正確地預測爲正類別的樣本。例如，模型推斷出某封電子郵件是垃圾郵件，而該電子郵件確實是垃圾郵件。

21.21. 正例率（true positive rate, 簡稱 TP 率）

與召回率的含義相同，即：

$\text{正例率} = \frac{正例數}{正例數 + 假負例數}$

正例率是 ROC 曲線的 y 軸。

22. U

22.1. 無標籤樣本 (unlabeled example)

包含特徵但沒有標籤的樣本。無標籤樣本是用於進行推斷的輸入內容。在半監督式和非監督式學習中，在訓練期間會使用無標籤樣本。

22.2. 非監督式機器學習 (unsupervised machine learning)

訓練模型，以找出數據集（通常是無標籤數據集）中的規律。

非監督式機器學習最常見的用途是將數據分爲不同的聚類，使相似的樣本位於同一組中。例如，非監督式機器學習算法可以根據音樂的各種屬性將歌曲分爲不同的聚類。所得聚類可以作爲其他機器學習算法（例如音樂推薦服務）的輸入。在很難獲取真標籤的領域，聚類可能會非常有用。例如，在反濫用和反欺詐等領域，聚類有助於人們更好地瞭解相關數據。

非監督式機器學習的另一個例子是主成分分析 (PCA)。例如，通過對包含數百萬購物車中物品的數據集進行主成分分析，可能會發現有檸檬的購物車中往往也有抗酸藥。

請與監督式機器學習進行比較。