本文是對浙江大學工業過程國家重點實驗室趙春暉課題組最新論文：Fault Description Based Attribute Transfer for Zero-Sample Industrial Fault Diagnosis, IEEE TII, 2020 的翻譯與解讀，全文閱讀約10～20分鐘。

Abstract

文章提出了一種極具挑戰性的故障診斷研究任務，即考慮在沒有目標故障樣本可用於訓練的情況下進行建模。這種情形在工業領域是很普遍的，但之前幾乎沒有過相關的研究，這限制了傳統的數據驅動方法在實際過程中的應用。在文章中，作者將零樣本學習的理念引入了工業過程，通過提出基於故障描述的屬性遷移方法來解決這一零樣本故障診斷任務。

具體來說，該方法學習使用人工定義的故障描述而不是收集的故障樣本來確定故障類別。定義的故障描述由故障的一些屬性組成，包括故障位置，故障影響，甚至故障的原因等。對於目標故障而言，其相關屬性可以從同一工業過程的其餘故障的描述中預先學習和遷移得到。接着，便可以在無需其他任何數據訓練的情形下，基於定義的故障描述診斷目標故障。另外，論文中的方法採用有監督的主成分分析方法提取與屬性相關的特徵以提供有效的屬性學習。

文章從理論上分析和解釋了基於故障描述方法的有效性和可行性。首次基於經典的田納西-伊斯曼過程和真實的百萬千瓦火電過程設計了零樣本情形下的故障診斷實驗，結果表明在沒有樣本的情況下診斷目標故障是確實可能的。

關鍵詞：故障診斷，故障描述，機器學習，零樣本學習，工業過程，遷移學習

一、Introduction

故障診斷和分類是大型工業維護的重要任務[1]、[2]，爲了提高對各種故障的診斷能力，人們提出了大量的數據驅動方法[3]、[4]。傳統的基於分類算法的故障診斷包括三個階段：數據採集、特徵提取和故障分類[5]。在第一個數據採集步驟中，工廠會安裝許多傳感器來收集日常運行中的故障信號。特徵提取則通常採用矩陣分解方法[6]、時頻分析[7]和卷積神經網絡[8]、[9]等來實現降維和去噪。在最後一個分類步驟中，將提取的特徵作爲輸入，得到用於故障診斷的機器學習模型[10]。然而，這三步流程更像是實驗室的規則，而不是實踐中的期望。因爲對於日常流程操作中出現的目標故障，更常見的工業場景是沒有或很少有故障數據可用。考慮到許多故障可能具有破壞性並會造成巨大損失，很少有工廠會被允許運行到故障狀態並採集樣本來訓練故障診斷系統[11]。同時，機器通常會經歷一個從健康到故障的逐漸退化過程，這也表明爲數據驅動方法獲取足夠的故障樣本是費時費力的[12]。

爲了克服爲某些故障採集樣本的困難，一種可接受的方法是將從一些容易獲得或歷史故障（訓練故障）中學到的知識應用於那些難以或昂貴採集的故障（目標故障）[13]、[14]。因此，Lu等人[15] 將深度神經網絡與最大均方差項相結合，提出了一種無需目標故障樣本的高精度故障診斷深度遷移學習方法。Long等人[16]也使用了稀疏自動編碼器來訓練深度域自適應模型。然而，對於深度遷移學習[17]而言，在訓練域中已經準備好了與目標故障同樣的故障。雖然目標域的故障不需要訓練樣本，但深度遷移學習實際上解決的是訓練域和目標域之間的域偏移問題，而不是文章所考慮的零樣本問題。此外，故障樹分析[18]、[19]也是一種典型的工業場景分析方法，它根據一些基本故障來診斷系統故障。它被成功地應用於瞭解系統故障的原因，並找到降低風險的最佳方法，或確認故障的發生率[20]，[21]。然而，當將故障樹分析應用於定量分析時，專家系統通常需要基本故障的頻率。這意味着某些目標故障的記錄（樣本）已經準備好，同樣也不符合零樣本的要求。

最近，Lampert等人[22]在零樣本動物識別的任務中提出了新穎的方法。在該任務中，規定測試階段出現的動物類別是沒有訓練圖片的。Lampert沒有直接訓練分類算法，而是利用非線性支持向量機來學習動物的屬性，即“顏色”和“形狀”等，並利用訓練好的向量機來預測其他動物（測試類別）的屬性。通過這種屬性的遷移檢測出新的動物。這種方法被稱爲直接屬性預測（DAP）。Lampert等人[23]還從標籤中來學習動物屬性，提出了間接屬性預測（IAP）方法。此外，在零樣本學習中，還有利用匹配度函數和平方損失來學習圖像與屬性之間映射的方法。Akata等人[24]通過找到產生最高相容性得分的標籤，對圖像進行零樣本分類。以及Romera Paredes等人[25]提出了一種非常簡單的零樣本學習方法，將特徵、屬性和類之間的關係建模爲基於平方損失的兩層線性網絡。從目標屬性中學習目標的零樣本學習[26]爲零樣本故障診斷問題提供了一種可能的解決方案。但是，當它應用到故障診斷任務時，是沒有圖像可用於獲取各種故障的“顏色”或“形狀”等屬性。這些視覺屬性並不適用於工業傳感器信號，零樣本故障診斷任務需要更有效的輔助信息。

當我們在實踐中學習一種新的故障時，首先往往注意到的是故障的特徵和語義描述，而不是樣本的數值多少。例如，從描述“一種由管道、聯軸器和閥門相連，用於輸送固體顆粒、氣體或液體的裝置”，我們可以在根本看不見的情況下認識到“管道”對象。此外，當人們被告知“管道中的流體流動停止或異常緩慢”時，他們知道存在“管道堵塞”故障。因此，用結論良好的描述代替樣本來診斷和識別各種故障在直觀上是可行的。人爲定義的故障描述是故障類別識別的有力信息。工業故障的每一種描述通常包含若干屬性，包括故障的影響、故障的位置、故障的原因等。顯然，有許多可能的屬性，但是，人們定義的屬性往往是超越故障類別界限的[22]，[23]。例如，“磨煤機軸承異常振動”故障和“磨煤機盤管溫升”故障都發生在“磨煤機”上。我們可以利用現有的訓練數據，將“磨煤機”上也出現的其他幾種故障類別的樣本合併，對“磨煤機”這一屬性爲了學習和識別，並將這些知識應用於目標故障。人們定義的屬性可以被不同的故障共享，這爲從不同故障類別的描述中獲取屬性知識提供了可能。

此外，高維度低密度信息是工業傳感器數據的另一個重要特徵[27]、[28]。統計特徵提取算法[29]，[30]通常被用於有效的數據挖掘和特性揭示。最流行和經典的方法是主成分分析[31]，[32]，它以無監督的方式進行特徵提取。大量的案例研究和前人的工作都證明了它的有效性。然而，對於通常在有監督學習範式中定義的故障診斷任務[33]，有監督主成分分析[34]更有助於目標相關特徵的提取和有效診斷。

總而言之，文章提出基於故障描述的屬性遷移方法，研究了目標故障類別沒有訓練樣本的故障診斷任務。該方法不採用傳統的診斷範式，而是爲每個故障提供由屬性組成的故障描述作爲輔助信息。這一故障描述層嵌入在故障樣本層和故障類別層之間。基於故障描述層的細粒度類共享屬性，構建了一個級聯診斷系統，用於將訓練故障的屬性知識遷移到目標故障進行零樣本的故障診斷。在基於故障描述的方法中，我們還採用有監督的主成分分析作爲特徵提取器，爲更有效的學習過程提供與屬性相關的特徵。

文章的主要貢獻總結如下：

 1. 第一次總結了零樣本故障診斷任務，嘗試在沒有樣本的情況下診斷目標故障

 2. 提出了以故障描述爲輔助知識源的方法，以從訓練故障到目標故障進行屬性遷移的方式實現了零樣本的故障診斷

文章的其餘部分安排如下。在第二節中，我們將零樣本診斷問題公式化。第三節提出了基於故障描述的屬性遷移方法，並對其進行了可行性分析。在第四節中，零樣本故障診斷任務和方法在標準的田納西-伊斯曼過程和真實的火電廠過程上進行驗證。最後，我們給出了結論和今後的工作。

二、Problem Formulation

2.1 故障描述在向量空間的配置

如上所述，文章總結了每種故障的故障描述，以提供細粒度的類別信息。描述由任意屬性組成，包括故障的影響、故障的位置和故障的原因等。每個屬性是向量空間中的一個維度，故障的描述表示爲 ${\bm{a}}'\in\mathbb{R}^{{C}'}$ ，其中 ${C}'$ 是屬性數。對於 $L$ 類故障，描述矩陣可以表示爲 ${\bm{A}}\in\mathbb{R}^{L\times{C}'}$ 。

這裏採用了獨熱編碼的方法，使 ${\bm{A}}'$ 變爲 $\bm{A}$ 稀疏矩陣 $\bm{A} \in \mathbb{R}^{L\times C} = one hot({\bm{A}}')$ ，其中 $C$ 是獨熱熱編碼的維度。 $\bm{A}$ 中的所有元素都是1或0，這表示該屬性在某個故障類別的描述中是否存在。

2.2 零樣本診斷任務公式化

文章的目標是診斷和識別 $p$ 類故障。目標故障集表示爲 $T=\{T_{1},…,T_{p}\}$ 。但是，我們沒有 $T$ 的訓練樣本。這裏有一些其他可用的故障類別，這些類別表示爲 $S=\{S_{1},…,S_{q}\}$ ，其中 $q$ 是可用的故障類別數量， $T$ 和 $S$ 彼此不相交，即 $T \cap S = \varnothing$ 。 $S$ 的樣本表示爲 $\Im = \{\bm{X}_{S} \in \mathbb{R}^{N_{S} \times D}, \bm{Y} \in \mathbb{R}^{N_{S}}\}$ , 其中 $N_{S}$ 是樣本數， $D$ 是特徵維度。零樣本故障診斷任務需要學習從 $S$ 到 $T$ 之間的映射 $f$ ，其公式如下

Min

\quad CLoss(\bm{Y}_{T},\hat{\bm{Y}}_{T})

, and

\hat{\bm{Y}}_{T}=f(\bm{X}_{S},\bm{Y}_{S}|\bm{X}_{T})

······（1）
其中

\bm{X}_{T}

和

\bm{Y}_{T}

表示測試階段目標故障的樣本和標籤，

CLoss

表示任意分類損失。

在介紹了 $T$ 和 $S$ 的故障描述 $\bm{A}$ 之後，可以將（1）中的目標函數重寫爲

Min

\quad CLoss(\bm{Y}_{T},\hat{\bm{Y}}_{T})

, and

\hat{\bm{Y}}_{T}=f(\bm{X}_{S},\bm{Y}_{S}, \bm{A}|\bm{X}_{T})

········（2）

其中 $\bm{A}=[\bm{A}_{S},\bm{A}_{T}]\in\mathbb{R}^{L\times C}$ 是屬性描述矩陣， $L=p+q$ 。值得一提的是， $S$ 的屬性描述矩陣 $\bm{A}_{S}$ 和 $T$ 的屬性描述矩陣 $\bm{A}_{T}$ 都可用於模型訓練，因爲屬性描述是類級別而不是樣本級別,是容易獲得的公共知識而不是專家知識。

與傳統的數據驅動故障診斷問題相比，零樣本診斷是一個更有意義和挑戰性的任務，其目的是克服爲目標故障類別收集大量樣本的困難。

三、Methodology

如第二節所述，文章的目標是診斷和分類在訓練階段沒有樣本的故障。本節首先提出基於故障描述的屬性遷移方法，繼而給出可行性分析。

3.1 基於故障描述的屬性遷移

對於一般的機器學習模型，如支持向量機或決策樹，它們通常根據故障樣本或提取的特徵，爲每種故障類別學習一個參數向量（或其他表示） $\alpha_{i}$ 來實現分類。顯然，由於目標類 $T=\{T_{1}，…，T{p}\}$ 在訓練階段沒有樣本，無法爲 $T$ 獲取參數向量，他們不可能直接實現零樣本故障診斷任務的從 $S$ 到 $T$ 學習。圖1描述了這種困境

圖1.普通機器學習算法在零樣本診斷任務中的困境：無法爲目標故障獲得參數向量

也就是說，爲了識別沒有訓練樣本的目標故障，學習系統需要從訓練故障中提取與目標故障相關的信息。由於沒有目標故障的訓練數據，這種耦合不能直接從樣本中提取。因此，故障描述 $\bm{A}$ 被用來提供額外的輔助信息，並實現從訓練故障到目標故障的屬性遷移。圖2給出了基於故障描述的零樣本故障診斷方法的基本思想。

圖2. 基於故障描述方法的基本思想。 $N$ 是訓練故障的樣本數， ${N}'$ 是測試階段目標故障的樣本數， $\varphi$ 是有監督主成分分析的映射， $\bm{b}$ 是 $\bm{x}$ 的特徵， $\alpha_{i}（i=1,...,C）$ 是每個屬性的屬性學習器（迴歸器或分類器）， $a_{i}(i=1,...,C)$ 是 $\bm{A}\in\mathbb{R}^{L\times C}$ 中的屬性， $\beta$ 是從屬性描述到目標故障類別的推理規則。

級聯模型的第一步是特徵提取。我們拼接訓練標籤 $\bm{Y}_{S}$ 和訓練故障的屬性描述 $\bm{A}_{S}$ 以獲取訓練故障屬性標籤 $\bm{Z}_{S}=[\bm{z}^{S}_{1},...,\bm{z}^{S}_{C}]^{T} \in \mathbb{R}^{N \times C}$ , 這表示每一個故障樣本被一個 $C$ 維的屬性向量描述。有監督的主成分分析應用於數據對 $\{\bm{X}， \bm{z}^{S}_{i}\}（i=1，…，C$ ，以提取與屬性相關的特徵。訓練樣本 $\bm{x}$ 的特徵表示爲 $\bm{b}$ ，該特徵轉換表示爲 $\varphi$ 。
第二步是基於特徵提取的屬性學習和遷移階段。它不直接學習特徵和標籤之間的映射，而是在訓練階段以監督的方式爲每種屬性 $a_{i}$ 訓練屬性學習器 $\alpha_{i}（i=1，…，C）$ 。在測試時，這些屬性學習器允許對目標故障的每個測試樣本預測屬性值（1或0）。注意，只要在訓練和目標故障的描述屬性維度相同，就不需要針對目標故障提供的額外數據訓練。
基於得到的測試樣本的屬性向量，進行第三步，推斷出測試樣本的最終故障類別。因爲目標故障 $\bm{A}_{T}\in \mathbb{R}^{p\times C}$ 的故障描述是已知的，所以從故障描述到故障類別的推理規則 $\beta$ 有很多，例如最近鄰搜索等。

這裏，圖2中的級聯模型也以概率的方式來描述以獲得準確的表示。特徵 $\bm{b}$ 通過轉換映射 $\varphi$ 從樣本 $\bm{x}$ 中提取。從特徵到故障描述進行推理的第二步可以表示爲 $p(\bm{a}|\bm{b})=\prod^{C}_{i=1}p(a_{i}|\bm{b})$ ，其中 $\bm{a}\in\mathbb{R}^{C}$ 是 $\bm{A}$ 中一種故障的屬性描述。這裏，第 $t$ 類的屬性向量 $\bm{a}$ 表示爲 $\bm{a}^{t}=[a^{t}_{1},...,a^{t}_{C}]$ 。基於Bayes規則，我們將推理表示爲

p(t|\bm{a}) = \sum^{p}_{t=1} \frac{p(\bm{a}^{t}|t)p(t)}{p(\bm{a}^{t})}[\bm{a} = \bm{a}^{t}]

·················（3）
如果

\bm{a} = \bm{a}^{t}

，

[\bm{a} = \bm{a}^{t}] = 1

，否則它爲 0. 由於屬性描述矩陣

\bm{A}_{T}

是已知的, 我們有

p(\bm{a}^{t}|t)=1

. 在缺少明確信息的情況下, 類別先驗概率

p(t)

被認爲是等同的. 對於

p(\bm{a}^{t})=\prod^{C}_{i=1}p(a^{t}_{i})

, 訓練集的經驗均值

p(a^{t}_{i}) = \frac{1}{q}\sum^{q}_{j=1}a^{s_{j}}_{i}

被使用. 將上述三步組合，一個樣本的故障類別後驗概率可以以如下的方式得到

p(t|\bm{x}) = p(t|\bm{a})p(\bm{a}|\bm{b}) = \frac{p(t)}{p(\bm{a}^{t})}\prod^{C}_{i=1}p(a^{t}_{i}|\bm{b})

················（4）
其中

\bm{b}=\varphi(\bm{x})

。爲了從所有的故障類別

t_{1},...,t_{p}

中爲一個測試樣本

\bm{x}

挑選出最可能的故障類別，可以使用最大概率估計的方法

f(\bm{x}) = \mathop{\arg\max}_{j=1,...,p} \prod^{C}_{i=1} \frac{p(a^{t_{j}}_{i}|\varphi(\bm{x}))}{p(a^{t_{j}}_{i})} = \mathop{\arg\max}_{j=1,...,p} \frac{p(\bm{a}^{t_{j}}|\bm{b})}{p(\bm{a}^{t_{j}})}

··········（5）
其中

\bm{a}^{t_{j}}

表示第

j

種目標故障的屬性描述向量，

\bm{a}^{t_{j}}_{i}

是

\bm{a}^{t_{j}}

的第

i

個元素. 方程（5）揭示了基於描述的方法實際上是在特徵 $\bm{b}$ 和故障描述 $\bm{a}$ 之間進行故障診斷。因此，故障特徵和描述對於零樣本任務至關重要。

3.2 方法的可行性分析

令 $\bm{X}_{S}=[\bm{x}^{S}_{1},...,\bm{x}^{S}_{N}]$ 和 $\bm{X}_{T}=[\bm{x}^{T}_{1},...,\bm{x}^{T}_{{N}'}]$ 表示訓練故障和目標故障的樣本。 $\bm{B}_{S}=[\bm{b}^{S}_{1},...,\bm{b}^{S}_{N}]$ 和 $\bm{B}_{T}=[\bm{b}^{T}_{1},...,\bm{b}^{T}_{{N}'}]$ 是相應的特徵, $\bm{Y}_{S} \in \mathbb{R}^{N}$ 和 $\bm{Y}_{T} \in \mathbb{R}^{{N}'}$ 是他們的標籤。 $\bm{A} = [\bm{A}_{S},\bm{A}_{T}] \in \mathbb{R}^{L \times C}$ 表示每一種故障由一個 $C$ 維的屬性向量描述, 因此我們可以通過拼接 $\bm{A}$ 與 $\bm{Y}_{S}$ 和 $\bm{Y}_{T}$ 得到屬性標籤 $\bm{Z}_{S}=[\bm{z}^{S}_{1},...,\bm{z}^{S}_{N}] \in \mathbb{R}^{N \times C}$ 和 $\bm{Z}_{T}=[\bm{z}^{T}_{1},...,\bm{z}^{T}_{{N}'}] \in \mathbb{R}^{{N}' \times C}$ 。不失一般性的，訓練和目標故障類別的屬性學習器 $g_{S}=\{\alpha^{S}_{1},...,\alpha^{S}_{C}\}$ 和 $g_{T}=\{\alpha^{T}_{1},...,\alpha^{T}_{C}\}$ 分別表示從特徵 $\bm{B}_{S}$ 和 $\bm{B}_{T}$ 到屬性標籤 $\bm{Z}_{S}$ 和 $\bm{Z}_{T}$ 的線性映射。

所提出的基於故障描述方法的遷移技巧在圖二中的第二步。這裏訓練故障的屬性學習器 $g_{S}$ 被用作目標故障的屬性學習器 $g_{T}$ . 這裏，我們分析這種遷移使用屬性學習器的可行性，即 $g=g_{S}=g_{T}$ 。

定義：對於 $\forall \bm{b}^{T}_{i}$ , 假設 $\exists \bm{u}_{i} \in \mathbb{R}^{N}$ ， $\bm{b}^{T}_{i} = \bm{u}_{i}\bm{B}_{S}$ . 相似的, 對於 $\forall \bm{z}^{T}_{i}$ , $\exists \bm{v}_{i} \in \mathbb{R}^{N}$ , $\bm{z}^{T}_{i} = \bm{v}_{i}\bm{Z}_{S}$ 。集合 $U=\{\bm{u}_{i}\}$ 和 $V=\{\bm{v}_{i}\}$ 是 $\bm{B}_{T}$ 和 $\bm{Z}_{T}$ 對於 $\bm{B}_{S}$ 和 $\bm{Z}_{S}$ 的相關知識。

特徵 $\bm{B}$ 和屬性標籤 $\bm{Z}$ 都是對故障的描述。相關知識 $U$ 實際上是 $\bm{B}_{T}$ 對於 $\bm{B}_{S}$ 在特徵空間內依賴的編碼。 $V$ 是 $\bm{Z}_{T}$ 對於 $\bm{Z}_{S}$ 在屬性標籤空間內依賴的編碼。基於相關知識的定義，我們可以得到關於屬性學習器共享的引理。

引理: 如果 $\forall j$ , $\bm{u}_{j} = \bm{v}_{j}$ , 從訓練故障樣本 $\{(\bm{b}^{S}_{i},\bm{z}^{S}_{i})\}$ 中學習得到的映射 $g_{S}:\bm{b}^{S}\rightarrow \bm{z}^{S}$ 可以被直接用做 $g_{T}:\bm{b}^{T}\rightarrow \bm{z}^{T}$ 爲測試目標故障類別樣本 $\{(\bm{b}^{T}_{i},\bm{z}^{T}_{i})\}$ 進行預測。

證明：令 $\bm{b}^{T}_{j}= \sum^{N}_{i=1}\bm{u}_{j}\bm{b}^{S}_{i}$ , 有 $g_{S}(\bm{b}^{T}_{j}) = g_{S}(\sum^{N}_{i=1}\bm{u}_{j}\bm{b}^{S}_{i})$ $=\bm{u}_{j}\sum^{N}_{i=1}g_{S}(\bm{b}^{S}_{i}) = \bm{v}_{j}\sum^{N}_{i=1} \bm{z}^{S}_{i}=\bm{z}^{T}_{j}=g_{T}(\bm{b}^{T}_{j})$ 。

因此，根據引理，當關系知識 $U$ 和 $V$ 相等時，在線性情況下，屬性學習器的共享是完全可行的。直觀地講，特徵空間中的關係知識 $U$ 是由訓練樣本和目標故障類別共同決定的，並且是不可改變的。然而，屬性標籤空間中的關係知識 $V$ 是由定義的 $\bm{A}$ 決定的，它可以從故障描述中學習並通過反覆試驗加以提升。

四、Case Studies

本節提供兩個案例研究。一個是使用田納西-伊斯曼基準流程設計的。爲了更好地理解所提出的零樣本故障診斷任務和方法，文章在這一充分研究的數據集上詳細介紹了實驗設置和模型實現。另一個是在實際的火電廠過程中，展示了基於故障描述的屬性遷移方法的應用。

4.1 田納西-伊斯曼基準過程

4.1.1 數據集介紹

由Downs和Vogel[35]、[36]貢獻的田納西-伊斯曼過程（TEP）是一個在工業上得到充分研究的故障診斷數據集，它有助於公正地呈現新提出的零樣本診斷任務和基於故障描述的屬性轉移方法的有效性。此外，我們還提供了用於實驗的TEP的細粒度屬性描述，以顯示零樣本故障診斷任務的輔助信息。

TEP由五個主要子系統組成，包括反應器、冷凝器、氣液分離器、循環壓縮機和產品汽提器。數據集提供了21種故障，每種故障由41個測量變量和11個操作變量描述。採集480個樣本，對每個故障進行訓練。由於最後6種故障在數據集中的描述較少，本文利用前15種故障進行零樣本故障診斷實驗。表一介紹了15種故障類型，所研究的15種故障類型各不相同。當其中一些模型訓練樣本爲零時，傳統的故障診斷方法很難進行故障診斷。因此，提出的零樣本故障診斷方法具有實際意義和實用價值。

4.1.2 模型實現

故障描述是提出零樣本故障診斷方法的基礎。圖3顯示了TEP在向量空間中的屬性描述的配置，即屬性矩陣 $\bm{A}$ ，具體的屬性名如表二所示。每種故障都由20個細粒度屬性描述。對比表二和表一，應該注意的是，屬性描述可以從表一的語句中很容易得出。根據故障描述，我們可以在診斷目標故障時不需要使用其樣本進行模型訓練。

TEP數據集的故障描述矩陣A。每種故障都由20個細粒度屬性描述。圖中的“1”表示故障有這個屬性，“0”表示沒有。屬性的具體名稱見表二。

圖2中基於描述的方法的第一步是特徵提取。採用監督主成分分析法提取屬性相關特徵。具體地說，每對 $\{\bm{X}_{S},\bm{z}^{S}_{i}\} \, (i=1,...,C)$ 都由監督主成分分析進行擬合[34]。然後將提取器應用於測試數據 $\bm{X}_{T}$ 。對於每個屬性，從原始的52個變量中提取20個特徵。由於有20個不同的屬性，在特徵提取之後，將爲以下步驟準備一個包含400個特徵的數據集。第二步是屬性學習器的訓練。文章採用了三種不同的機器學習算法，包括線性支持向量機（LSVM）、非線性隨機森林（RF）和概率樸素貝葉斯（NB）。具體採用的是scikit learn[37]的實現對三個模型進行了公平的比較。LSVM的鬆弛項參數設爲1，RF的決策樹數設爲50。最後，使用最近鄰搜索作爲推理規則來確定最終的故障類別，並使用普通歐氏距離。

TEP採用15種故障，訓練/測試故障數量採用80%-20%的劃分，即12種故障作爲訓練故障，3種故障作爲目標故障。爲了測試整個數據集的性能，將TEP數據集分爲5組，每組有3個測試故障和12個訓練故障。訓練/測試劃分見表三，訓練樣本數爲5760（12480），測試樣本數爲1440（3480）。我們報告了五組實驗的準確率。

4.1.3 零樣本診斷結果

零樣本故障診斷結果見表四，最高診斷精度隨訓練/測試劃分的變化而變化，從62.63%到88.40%。五組實驗的最佳結果的混淆矩陣如圖4所示。

圖4. TEP數據集5組實驗結果的混淆矩陣

顯然，基於故障描述的屬性轉移方法的性能明顯高於33.33%的隨機水平，這證明了基於故障描述的故障診斷方法的初衷：在沒有訓練樣本的情況下，基於人工定義的故障描述可以對不同類型的故障進行診斷和分類。對於某些特定故障類別的準確度，如圖4中D組的26%和E組的21%，它們是由於零樣本任務的困難造成的，下一小節中的少樣本實驗將表明我們的結果實際上是相當有競爭力的。此外，值得一提的是，雖然對屬性學習器共享的可行性的證明僅限於線性情況，但非線性分類器和概率分類器（即RF和NB）的較高性能表明，該方法是普遍適用的。

據作者所知，沒有一種基於數據驅動的方法能夠在沒有樣本進行模型訓練的情況下實現故障診斷和分類。如前所述，典型的技術，包括深度轉移學習和故障樹分析，不適用於零樣本故障診斷設置。因此，爲了提供相同設置下的比較，Lampert等人提出的零樣本學習方法，即DAP和IAP[22]、[23]，被使用進行對比。注意，DAP和IAP是爲圖像分類任務而設計的，Lampert設計的“形狀”或“顏色”屬性不能在這裏使用，而是使用本文總結的故障描述。圖像特徵，即HoG和SIFT，在這裏也不適用。我們讓DAP和IAP從原始數據中學習。將DAP和IAP的非線性支持向量機（高斯核）的鬆弛項設爲1。因此，比較實際上是基於我們的貢獻，即故障描述。雖然DAP和我們方法的思想都是屬性轉移，但是我們的方法利用了不同的屬性學習器和特徵。結果如表5所示。當線性LSVM被設置爲屬性學習器時，我們的方法通過5組DAP和IAP呈現出具有競爭力的精度。當利用非線性屬性學習器RF和概率屬性學習器NB時，該方法獲得了更高的精度。同時，我們嘗試將我們的方法與Akata等人的SJE[24]和Romera Paredes等人的ESZSL[25]進行比較。然而，由於卷積網絡的深層特徵以及SJE和ESZSL所要求的基於圖像的屬性在故障診斷場景下都是不可用的，它們的性能在B、C、E組上都存在嚴重的退化，這表明它們在工業場景下的泛化能力弱，難以實現零樣本故障診斷任務。

另一個需要評估的性能是屬性學習器的準確性，這是零樣本故障診斷的基礎。在我們的方法中，模型先學習故障屬性，然後才知道故障。以RF爲屬性學習器的A組20個屬性學習器的準確度如圖5所示。大多數屬性學習器的學習效果比隨機猜測（50%的準確率）要好得多，其中一些屬性學習器對A組的準確率甚至達到90%以上，這直接說明了所提出的基於故障描述的方法的有效性。

圖5. 以RF爲屬性學習器的A組20個屬性學習器的準確率。

4.1.4 與少樣本學習的比較

爲了比較，我們還進行了基於A組和C組的少量樣本學習實驗，其中1、10、50、200、500個樣本用於模型訓練。訓練樣本是從TEP的另一組數據中隨機抽取的，測試數據與零樣本故障診斷數據相同。比較的算法包括LSVM、RF、NB、XGBoost（XGB）[38]、AdaBoost（ADA）、K-鄰域（KNN）、梯度增強機（GBDT）[39]和輕量梯度增強機（LGBM）[40]。對於所有被比較的模型，他們的作者或scikit學習包[37]的實現被用於公平的比較。實驗中使用的scikit-learn包的LSVM模型對於多類分類問題默認採用“1-v-1”策略。在參數方面，我們統一採用了作者的默認設置，不做任何調整，這通常表現出良好的性能。少數樣本學習實驗的結果如表六和表七所示。

如表六和表七所示，傳統的機器學習算法在只提供少量故障樣本的情況下性能較差，其中一些算法使用一個樣本時的性能甚至比隨機選擇（33.33%）還要差。儘管TEP是一個經過充分研究的經典故障診斷數據集，但與我們的方法相比，比較方法至少還需要200個樣本來呈現競爭性的結果，這說明了零樣本故障診斷任務的難度。實際上，由於零樣本設置和一個樣本設置是完全不同的，而且難度更大，因此我們的方法與少數樣本學習相比是不公平的。這說明故障描述確實爲診斷提供了額外的故障信息。

4.1.5 對噪聲的魯棒性

噪聲是工業生產過程中普遍存在的典型干擾。爲此，對該方法進行了噪聲實驗，證明了該方法的魯棒性。將所增加的噪聲分配給均值爲零、變化方差的高斯分佈。屬性學習採用NB。結果見表八

通常，當噪聲方差小於0.5時，該方法表現良好。當噪聲方差大於0.5時，性能下降。有時，當噪聲方差爲0.3時，系統的性能會更好，例如在A組上的性能。提出的方法對故障的識別是基於對屬性的認識的。如表8所示，在噪聲環境下，A組和C組20個屬性學習器的平均精度都是穩定的，這有助於獲得零樣本任務的魯棒結果。

4.2 火電站過程

4.2.1 數據集介紹

火力發電廠（TPP）故障數據集是從1000mw超超臨界火電機組的實際工業過程中獲取的。熱力過程由鍋爐系統和汽輪機系統兩個主要子系統組成。

圖6. 火電站過程系統結構圖

在發電過程中，鍋爐系統首先將水加熱成高溫高壓蒸汽。然後蒸汽被輸送到渦輪系統來驅動發電機。整個動力裝置實現了從化學能到電能的轉換。由於火力發電是一個大規模的過程，機組停機採集故障樣本會造成巨大的損失。因此，在零樣本條件下診斷某些故障類別具有重要意義。

圖7. TPP的故障描述矩陣A。每種故障都是由15個細粒度屬性描述。圖中的“1”表示故障有這個屬性，“0”表示沒有。屬性的具體名稱如表九所示。

數據集提供了八種發生在整個機組上的故障。每種故障由68個實測信號和4320個樣本進行了說明。用15種屬性描述故障。火力發電廠數據集的故障描述矩陣 $\bm{A}$ 如圖7所示，具體的屬性信息如表9所示。爲了測試所提出的基於故障描述的屬性轉換方法的穩健性，採用四組不同的訓練/測試劃分，如表10所示，每組包括五種模型訓練故障和三種測試故障。模型實現與TEP相同。

4.2.2 零樣本診斷結果

火電廠過程零樣本故障診斷結果見表十一。四組實驗的最佳結果的混淆矩陣如圖8所示。一般情況下，TPP的零樣本故障診斷結果遠高於TEP。

圖8. 火電站過程4組實驗結果的混淆矩陣

四組平均準確率爲85.07%～94.93%，TEP爲51.03%～75.78%。這可以用故障描述矩陣 $\bm{A}$ 來解釋。與TEP相比，火力發電廠過程的 $\bm{A}$ 定義揭示了更詳細的信息。例如，表九提供了具體的過程變量，即“溫度”、“壓力”和“振動”，以及過程變量的具體特性，即“低”和“高”。該方法可以方便地從傳感器信號中提取細節信息，並應用於屬性的準確識別。因此，LSVM、RF和NB這三種機器學習算法都能在目標故障上獲得良好的性能。以RF爲屬性學習者的A組的15個屬性學習者的準確度如圖9所示。

圖9. 火電站過程A組15名屬性學習器RF的準確率

以RF爲屬性學習器的A組20個屬性學習器的平均準確率爲71.45%，TPP爲75.06%。這驗證了所提出的基於故障描述的屬性遷移方法的有效性，該方法首先學習故障描述和屬性，然後對故障進行診斷。此外，由於火電廠過程中的許多機器是旋轉機器，如渦輪機、發電機和卷取機，因此該過程通常在噪聲環境下工作。因此，表11和圖9所示的高性能也驗證了所提出方法的魯棒性和模型現實的匹配。

並與其他零樣本學習方法進行了比較。實驗設置與TEP相同。結果見表十二。對於火電廠過程，線性LSVM通過四個不同的組表現出較高的平均精度，揭示了過程的線性特徵。SJE和ESZSL在組A和組B上表現出不穩定的性能，因爲設計的深度特徵在這裏是不適用的。此外，DAP和IAP與我們的相比精度較低。DAP在實驗中直接從故障樣本中學習，而設計的模型則通過有監督的主成分分析來學習與屬性相關的特徵。由於DAP和我們的方法都是基於屬性轉移的，因此結果可以揭示特徵對於零樣本故障診斷任務的重要性。

五、Conclusions

考慮到故障樣本採集的困難，本文提出了零樣本故障診斷任務。設計了基於故障描述的屬性遷移方法，首次嘗試在沒有樣本的情況下診斷目標故障。與基準數據集上的少量樣本學習相比，該方法具有目標故障樣本數爲零的優點。對實際火電廠過程的高精度分析和可行性分析也表明，通過設計合理的故障屬性描述，確實可以實現零樣本診斷。在今後的研究中，還有許多工作可以進一步發展和完善。例如：（1）可以考慮零樣本診斷的解決方案，即使用一些流行的生成模型，即生成-對抗網絡，根據故障描述爲目標故障生成樣本；（2）在本文中，利用有監督的主成分分析方法作爲零樣本診斷中提取屬性相關特徵的基本方法，可以開發出更有意義和可解釋性的方法來更好地執行任務。

六、References

Y. Ma, S. Bing, H. Shi, et al. Fault detection via local and nonlocal embedding, Chemical Engineering Research & Design, vol. 94, pp.538-548, 2015.
Q. Liu, S. J. Qin, T. Chai, Decentralized fault diagnosis of continuous annealing processes based on multilevel PCA, IEEE Trans. Automation Science & Engineering, vol. 10, no. 3, pp. 687-698, 2013.
W. Fan, T. Shuai, Y. Yang, et al, Hidden Markov model-based fault detection approach for multimode process, Industrial & Engineering Chemistry Research, vol. 55, no. 16, pp. 4613-4621, 2016.
S. Zhao, B. Huang, L. Fei, Fault detection and diagnosis of multiple-model systems with mismodeled transition probabilities, IEEE Trans. Industrial Electronics, vol. 62, no. 8, pp. 5063-5071, 2015.
Q. Liu, Q. Q. Zhu, S. J. Qin, etc. Dynamic concurrent kernel CCA for strip-thickness relevant fault diagnosis of continuous annealing processes, J. Process Control, vol. 67, 2017.
G. Xin, H. Jian. An improved SVM integrated GS-PCA fault diagnosis approach of Tennessee Eastman process, Neurocomputing, vol. 32, pp. 1023-1034, 2015.
X. Q. Deng, X. M. Tian, X. Y. Hu. Nonlinear process fault diagnosis based on slow feature analysis, in Proc. Intelligent Control and Automation, 2012.
L. Cui, N. Wu, W. Wang, et al., Sensor-based vibration signal feature extraction using an improved composite dictionary matching pursuit algorithm, Sensors, vol. 14, no. 9, pp. 16715-16739, 2014.
L. Eren, T. Ince, and S. Kiranyaz, A generic intelligent bearing fault diagnosis system using compact adaptive 1D CNN classifier, Journal of Signal Processing Systems, vol. 91, no. 2, pp. 179-189, 2019.
Y. L. Murphey, M. A. Masrur, Z. H. Chen, etc., Model-based fault diagnosis in electric drives using machine learning, IEEE/ASME Transactions on Mechatronics, vol. 11, no. 3, pp. 290-303, 2006.
C. Sun, M. Ma, Z. Zhao, et al., Deep transfer learning based on sparse auto-encoder for remaining useful life prediction of tool in manufacturing, IEEE Trans. Industrial Informatics, vol. 15. No. 4, pp. 2416-2425, 2018.
J. Zhao, D. T. Ouyang, X. Y. Wang, et al., The modeling procedures for model-based diagnosis of slowly changing fault in hybrid system, Advanced Materials Research, vol. 186, pp. 403-407, 2011.
Y. Pan, F. Mei, H. Miao, et al., An approach for HVCB mechanical fault diagnosis based on a deep belief network and a transfer learning strategy, Journal of Electrical Engin. & Techn., vol. 14, no. 1, pp. 407-419, 2019.
S. S. Yu, M. A. Stephen, Y. Ruqiang, et al., Highly-accurate machine fault diagnosis using deep transfer learning, IEEE Trans. Industrial Informatics, vol. 15, no. 4, pp. 2446-2455, 2019.
W. Long, G. Liang, and X. Li, A new deep transfer learning based on sparse auto-encoder for fault diagnosis, IEEE Trans. Systems Man & Cybernetics Systems, vol. 49, no. 1, pp. 136-144, 2018.
W. Lu, B. Liang, Y. Cheng, et al., Deep model based domain adaptation for fault diagnosis, IEEE Trans. Ind. Electron., vol.64, no.3, pp. 2296-2305, 2017.
S. J. Pan, Q. Yang, A survey on transfer learning, IEEE Trans. Knowledge & Data Engineering, vol. 22, no.10, pp.1345-1359.
W. S. Lee, D. L. Grosh, F. A. Tillman, et al. Fault tree analysis, methods, and application: a review, IEEE Trans. Reliability, vol. 34, no.3, pp.194-203, 2009.
A. K. Reay, J. D. Andrews. A fault tree analysis strategy using binary decision diagrams, Reliability Engineering & System Safety, vol. 78, no. 1, pp. 45-56, 2002.
R. M. Sinnamon, J. D. Andrews, Improved efficiency in qualitative fault tree analysis, Quality & Reliability Engineering International, vol. 13, no. 5, pp. 293-298, 1997.
C. Samir, Fault tree analysis, John Wiley & Sons, Inc. 2006.
C. H. Lampert, H. Nickisch, and S. Harmeling. Learning to detect unseen object classes by between-class attribute transfer, in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2009, pp. 951-958.
C. H. Lampert, H. Nickisch, and S. Harmeling, Attribute-based classification for zero-shot visual object categorization, IEEE Trans. Pattern Anal. Mach. Intell., vol. 36, no. 3, pp. 453-465, Mar. 2014.
Z. Akata, S. Reed, and D. Walter, et al. Evaluation of output embeddings for fine-grained image classification, in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2015.
B. Romera-Paredes and P. H. Torr, An embarrassingly simple approach to zero-shot learning, in Proc. Int. Conf. Machine Learning, 2015.
S. Kang, D. Lee, C. D. Yoo. Face attribute classification using attribute-aware correlation map and gated convolutional neural networks, in Proc. IEEE International Conference on Image Processing, 2015.
C. H. Zhao, Y. X. Sun, Comprehensive subspace decomposition and isolation of principal reconstruction directions for online fault diagnosis, Journal of Northwest A & F University, vol. 23, no. 10, pp. 1515-1527, 2013.
C. H. Zhao, F. R. Gao, Fault subspace selection approach combined with analysis of relative changes for reconstruction modeling and multifault diagnosis, IEEE Trans. on Control Systems Technology, vol. 24, no. 3, pp. 1-12, 2015.
J. C. Wang, Y. B. Zhang, et al. Dimension reduction method of independent component analysis for process monitoring based on minimum mean square error, J. Process Control, vol. 22, no. 2, pp. 477-487, 2012
C. H. Zhao, W. Q. Li, Y. X. Sun, A sub-principal component of fault detection modeling method and its application to online fault diagnosis, in Proc. the 9th Asian Control Conference. 2013.
J. H. Chen, C. M. Liao, et al., Principle component analysis based control charts with memory effect for process monitoring, Industrial & Engineering Chemistry Research, vol. 40, no .6, pp. 1516-1527, 2001.
M. Misra, H. H. Yue, S. J. Qin, etc. Multivariate process monitoring and fault diagnosis by multi-scale PCA, Computers & Chemical Engineering, vol. 26, no. 9, pp. 1281-1293, 2002.
M. Li, X. Wu, Fault diagnosis for fans of coal based on CBR hybrid threshold method, in Proc. Int. Conf. Fuzzy Systems and Knowledge Discovery, 2010.
E. Barshan, A. Ghodsi, Z. Azimifar, et al. Supervised principal component analysis: Visualization, classification and regression on subspaces and submanifolds,’’ Pattern Recognition, vol. 44, no. 7, pp.1357-1371, 2011.
J. J. Downs, E. F. Vogel, A plant-wide industrial process control problem, Computers & Chemical Engineering, vol. 17, no. 3, pp. 245-255, 1993.
W. Yu, and C. Zhao, Online fault diagnosis in industrial process using multi-model exponential discriminant analysis algorithm, IEEE Trans. Control Systems Technology, vol. 27, no. 3, pp. 13317-1325, 2018.
S. Ashish, J. Ritesh, Scikit-learn: machine learning in python, Journal of Machine Learning Research, vol. 12, no.10 pp. 2825-2830, 2012.
T. Q. Chen, C. Guestrin, XGBoost: a scalable tree boosting system, in Proc. the 22nd ACM SIGKDD, 2016, pp. 785-794.
H. J. Friedman. Greedy function approximation: a gradient boosting machine, Annals of Statistics, vol. 29, no. 5, pp. 1189-1232.
G. L. Ke, M. Qi, et al. LightGBM: a highly efficient gradient boosting decision tree. Advances in Neural Information Processing Systems, 2017, pp. 3149-3157.

資源下載

微信搜索“老和山算法指南”獲取各類論文代碼下載鏈接與技術交流羣

有問題可以私信博主，點贊關注的一般都會回覆，一起努力，謝謝支持。

DeepLearning | Zero Shot Learning 零樣本學習零樣本工業故障診斷

目錄