Deep Residual Shrinkage Networks for Fault Diagnosis(用於故障診斷的深度剩餘收縮網絡)
前言
2020年 Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, and Michael Pecht, Fellow Member, IEEE 發表在Transactions on Industrial Informatics上的論文
一、研究問題-故障診斷
現有的機械傳動系統故障診斷算法可分爲兩類,即基於信號分析的方法和基於機器學習的方法。
1、基於信號分析的故障診斷方法
通常基於信號分析的故障診斷方法通過檢測與故障相關的振動分量或特徵頻率來識別故障。然而對於大型旋轉機械來說,振動信號通常由許多不同的振動分量組成,包括齒輪的齧合以及軸和軸承的旋轉。進一步,當故障處於早期階段時,故障相關組件往往是很弱,很容易被其他振動分量和諧波淹沒。因此,傳統的基於信號分析的故障診斷方法往往難以識別故障相關的振動分量和特徵頻率。
2、基於機器學習的故障診斷方法(本文研究方法)
基於機器學習故障診斷方法能夠在不識別故障相關組件和特徵頻率的情況下診斷故障。可以提取多個統計參數(例如峯度、均方根、能量和熵)來表示健康狀態,然後可以訓練分類器(例如多類支持向量機、單隱層神經網絡和樸素貝葉斯分類器)來診斷故障。然而,提取的統計參數通常沒有足夠的辨別能力來區分故障,這可能導致診斷準確性低。因此,尋找一個有區別的特徵集已經成爲機器學習支持的故障診斷的長期挑戰。
近年來,深度學習已經成爲基於振動的故障診斷中的有用工具,深度學習方法是指具有多級非線性變換的機器學習方法。爲了取代傳統的統計參數,**深度學習方法自動從原始振動信號中學習特徵,這可以產生更高的診斷精度。**各種深度學習方法已被用於機器故障診斷,如一維卷積神經網絡(ConvNet)、卷積型深度信念網絡。
二、引出本文研究的問題
然而,對於傳統的深度學習方法來說,參數優化往往是一項困難的任務。誤差函數的梯度必須逐層反向傳播,在流過許多層之後,逐漸變得不準確。結果在開始層(即,靠近輸入層的層)中的可訓練參數不能被有效地優化。
Deep residual networks (ResNets) 殘差網絡
從大型旋轉機器(如風力渦輪機、製造機器和重型卡車)收集的振動信號通常包含大量噪聲。在處理高噪聲振動信號時,資源網的特徵學習能力往往會下降。作爲局部特徵提取器的卷積核,由於噪聲的干擾,可能無法檢測出與故障相關的特徵。在這種情況下,在輸出層學習到的高級特徵通常沒有足夠的辨別能力來正確地對故障進行分類。因此,有必要開發新的深度學習方法,用於強背景噪聲下旋轉機械的振動故障診斷。
三、創新點 深度學習+軟閾值
**本文提出了兩種深度剩餘收縮網絡(DRSNs),即具有通道共享閾值的(DRSN-CS)和具有通道方向閾值的(DRSN-CW),以提高高噪聲振動信號中剩餘收縮網絡的特徵學習能力,最終目標是獲得高診斷精度。**主要貢獻概述如下:
1、軟閾值化(即流行的收縮函數)作爲非線性變換層被插入到深層結構中,以便有效地消除與噪聲相關的特徵。
2、使用專門設計的子網絡自適應地確定閾值,使得每條振動信號可以具有其自己的一組閾值
3、軟閾值法中考慮了兩種閾值,即通道共享閾值(DRSN-CS)和通道方向閾值和(DRSN-CW)。
四、理論介紹
着重介紹DRSN-CS 、 DRSN-CW,
A.基本組成部分
ResNets和DRSNs都有一些與傳統CNN相同的基本組件,包括卷積層、ReLU激活函數、批歸一化(BN)、全局平均池(GAP)和交叉熵誤差函數。這些基本組件的概念介紹如下。
一維卷積
BN批歸一化
BN的目的是減少內部協變偏移,對每一層的輸入進行標準化
計算均值和方差,𝛾和𝛽是兩個可訓練的參數來縮放和移動分佈。𝜖是一個接近於零的常數。
激活函數
常用的激活函數sigmoid、tanh和ReLU。
ReLU激活函數
全局平均池化 GAP
GAP是從特徵圖的每個通道計算平均值的操作,一般在最終輸出層之前使用。GAP可以減少在全連接的輸出層中使用的權重數量,減少深度神經網絡的過擬合。GAP還可以解決變量偏移問題,使得深度神經網絡學習的特徵不會受到故障脈衝位置變化的影響。
交叉熵
分類問題的損失函數
B.經典ResNet網絡架構
ResNets是近年來備受關注的一種新興的深度學習方法。
(a)輸出特徵圖與輸入特徵圖大小相同
(b)步長爲2,其中輸出特徵圖的寬度減小到輸入特徵圖的一半,
(c)步長爲2且卷積核數量加倍的RBU,其中輸出特徵圖的通道數量加倍。
(d)顯示了ResNet的總體架構,該架構由輸入層、卷積層、多個RBU、一個BN、一個ReLU、一個GAP和一個輸出全連接(FC)層組成,並被用作本研究中需要進一步改進的基線。
圖中的“/2”表示以2的步長移動卷積核,以減小輸出特徵圖的寬度。
c、W和1分別是通道數、寬度和高度。k是卷積層中卷積核的個數。
C.DRSNs的基本架構設計(DRSN-CS and DRSN-CW)
1)理論背景-“小波變換中的閾值引出軟閾值”
在過去的20年裏,軟閾值經常被用作許多信號去噪方法的關鍵步驟。一般來說,原始信號被變換到其中接近零的數字不重要的域,然後應用軟閾值將接近零的特徵轉換成零。例如,作爲一種經典的信號去噪方法,**小波閾值處理通常由三個步驟組成:小波分解、軟閾值處理和小波重構。**爲了保證信號去噪的良好性能,小波閾值化的一個關鍵任務是設計一個濾波器,該濾波器可以將有用信息轉換成非常正或負的特徵,並將噪聲信息轉換成接近零的特徵。然而,設計這種濾波器需要大量的信號處理專業知識,並且一直是一個具有挑戰性的問題。深度學習爲解決這個問題提供了一種新的方法。深度學習使過濾器能夠使用梯度下降算法自動學習,而不是由專家人工設計過濾器。因此,軟閾值和深度學習的結合是一種很有前途的方法,可以消除噪聲相關的信息,並建立高度區分的特徵。軟閾值化的功能可以表示爲
公式(9)和公式(10)軟閾值的處理方式圖和導數Fig.3 。輸出對輸入的導數不是1就是0,這對於防止梯度消失和爆炸問題是有效的,
在經典的信號去噪算法中,通常很難設置合適的閾值。此外,最佳值因情況而異。針對這一問題,在深度體系結構中自動確定使用的閾值,以避免人爲操作的麻煩。在隨後的章節中介紹了在已開發的DRSNs中確定閾值的方法。
2) DRSN-CS結構
開發的DRSN-CS是ResNet的變體,它使用軟閾值來去除與噪聲相關的特徵。軟閾值作爲非線性變換層插入到RBU中。此外,閾值的值可以在RBU中學習,這將在下面介紹。
如圖4(a)所示,標題爲“具有通道共享閾值的剩餘收縮構建單元(RSBU-CS)”的構建單元不同於圖2(a)中的RBU,因爲RSBU-CS具有用於估計軟閾值的閾值的特殊模塊。在特殊模塊中,將GAP應用於特徵地圖𝑥𝑥的絕對值以獲得1D向量。然後,將1D矢量傳播到兩層全連接網絡中,以獲得縮放參數,然後,在兩層FC的末端應用一個sigmoid函數,以便將縮放參數縮放到(0,1)的範圍,該範圍可以表示爲
縮放參數𝛼乘以|𝑥|的平均值以獲得閾值。,軟閾值化的閾值不僅需要爲正,而且不能太大。如果閾值大於特徵圖的最大絕對值,軟閾值的輸出將爲零
總的來說,RSBU–CS中使用的閾值由下式表示
所有通道一個閾值
可以類似於圖2(b)-©中的來構造具有2的步幅和雙倍數量的通道的RBUs。
3) DRSN-CW網絡架構
開發的DRSN-CW是ResNet的另一個變種,與DRSN-CS的不同之處在於對要素圖的每個通道應用了一個單獨的閾值,這將在下面介紹。圖4©顯示了具有通道式閾值的殘餘收縮構建單元。使用絕對運算和GAP將特徵映射𝑥簡化爲一維向量,然後傳播到兩層FC網絡中。FC網絡中的第二層有一個以上的神經元,神經元的數量等於輸入特徵圖的通道數。FC的輸出通過以下方式縮放至(0,1)範圍
每個通道一個閾值
總結
將深度學習方法應用於含高噪聲振動信號的機械故障診斷中,提高其特徵學習能力是一項重要的任務。本文提出了兩種新的深度學習方法,即具有通道共享閾值的深度剩餘收縮網絡(DRSN-CS)和具有通道方向閾值的深度剩餘收縮網絡(DRSN-CW)。這些方法將軟閾值化作爲可訓練的收縮函數集成到深層結構中,以將不重要的特徵強制爲零,從而使所學習的高級特徵變得更有區別性。閾值是使用插入的模塊(即專門設計的子網絡)設置的,因此不需要信號處理方面的專業知識。
通過與傳統的深度學習方法的實驗比較,驗證了所開發的深度學習系統在提高診斷準確性方面的有效性。在各種類型和數量的人工插入噪聲下的平均測試精度方面,開發的DRSN-CS和DRSN-CW不僅分別比經典的ConvNet提高了10.93%和11.95%,而且比經典的ResNet分別提高了2.30%和3.32%。因此,在深度學習方法中將軟閾值作爲可訓練收縮函數的集成可以有效地提高從高噪聲振動信號中辨別特徵的學習能力。就總體平均測試精度而言,所開發的DRSN-CW方法的性能比DRSN-CS方法略有提高(1.02%),這是因爲特徵圖的不同通道通常包含不同數量的噪聲相關特徵。因此,開發的DRSN-CW允許特徵地圖的每個通道具有其自己的閾值,這比DRSN-CS更靈活,在DRSN-CS中,特徵地圖的所有通道使用相同的閾值。因此,DRSN-CW比DRSN-CS具有更高的特徵學習能力和診斷性能。當處理各種干擾噪聲的信號,如聲信號、視覺信號和電流信號時,所開發的數字參考系統不僅適用於使用振動信號的故障診斷任務,而且適用於各種領域的模式識別任務。