Deep Residual Shrinkage Networks for Fault Diagnosis（用于故障诊断的深度剩余收缩网络）

文章目录

- Deep Residual Shrinkage Networks for Fault Diagnosis（用于故障诊断的深度剩余收缩网络）
前言
一、研究问题-故障诊断
- 1、基于信号分析的故障诊断方法
- 2、基于机器学习的故障诊断方法（本文研究方法）
二、引出本文研究的问题
三、创新点深度学习+软阈值
四、理论介绍
总结

前言

2020年 Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, and Michael Pecht, Fellow Member, IEEE 发表在Transactions on Industrial Informatics上的论文

一、研究问题-故障诊断

现有的机械传动系统故障诊断算法可分为两类，即基于信号分析的方法和基于机器学习的方法。

1、基于信号分析的故障诊断方法

通常基于信号分析的故障诊断方法通过检测与故障相关的振动分量或特征频率来识别故障。然而对于大型旋转机械来说，振动信号通常由许多不同的振动分量组成，包括齿轮的啮合以及轴和轴承的旋转。进一步，当故障处于早期阶段时，故障相关组件往往是很弱，很容易被其他振动分量和谐波淹没。因此，传统的基于信号分析的故障诊断方法往往难以识别故障相关的振动分量和特征频率。

2、基于机器学习的故障诊断方法（本文研究方法）

基于机器学习故障诊断方法能够在不识别故障相关组件和特征频率的情况下诊断故障。可以提取多个统计参数(例如峰度、均方根、能量和熵)来表示健康状态，然后可以训练分类器(例如多类支持向量机、单隐层神经网络和朴素贝叶斯分类器)来诊断故障。然而，提取的统计参数通常没有足够的辨别能力来区分故障，这可能导致诊断准确性低。因此，寻找一个有区别的特征集已经成为机器学习支持的故障诊断的长期挑战。
近年来，深度学习已经成为基于振动的故障诊断中的有用工具，深度学习方法是指具有多级非线性变换的机器学习方法。为了取代传统的统计参数，**深度学习方法自动从原始振动信号中学习特征，这可以产生更高的诊断精度。**各种深度学习方法已被用于机器故障诊断，如一维卷积神经网络(ConvNet)、卷积型深度信念网络。

二、引出本文研究的问题

然而，对于传统的深度学习方法来说，参数优化往往是一项困难的任务。误差函数的梯度必须逐层反向传播，在流过许多层之后，逐渐变得不准确。结果在开始层(即，靠近输入层的层)中的可训练参数不能被有效地优化。
Deep residual networks (ResNets) 残差网络
从大型旋转机器(如风力涡轮机、制造机器和重型卡车)收集的振动信号通常包含大量噪声。在处理高噪声振动信号时，资源网的特征学习能力往往会下降。作为局部特征提取器的卷积核，由于噪声的干扰，可能无法检测出与故障相关的特征。在这种情况下，在输出层学习到的高级特征通常没有足够的辨别能力来正确地对故障进行分类。因此，有必要开发新的深度学习方法，用于强背景噪声下旋转机械的振动故障诊断。

三、创新点深度学习+软阈值

**本文提出了两种深度剩余收缩网络(DRSNs)，即具有通道共享阈值的(DRSN-CS)和具有通道方向阈值的(DRSN-CW)，以提高高噪声振动信号中剩余收缩网络的特征学习能力，最终目标是获得高诊断精度。**主要贡献概述如下:

1、软阈值化(即流行的收缩函数)作为非线性变换层被插入到深层结构中，以便有效地消除与噪声相关的特征。

2、使用专门设计的子网络自适应地确定阈值，使得每条振动信号可以具有其自己的一组阈值

3、软阈值法中考虑了两种阈值，即通道共享阈值(DRSN-CS)和通道方向阈值和(DRSN-CW)。

四、理论介绍

着重介绍DRSN-CS 、 DRSN-CW,

A.基本组成部分

ResNets和DRSNs都有一些与传统CNN相同的基本组件，包括卷积层、ReLU激活函数、批归一化(BN)、全局平均池(GAP)和交叉熵误差函数。这些基本组件的概念介绍如下。

一维卷积

BN批归一化

BN的目的是减少内部协变偏移，对每一层的输入进行标准化

计算均值和方差，𝛾和𝛽是两个可训练的参数来缩放和移动分布。𝜖是一个接近于零的常数。

激活函数

常用的激活函数sigmoid、tanh和ReLU。
ReLU激活函数

全局平均池化 GAP

GAP是从特征图的每个通道计算平均值的操作，一般在最终输出层之前使用。GAP可以减少在全连接的输出层中使用的权重数量，减少深度神经网络的过拟合。GAP还可以解决变量偏移问题，使得深度神经网络学习的特征不会受到故障脉冲位置变化的影响。

交叉熵

分类问题的损失函数

B.经典ResNet网络架构

ResNets是近年来备受关注的一种新兴的深度学习方法。

（a）输出特征图与输入特征图大小相同
（b）步长为2，其中输出特征图的宽度减小到输入特征图的一半，
（c）步长为2且卷积核数量加倍的RBU，其中输出特征图的通道数量加倍。
（d）显示了ResNet的总体架构，该架构由输入层、卷积层、多个RBU、一个BN、一个ReLU、一个GAP和一个输出全连接(FC)层组成，并被用作本研究中需要进一步改进的基线。
图中的“/2”表示以2的步长移动卷积核，以减小输出特征图的宽度。
c、W和1分别是通道数、宽度和高度。k是卷积层中卷积核的个数。

C.DRSNs的基本架构设计（DRSN-CS and DRSN-CW）

1）理论背景-“小波变换中的阈值引出软阈值”

在过去的20年里，软阈值经常被用作许多信号去噪方法的关键步骤。一般来说，原始信号被变换到其中接近零的数字不重要的域，然后应用软阈值将接近零的特征转换成零。例如，作为一种经典的信号去噪方法，**小波阈值处理通常由三个步骤组成:小波分解、软阈值处理和小波重构。**为了保证信号去噪的良好性能，小波阈值化的一个关键任务是设计一个滤波器，该滤波器可以将有用信息转换成非常正或负的特征，并将噪声信息转换成接近零的特征。然而，设计这种滤波器需要大量的信号处理专业知识，并且一直是一个具有挑战性的问题。深度学习为解决这个问题提供了一种新的方法。深度学习使过滤器能够使用梯度下降算法自动学习，而不是由专家人工设计过滤器。因此，软阈值和深度学习的结合是一种很有前途的方法，可以消除噪声相关的信息，并建立高度区分的特征。软阈值化的功能可以表示为

公式（9）和公式（10）软阈值的处理方式图和导数Fig.3 。输出对输入的导数不是1就是0，这对于防止梯度消失和爆炸问题是有效的，

在经典的信号去噪算法中，通常很难设置合适的阈值。此外，最佳值因情况而异。针对这一问题，在深度体系结构中自动确定使用的阈值，以避免人为操作的麻烦。在随后的章节中介绍了在已开发的DRSNs中确定阈值的方法。

2） DRSN-CS结构

开发的DRSN-CS是ResNet的变体，它使用软阈值来去除与噪声相关的特征。软阈值作为非线性变换层插入到RBU中。此外，阈值的值可以在RBU中学习，这将在下面介绍。
如图4(a)所示，标题为“具有通道共享阈值的剩余收缩构建单元(RSBU-CS)”的构建单元不同于图2(a)中的RBU，因为RSBU-CS具有用于估计软阈值的阈值的特殊模块。在特殊模块中，将GAP应用于特征地图𝑥𝑥的绝对值以获得1D向量。然后，将1D矢量传播到两层全连接网络中，以获得缩放参数，然后，在两层FC的末端应用一个sigmoid函数，以便将缩放参数缩放到(0，1)的范围，该范围可以表示为

缩放参数𝛼乘以|𝑥|的平均值以获得阈值。，软阈值化的阈值不仅需要为正，而且不能太大。如果阈值大于特征图的最大绝对值，软阈值的输出将为零
总的来说，RSBU–CS中使用的阈值由下式表示

所有通道一个阈值
可以类似于图2(b)-©中的来构造具有2的步幅和双倍数量的通道的RBUs。

3） DRSN-CW网络架构

开发的DRSN-CW是ResNet的另一个变种，与DRSN-CS的不同之处在于对要素图的每个通道应用了一个单独的阈值，这将在下面介绍。图4©显示了具有通道式阈值的残余收缩构建单元。使用绝对运算和GAP将特征映射𝑥简化为一维向量，然后传播到两层FC网络中。FC网络中的第二层有一个以上的神经元，神经元的数量等于输入特征图的通道数。FC的输出通过以下方式缩放至(0，1)范围

每个通道一个阈值

总结

将深度学习方法应用于含高噪声振动信号的机械故障诊断中，提高其特征学习能力是一项重要的任务。本文提出了两种新的深度学习方法，即具有通道共享阈值的深度剩余收缩网络(DRSN-CS)和具有通道方向阈值的深度剩余收缩网络(DRSN-CW)。这些方法将软阈值化作为可训练的收缩函数集成到深层结构中，以将不重要的特征强制为零，从而使所学习的高级特征变得更有区别性。阈值是使用插入的模块(即专门设计的子网络)设置的，因此不需要信号处理方面的专业知识。

通过与传统的深度学习方法的实验比较，验证了所开发的深度学习系统在提高诊断准确性方面的有效性。在各种类型和数量的人工插入噪声下的平均测试精度方面，开发的DRSN-CS和DRSN-CW不仅分别比经典的ConvNet提高了10.93%和11.95%，而且比经典的ResNet分别提高了2.30%和3.32%。因此，在深度学习方法中将软阈值作为可训练收缩函数的集成可以有效地提高从高噪声振动信号中辨别特征的学习能力。就总体平均测试精度而言，所开发的DRSN-CW方法的性能比DRSN-CS方法略有提高(1.02%)，这是因为特征图的不同通道通常包含不同数量的噪声相关特征。因此，开发的DRSN-CW允许特征地图的每个通道具有其自己的阈值，这比DRSN-CS更灵活，在DRSN-CS中，特征地图的所有通道使用相同的阈值。因此，DRSN-CW比DRSN-CS具有更高的特征学习能力和诊断性能。当处理各种干扰噪声的信号，如声信号、视觉信号和电流信号时，所开发的数字参考系统不仅适用于使用振动信号的故障诊断任务，而且适用于各种领域的模式识别任务。

Deep Residual Shrinkage Networks for Fault Diagnosis论文