故障树手册（Fault Tree handbook)（6）

第十章概率与统计分析

1 概述

在这章中，我们将试图去描述和故障树相关的概率与统计概念中的基本元素。这些知识也是故障树量化的基础。在这方面基础好的读者可以直接跳过本章去阅读第十一章，在后边需要的时候再来回顾对应的内容。

我们现在先来讨论概率分布理论。我们首先会讲解二项分布，接着学习常规的分布原理，并重点学习一些在系统分析中常用到的特殊分布。然后我们将具备统计评估的基础知识。

我们的表示法或许不是最好的传统数学统计，我们的方法是一个作者在对工程学的学生和工程师统计课程的过程中所采用的改进后的方法。我们有时会为了更好更快的阐述概念而牺牲一些数学的严谨性。

2 二项分布

假设我们有四个相似的系统，这些系统都经过特定时间的测试。在测试的最后我们进一步的假设所有的测试结果我们都准确的以“成功”或“失败”进行了记录。如果成功的概率用p来表示（失败的概率就是1-p），那么在四次实验外的成功的概率是多少？

这个实验的结果集合可以用如下表示（下标表示第几次实验，S表示成功，F表示失败）：

$S_1F_2S_3F_4$ 表示“第一次沈工，第二次失败，第三次成功，第四次失败”。该结果的概率为 $p\cdot(1-p)\cdot p \cdot (1-p)=p^2\cdot (1-p)^2$ 。注意在这四次实验中，四次都成功的方法只有1种，三次成功一次失败的方式有四种，两次成功两次失败的方式有6种，一次成功三次失败的方式有四种，全部失败的方式有一种。总的来说，对于n次实验，其中成功x次的方式为
$C_x^n=\frac{n!}{x!(n-x)!}$
它其实就是n个物体一次拿出x个的组合的数量。注意一共有 $2^4=16$ 个不同的结果。如果实验n次，每次结果要么是“成功”要么是“失败”，那么就应该会有 $2^n$ 个结果。

让我们按照如下的方式进行分类：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6VWT3guE-1586708457762)(asserts/figureX-t2.png)]

考虑最后一列的各项。 $4p^3(1-p)$ 表示四次实验中有3次成功的概率。四次实验中成功三次可以有四种方式，如果有3次成功，那么我们一定有一次失败。三次成功一次失败的概率是 $p^3(1-p)$ ，因为有四种结果方式，因此最终的概率是 $4p^3(1-p)$ 。最后一列的表达式表示二项分布的单独项，它的标准形式如下所示：

如果任意实验的成功概率是p，那么
$P[n实验成功x次]=C^x_n p^x(1-p)^{n-x}=b(x;n,p) \tag{X-1}$

$b(x;n,p)$ 表示概率密度形式的二项分布。概率密度形式会在后边的章节进行讨论。如果读者让n=4，且x的取值范围是0到4，将能看到从公式X-1中得到的前一个例子的概率列中的单独项。

在n次实验中最多获得X成功的概率，以及最少获得X项成功的概率，可以通过将对应的单独项相加来获得。

$P[n次实验最多成功x次]=\sum_{s=0}^{x}C^s_nP^s(1-p)^{n-s}\equiv B(x;n,p) \tag{X-2}$

$P[n次实验最少成功x次]=\sum_{s=x}^{n}C_n^sp^s(1-p)^{n-s}=1-\sum_{s=0}^{x-1}C_n^sP^s(1-p)^{n-s} \tag{X-3}$

其中，B(n;n,p)是累积分布形式里的二项分布（累积分布将会在后一个章节讨论）。在这个阶段，我们可以简单的解释二项式是成功次数小于等于某个值的概率。因此，回到我们的例子，四次实验中成功两次的概率是：

$6p^2(1-p)^+4p^3(1-p)+p^4=1-[(1-p)^4+4p(1-p)^3]$

二项分布是一个非常大的表格，经常是公式X-2的形式但有时候会是公式X-3的形式，有时候是X-1的形式。可以查看参考资料【1】，【33】，【41】中的例子。

二项分布的统计平均值是np，方差是 $np(1-p)$ 。平均值是分布位置的度量，而方差是分散程度的度量。这些知识会在随后的章节中讨论。

在使用二项式的过程中，我们已经做出了很多的假设。明确的列出这些假设非常重要。

每一次实验都有且只有两个实验结果。我们可以用“正常”“故障”来表示结果，也可以用其他的方式准确表示。
一共有n次随机试验，n是已经确定的数字。
所有n次实验完全独立。
成功的概率可以用p或者其他字母表示，p在实验的过程中是一个不变的常数。

非常重要的一点是，如果问题出现，并违反了上边一条或多条的假设，那么使用二项分布就是有疑问的，除非对违反的效果进行调查。事实上，所有的分布和所有的数学方程的特征都是基于一些假设和限制的，使用这些分布或方程涉及到这些假设和限制的相关方面。

现在让我们重新审视这些假设，假如说其中某一条假设并不成立，那么我们能做什么？我们来看几个违反这些假设的例子。

如果实验的结果不止一个会怎样？在某些测试方法中，会有三个可能的决策：接受批次，拒绝批次，继续实验。如果我们从装有白色、绿色、红色、黄色、蓝色芯片的容器内抽取一个芯片，每一次的实验结果会有5种可能性。这种案例不会构成严重问题，我们简单的用二项分布的扩展方法来取代二项分布，这个方法就是多项分布，该方法在很多统计著作中都有讲到（例如参考资料52）。如果适用，我们也可以将结果分类为“成功”与“失败”，并在更粗略的分类上使用二项式。（在这里“成功”的概率是所有归类为成功的事件的概率的和）
现在我们假设实验的次数n是未知的，但是知道成功的次数。例如，我们扔一个骰子直到扔出一个5.我们并不能事先知道我们要抛多少次。或者，我们可以去测试相似的继电器直到发现一个坏的，同样的，我们不知道需要测试多少次。在这种情况下，我们不能使用二项式，但是另一个和二项分布相关的分布是可以用的，它叫做“负二项分布”（参考资料13）。负二项分布 $\hat{b}(x;k,p)$ 给出了进行到x个实验时第k次成功的概率。
$\hat{b}(x;b,p)=C_{x-1}^{k-1}p^k(1-p)^{x-k} \tag{X-4}$
如果n次实验的结果是互相依存的（例如第x+1次的结果依赖于前x次的结果或可能与前面的结果有关），困难就会增加好多。需要各种条件概率表示。特定结果顺序概率依赖于发生的次序,每个不同的次序有不同的概率。举个例子，用二项分布来估计是否会下雨就是不可行的事情，因为天气模式一般会持续几天或几周，星期三是什么天气与星期二是什么天气有关。如果独立性存疑，则应该先进行独立性检查在应用二项分布解决问题（参考资料11）。
如果成功的概率在实验的进行过程中发生了变化，当实验的样本选自一个固定的范围且不拿出替换，这时我们能用超几何分布（hypergeometric distribution)解决该问题。这个分布的形式如下：
$h(x;n,a,b)=\frac{C_a^xC_b^{n-x}}{C_{a+b}^n} \tag{X-5}$

其中，a是总体中具有特征A的项目数量，b是总体中具有特征B的项目数量，N=（a+b)是总体或批次的大小，n是从总体中抽取样本的大小，x是样本中具有特征A的数量。

举个例子，特征A是有缺陷的，特征B是没有缺陷的。 $h(x;n,a,b)$ 得出恰好n样本中有x个具备特征A的概率。

当从一个小数量总体中进行抽样且不替换时，必须应用超几何分布。（”小“表示N和n在数量上是同一级别的）。举个例子，如果我们接受了50个电感，其中10个有缺陷，那么有问题的部分就有五分之一，但是当我们抽取20个样本而不替换时，该比例会发生变化。

从公式X-5我们可以看出，使用超几何分布涉及到包含阶乘在内的复杂的计算，因为这个原因，二项式经常在此类问题中使用以获得近似的结果。二项分布能在 $N \geq 10n$ （其中N是总体数量,n是抽样数量，一些作者认为这里应该是 $N \geq 8n$ ）时获得近似结果。在此类问题中， $a/n$ 近似等于 $p$ 。

一个应用二项分布的特殊例子，考虑如下的问题，ABC公司大量生产一个型号的电阻。以前的经验表明电阻的缺陷率是百分之一。因此，一个采样的缺陷概率 $p=0.01$ 。如果从生产线上一次采样10个电阻，那么其中只有一个缺陷电阻的概率是多少？我们可以得出

$x=1,n=10,p=0.01 \\ b(x=1;n=10,p=0.01)=C_{10}^1 \times 0.01 \times 0.99^9$

如果二项式分布表可用，我们就可以简单的通过寻找B(1)-B(0)来评估，因为

$\begin{aligned} &B(1)=P[0或1个缺陷电阻] \\ &B(0)=P[只有0个缺陷电阻] \\ &B(1)-B(0)=0.9957-0.9044=0.0913 \\ \end{aligned}$

为了日后相似的计算，我们可以画一张10个抽样中含有 $x=0,1,2,3..10$ 个故障电阻的概率的分布函数。该分布如图X-1所示，图X-1的曲线并不是十分合理，因为二项分布是离散的，但是这样连续插值可以更好的显示出分布的总体形状。

在可靠性和安全性评估中，如果每一个每一个冗余部件工作独立，且每个冗余部件都有（近似）同样的失效概率，那么二项分布是适用于该冗余系统的。举个例子，假设我们有一个n冗余部件，假设其中多于x个发生故障，则系统就会故障。该系统不发生故障的概率就是小于等于x个部件故障的概率，这正是二项累积概率 $B(x;n,p)$ 。

或者，假设有一种情况中有n个可能发生的事件，倘若多于x件事情发生，则出现灾难。如果n件事情互相独立且发生概率相同。那么二项分布就是适用的。总的来说，当某事件重复n次，我们想直到其中某个结果出现x次，小于x次或者大于x次的概率时，二项分布就是适用的。这里的“n次实验“可以是n个部件，n年，n个系统或者其他适用的数量单位。

我们将短暂的返回二项分布，因为它的两个限制形式对我们很重要。我们将对其分布和分布参数进行讨论研究。

3. 累积分布函数（Cumulative Distribution Function)

让我们用X代表随机实验的可能结果。X经常用来表示随机变量，这个值可能会是离散（比如一个批次里边的数量）的或者连续的（比如重量，高度）。事实上，即使表面上是连续的变量，由于存在测量的分辨率，看起来连续的值也是一个离散变量。将这些量看成是连续的会让数学层面方便一些。用对应的小写字母x来表示一个随机量会更方便一些。

在这里我们需要展现的基本公式将以连续值的形式给出，在需要给出连续值与离散值的不同的地方，我们会加以说明。总的来说，在操作上是用求和富豪来代替整数符号的问题。在累积分布方程中用于表示概率形式的 $F(x)$ 里，我们一般表示X的值要小于等于x的值。

$F(x)=P[X \leq x] \tag{X-6}$

根据公式X-6，因为F(x)是个概率，因此

$0\leq F(x) \leq 1$

如果X的取值范围是负无穷到正无穷，那么

$F(-\infty) =0 \\ F(+\infty) =1 \\$

如果X有更小的限定 $x_1 <X <x_u$ ，那么

$F(x_1)=0 \\ F(x_u)=1$

F(x)有个很重要的性质是随着x的增加，它的值是不会减小的。在严格的数学含义上，它是一个非减函数，但是不一定单调。它可以更简洁的表示如下：

If $x_2>x_1$ , then $F(x_2)\geq F(x_1)$

一个更重要的性质如公式X-7所示：
$P[x_1 \leq X \leq x_2]=F(x_2)-F(x_1) \tag{X-7}$

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oqkWE3Xc-1586708457765)(asserts/figureX-2.png)]

我们在第二节遇到的二项累积分布B(x;n,p)是F(x)一种特殊形式。F(x)连续和离散变量的标准形式如图X-2所示。

我们展现在上边方程中的累积分布函数的性质对离散和连续随机变量是有效的。

举一个随机变量和对应的累积分布的例子，在一个随机试验中，我们观察一个单独的器件的故障次数。每当该部件故障，我们就修好它，将时间t归0，并记录下次故障的时间。

我们假设维修并不会改变部件故有性质，也就是说每次维修都会让部件回到初始状态。随机变量T是初始化或维修后到发生故障的时间。我们用 $t_i$ 来表示T的特定值。累积分布 $F(t)$ 用来表示任意给定故障时间少于或等于t的概率。

另一个例子，我们针对某样物体进行反复的测量。随机变量X表示测量结果， $x_i$ 表示某次测量结果。累积分布F(x)表示测量值小于或者等于x的概率。我们能从 $F_{est}(x_i)$ 来估计 $F(x)$ ，其中
$F_{est}(x_i)=\frac{n_i}{n}$

n是测量的总次数， $n_i$ 是测量的X小于等于 $x_i$ 的测量次数，随着n不断的变大， $F_{est}(x_i)$ 也在不断的接近 $F(x_i)$ 。在应用中，累积分布函数必须根据理论思考来确定，或者通过统计方法估算。

4. 概率密度函数(probability Density Function)

对于连续随机变量，概率密度函数(probablity desity function,简称pdf),f(x)，可以通过F(x)微分的方式获取。

$f(x)=\frac{d}{dx}F(x) \tag{X-8}$

它的等效形式是

$F(x)=\int_{-\infty}^{x}f(y)dy \tag{X-9}$

因为f(x)是非递减函数的斜率，我们有

$f(x) \geq 0 \tag{X-10}$

若概率函数在整个范围内进行积分，那么结果是统一的。

$\int_{-\infty}^{\infty}f(x)d(x)=1 \tag{X-11}$

$f(x)$ 的性质使得我们可以把其下的区域看成概率。

概率密度的基本含义可以用公式X-12表示：

$f(x)dx=P[x<X<x+dx] \tag{X-12}$

我们前边的公式X-7可以用另外一种特别有用的形式表示：

$P[x_1\leq X \leq x_2]=\int_{x_1}{x_2}f(x)dx \tag{X-13}$

f(x)的标准形状阐述于图X-3，其中a是一个对称分布，b是一个向右倾斜的分布，c是向左倾斜的分布。（在图中，x增加相当于图形右移）。

在持续变量的情况下，概率必须用区间表示。这是因为对于指定的x值的概率一直等于0，因为在任意区间中有无数个X的值。因此 $f(x)dx$ 是目标落在x和x+dx区间的数量的概率。当然，dx的区间长度应该尽可能的小。f(x)本身也就是单位区间的概率。在这个例子中，我们用加法符号来替代积分符号，将所有目标区间的x的概率加起来。公式X-13将适用于所有离散的X。

在先前故障案例中， $f(t)dt$ 给出了部件在t和t+dt之间发生故障的概率。在测量的例子中，f(x)dx给出了测量结果位于x和x+dx之间的概率。从经验角度出发，如果我们考虑大量的测量，f(x)dx可以用以下公式进行估计
$f(x)\delta x= \frac{\delta n_i}{n}$
这里n是测量的总次数, $\delta n_i$ 是X位于x和 $x+\delta x$ 之间的数量。

5。分布参数和矩

特定概率密度函数的特征是通过分布参数描述的。一类参数用于沿着横座标定位分布。因此，像这类的参数被称作位置参数（location parameter)。

最常见的位置参数是统计平均数。其他常用到的位置参数有：中值（median)（50%在概率密度曲线下方的区域在中值的左边；另50%在右边）；模（mode)，位于概率曲线的最大值或“峰值”上（在二项分布或三项分布中，可能会没有最大值或有多个最大值的情况）；中列数（mid-range）,当变量在有限的区间内，它是最大值和最小值的平均值，除此之外，其他的都不很重要。图X-4展示这些概念。

在（a)中，中值用 $x_{.50}$ 表示。从中值的定义中可以看出，50%的次数结果将会小于等于 $x_{.50}$ ，而50%的次数，将会大于。因此 $P(x\leq x_{.50})=.50$ ，根据累积分布， $F(x_{.50})=.50。中值是$ \alpha $百分数的特殊例子，$ x_\alpha $定义为F(x_\alpha)=\alpha$ ，例如，90%百分数是 $F(x_{.90})=.90$ ，90%的次数中结果中的x数值将会小于等于 $x_{.90}$ 。

在（b）中，模是用 $x_m$ 表示，给出了最大概率的结果的值。在©中，我们看到如何从两个极值中得出中列数。

均值（average）也被成为平均值（mean）或期望值（expected value）。如果我们重复做相同的随机实验，对结果取平均值。那么这个实际平均值会随着实验次数的增加越来越接近理论平均值。（我们假设分布存在平均值，这样实验平均值会越来越趋向于总体平均值）

在图X-3（a)中那样的对称分布的情况下，均值，中值和模是统一的。对于倾斜的分布，如图X-3（c)，中值将落于模和均值之间。在图X-5中，这两个对称分布图形有着相同的均值，中值和模。但是对于中心聚集程度的角度来看，它们却是不一样的。用来描述这分布这方面的参数叫分散参数（dispersion parameters）。其他和这个类似的参数还有方差（variance）、方差的开方和标准差（standard deviation）。其他分散参数比较少用到，是种植绝对偏差（median absolute deviation),范围在上限值和下限值之间。我们将会在后一章里边计算方差。

事实上，还有很多其他的分布参数，我们这里涉及到的都是一些基本的参数。当累积概率分布的形式确定后，我们必须掌握计算分布参数的具体方法。这些通用方法中的一些方法需要计算分布中的矩，并且在理论统计中十分重要。分布的矩可以在任意指定点上计算，但是我们限制只在（a)中计算原点的矩，(b)中计算均值的矩。

(a) 原点的矩

第一个关于原点的矩被定义如下：

$\mu _1 ' = \int_{-\infty}^{+\infty}xf(x)dx \tag{X-14}$

它表示X的平均或期望值，用 $E[X]$ 表示。我们使用 $\mu$ 来简单的表示均值，因为 $E[X]=\mu$ 。

第二个关于原点的矩被定义如下：

$\mu _2 '=\int_{-\infty}^{+\infty}x^2f(x)dx \tag{X-15}$

他表示 $X^2$ 的期望值， $E[X^2]$ 。

总而言之，第n个关于原点的矩是

$\mu _n '=\int_{-\infty}^{+\infty}x^nf(x)dx \tag{X-16}$

表示 $X^n$ 的期望， $E[X^n]$

如果 $Y=g(X)$ 是任意关于X的函数，X是根据概率密度函数f(x)的分布， $g(X)$ 的期望可以通过如下方式获得：
$E[Y]=E[g(X)]=\int_{-\infty}^{+\infty}g(x)f(x)dx \tag{X-17}$

(b)均值的矩

第一个关于均值的矩定义如下：

$\mu_1=\int_{-\infty}^{+\infty}(x-\mu)f(x)dx \tag{X-18}$

因为它总是等于0，所以并没有什么用处。

第二个关于均值的矩的定义如下：
$\mu_2=\int_{-\infty}^{+\infty}(x-\mu)^2f(x)dx \tag{X-19}$

它表示了方差 $\sigma ^2$ 或者$E[(X-\mu)^2f(x)dx]。总的来说，均值的第n个矩定义如下：

$\mu_n=\int_{-\infty}^{+\infty}(x-\mu)^nf(x)dx \tag{X-20}$

表示 $E[(X-\mu)^n]$ 。

有一个非常有用的关系：

$\mu_2=\mu_2'-(\mu_1')^2 \tag{X-21}$

公式21允许我们通过评估X-15中的积分，而不是X-19中更复杂的积分来计算方差。公式21可以通过如下方式得到轻易的证明：

在离散随机变量的情况下，原点的第一个矩表示为：

$\mu=\mu_1 ' =\sum_{i=1}^n X_i p(x_i) \tag{X-22}$

这里 $p(x_i)$ 是 $x_i$ 的概率，最常用的寻找n个值的平均值的方程如下：

$\hat{x}=\frac{1}{n}\sum_{i=1}^n x_i$

这是公式22应用的特殊情况，每个值都被认为拥有同样的出现的概率 $\frac{1}{n}$ 。

例如，对於单一的骰子，我们有

$\mu=\mu '=\frac{1+2+3+4+5+6}{6}=3.5$

尽管实际上不会出现这样的结果，但是期望值是3.5.

同样的，如果随机变量是离散的，那么第二个均值的矩的形式如下：

$\mu _2=\sum_{i=1}{n}(x_i-\mu)^2p(x_i) \tag{X-23}$

在所有 $x_i$ 都有同样的“权重”1/n的情况下，公式X-23可以简化成计算n个读书采样的方差的采样等式：

$s^2=\frac{1}{n}\sum_{i=1}{n}(x_i-\hat{x})^2 \tag{X-24}$

我们用一个应用分布矩的简单例子来总结这一节的内容。参考如图X-6那样的矩形概率密度函数，它在a和b中的任何值基本都是相等的，因为都相等，所以 $f(x)=f_0$ 。因此，这个概率密度函数的积分应该是1，我们有：
$Area=f_0(b-a)=1$ ，于是 $f_0=\frac{1}{b-a}$ 。

分布的均值（期望）计算如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cVvsse9F-1586708457771)(asserts/equationX-2.png)]

分布的方差计算如下：

10.6 二项式的极限形式：正态分布和泊松分布

有一些很重要的分布是二项分布的极限形式。例如：
$\lim_{n\to \infty}[C_n^x p^x(1-p)^{n-x}]$

上面的式子是p是固定的，n趋近于无穷的一种极限形式。省略数学细节，该过程会转换成著名的正态分布形式：高斯分布。

$f(x;\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{1}{2}(\frac{x-\mu}{\sigma})^2] \tag{X-25}$

这里 $\mu$ 和 $\sigma$ 是平均值和标准差。正态分布已经广泛的应用表格进行处理，但不是X-25那样的形式。X-25那样的表格需要对 $\mu$ 和 $\sigma$ 进行广泛的覆盖，这将使得表格过于臃肿而降低可用性。找到一种转换形式，将 $\mu$ 和 $\sigma$ 标准化，变成0和1，这是有可能的。这种转换是：

$z=\frac{x-\mu}{\sigma} \tag{X-26}$

对应的基于z的表现形式为

$f(z)=\frac{1}{\sqrt{2\pi}}e^{-z^2/2} \tag{X-27}$

这个式子被叫做标准正态分布，它是所有正态分布表格的基本形式。

读者注意到，从公式X-25经由公式X-26到公式X-27，并不是一个简单的替换的过程。这个变换用到了转换的雅克比式（参考【25】）。在这个例子中，雅克比式是 $\sigma$ ，这里抵消了 $1/(\sqrt{2\pi}\sigma)$ 中的 $\sigma$ 。 $f(z)$ 的图形如图X-7所示：

这里列举了一些标准正态分布的几个特征。其中我们最感兴趣的是曲线之下横轴上的两个点之间的部分。读者应该还记得这样的区域可以当成一个概率，因为曲线下的所有区域之和是一致的。假设存在一个点 $z_1$ ，一些表格记录了从 $z_1$ 到 $+\infty$ 的曲线下的区域（图中的阴影部分）；一些表格记录了从 $z_1$ 到 $-\infty$ 的曲线下的区域，还有一些表格记录了从 $z_1$ 到原点的曲线下的区域。当然，在智能的使用表格之前，必须确认要制表的区域。

对于正态分布，对于原始的变量X， $\sigma$ 衡量了平均值 $\mu$ 到曲线拐点的距离，概率密度曲线从 $\mu-\sigma$ 到 $\mu+\sigma$ 的区域约等于0.68，从 $\mu-2\sigma$ 到 $\mu+2\sigma$ 约等于是0.95.

这里假设读者已经熟悉正态分布和它的表格。尽管如此，我们还是给出一个简答的数学实例，有经验的可以略过。锻件中的槽的宽度符合正态分布，它的均值 $\mu$ 等于0.900英寸，标准差 $\sigma$ 等于0.0030英寸。如果说明书中的限制（允许误差）为 $0.9000\pm 0.0050$ ,占有总产出多少百分比的数将被拒绝？拒绝的锻件是其宽度数值是在图中阴影部分的那些。

对于x=0.9050的z值为
$z=\frac{0.9050-0.9000}{0.0030}=1.67$

从标准正态表格可以得出，右边的尾巴区域在 $P[Z\geq 1.67]$ 等于0.0475。这是 $X\geq 0.9050$ 的概率。由于图形是对称的，所以左边的尾巴区域也是0.0475.所以两边尾巴加在一起的就是0.0950.这就是一个零件宽度在说明书外的概率。因此，9.5%就是零件被退回的概率。

这个退回率相当高。如果说明书不做更改，我们可以通过认真工作，降低 $\sigma$ 来降低退回率。假设我们的目标退回率是1/1000=0.001,那么最大允许的退回率 $\sigma$ ,这里记为 $\sigma '$ ，应该是多少？

如果退回率是0.001，则每个尾巴上的区域必须是0.001/2=0.0005。从表格中得出，截去0.0005区域尾巴的z的值是3.3。从 $z=(x-\mu)/\sigma$ 我们可以得出 $\sigma '=(x-\mu)/z$ ，

因此 $\sigma '=\frac{0.9050-0.9000}{3.3}=0.00152英寸$ 。

因此，对于0.001的退回率，最大允许 $\sigma$ 的值是0.00152英寸。

我们研究正态分布有很多种理由。其中之一就是根据中心极限定理，不管每个测量的分布如何，大量的测量的均值就趋近于正态分布。另一个理由是正态分布为许多消耗模型提供了相当好的统计模型。

从系统和可靠性分析的角度出发，另一种重要的形式是以下二项分布的极限形式：
$\lim_{n\to \infty \\ p\to 0}\{C_n^xp^x(1-p)^{n-x}\} \tag{X-28}$

在公式X-28中，这个极限采用了这样一种形式来使得np保持有限。这个极限过程的结果为

$\frac{(np)^x}{x!}e^{-np}=\frac{m^x}{m!}e^{-m} \tag{X-29}$

这里m=np。（这个数学过程可以在很多参考资料中找到，例如参考【32】，45-46页）

公式29给出了稀有事件（ $p\to 0$ ）在大量试验下（ $n \to \infty$ ），精确的x的发生概率。事件预期的发生次数是 $np=m$ 。公式X-29的分布就是泊松分布。如同矩的方法展示（虽然有更简单的方法），泊松分布的均值和方差在数值上都等于m。

即使p不是特别小，n也不是特别大，泊松分布还是能很好的近似二项分布。举个例子，假设在批量生产过程中遇到不合格产品的概率是0.1（即p=0.1），那么在一批次10个零件中（n=10）发现不合格产品正好是1个的概率是多少？准确的数值可以通过二项分布得到
$b(1;10,0.1)=0.3874$
泊松分布可以得到近似结果为0.3679，于实际值相差不大。如果我们提高批次的数量到20（n=20），则结果更加接近:二项分布为0.2702，泊松分布为0.2707.

泊松分布非常重要，不仅因为它能近似计算二项分布，而且它能描述很多稀有事件的性质，而不论其潜在的物理过程如何。泊松分布在描述稳态系统组件或系统的故障发生方面还有很多应用。我们将在后边的章节描述这些系统应用方式。

10.7 针对系统故障的泊松分布应用——指数分布

假设我们有一个稳态系统，它不在燃烧或损耗状态。我们进一步假设，当它失效时，它会恢复到初始状态，维修的时间可以忽略。我们的关注点是系统故障。我们着重关注系统出现故障的次数为0次的概率。因此，在泊松分布中，我们在公式X-29中令x=0。其结果是：
$P[系统故障次数为0]=e^{-m}$
其中，m为大量的实验中系统预期的故障数。

现在，就系统失效而言，我们关注的参数是时间。因此我们要寻找如何用时间来表达m。这件事很简单。

假设我们有系统的数据，平均每50小时系统就会故障。我们说故障的平均时间（ $\theta$ ）就是50小时。如果我们让系统工作100小时，我们预计会遇到两次失败，因为100/50=2。采用符号t表示工作时间，我们有

$时间t内我们预计的故障次数=t/\theta=\lambda t$ ，这里 $\lambda = 1/\theta$ 。

但是m为预计的故障次数。因此
$P[系统故障0次]=e^{-m}=e^{t/\theta}=e^{\lambda t}$ 。

现在，系统的可靠性，R(t)通过时间t内持续正常工作的概率来定义。因此我们有：
$R(t)=e^{-t/\theta}=e^{-\lambda t} \tag{X-30}$

时间t之前系统出现故障的概率由累计分布函数F(t)给出。系统可能在时间t前失效或者不失效，因此我们有
$R(t)=e^{-\lambda t}=1-F(t)$
以及
$F(t)=1-e^{-\lambda t} \tag{X-31}$
有关公式X-31的概率密度函数现在可以轻易的得出
$f(t)=\frac{d}{dt}F(t)=\frac{d}{dt}(1-e^{-\lambda t}) \\ f(t)=\lambda e^{-\lambda t} \tag{X-32}$
公式X-32中的概率密度函数通常指的是“失效时间的指数分布”。公式X-30在某些时候简称是实数分布。

公式X-30，X-31，X-32给出的可靠性、累计分布、概率密度函数，在系统分析和可靠性方面用处非常广泛。原因很简单，指数分布是个非常简单的分布。只有一个参数（故障率或故障平均时间）必须通过经验确定。但是我们必须十分小心的应用公式X-30来计算系统可靠性。因为公式X-30来自于泊松分布。而后者是二项分布的极限形式。二项分布被我们在前一章所列举的很多假设所限制。在极限过程中一些假设被修改。但其中之一并没有涉及。这个假设就是所有的实验都是互相独立的。换句话说，一个实验就是在某个时间段有机会发生故障。

当系统故障是可修复的，我们关于独立实验的假设。解释如下。在未来某时段故障的概率是一个只和时间段长度有关的函数，和过去的故障次数无关。如果系统是不可修复的。则我们的假设需要更改成如下的形式：没有先前的故障，对于不可修复的部件，如果我们在一个靠前的时间出现了一次故障，那么在某一个后边时刻，它的已发生故障的概率是1，后续发生故障的概率是0，以为事件已经发生了。

表征故障过程的另一种方法如下。对于指数分布，到时间t还没有出现故障，那么在(t,t+ $\delta t$ )时段中发生故障的概率和同样时间长度的其他时段概率是相等的（到该时段还未发生故障）。它和(0, $\delta t$ )时间段的故障概率是相同的。因此，因为我们从t=0开始运行系统，在时间t上我们的系统“和新的一样”，这是指数分布的另外一种描述。

如果我们从假设出发——在特定时间段里故障的概率是一个只和时间段的长度有关的函数，我们能单独从这个假设中得到指数分布。假设一个不可修复的系统，他能存在于两种状态之一： $E_1$ 为系统工作, $E_0$ 为系统故障。我们定义

$P_1(t)=在时间t系统在E_1状态的概率 \\ P_0(t)=在时间t系统在E_0状态的概率$

假设开始时系统处于 $E_1$ 状态.

现在 $P_1(t+\delta t)$ 表示系统在 $t+\delta t$ 时系统处于状态E1的概率。我们有
$P_1(t+\delta t)=P_1(t)[1-\lambda \delta t]=P_1(t)-P_1(t)\lambda \delta t$

这里，根据我们开始的假设（系统故障概率只和时间段的长度有关）， $\lambda \delta t$ 给出的系统在时间段 $\delta t$ 中从状态E1到E0的转换概率， $\lambda$ 是一个常数（失效率）。因此 $(1-\lambda \delta t)$ 表示系统在 $\delta t$ 时刻没有从E1到E0的概率。代数重排产生了如下的差分方程。
$\frac{P_1(t+\delta t)-P_1(t)}{\delta t}=-\lambda P_1(t)$
如果我们让时间段的长度接近0，根据定义，方程左边的极限形式就是 $P_1(t)$ 关于t的导数。
$\lim_{\delta t \to 0}[\frac{P_1(t+\delta t)-P_1(t)}{\delta t}]=\frac{d}{dt}P_1(t)=P_1 '(t)= -\lambda P_1(t)$
这是关于时间微分的主要观点，是由牛顿提出。我们现在有了微分方程：
$P_1'(t)=-\lambda P_1(t)$
如果我们记得限制条件 $P_1(t=0)=1$ ，则这很容易整合。
$\begin{aligned} &\frac{d[P_1(t)]}{P_1(t)}=-\lambda dt \\ &[ln\ P_1(t)]^t_0=[-\lambda t]_0^t \\ & ln \ P_1(t)-ln 1=-\lambda t &P_1(t)=e^{-lambda t} \end{aligned}$
这正是系统的可靠性，因为 $P_0(t)+P_1(t)=1$ ，我们有
$P_0(t)=1-e^{-\lambda t}=1-R(t)=F(t)$

对应的概率密度函数是
$f(t)=\lambda e^{-\lambda t}$
我们认识到这是指数分布。

10.8 失效率函数

上一章中
$F(t)=P[t之前发生故障的]$
$f(t)dt=P[t和t+dt之间发生故障]$
我们现在定义一个条件概率， $\lambda(t)$ ，叫做失效率函数（failure rate function）
$\lambda (t)dt=P[故障在t和t+dt间发生|先前没有发生故障] \tag{X-33}$

对于任意常规分布，有一个重要的性质：
$\lambda (t)=\frac{f(t)}{1-F(t)} \tag{X-34}$
该式证明如下.
我们用T来表示失效发生的时间。T是一个随机变量，定义如下：
$\lambda (t)dt=P[t<T<t+dt |t<T]$
让我们用(t<T<t+dt)表示事件A，然后用t<T表示事件B。我们记得有如下性质
$P(A|B)=\frac{P(A\bigcap B)}{P(B)}$
因此
$\lambda (t)dt=\frac{P[(t<T<t+dt)\bigcap (t<T)]}{P(t<T)}$
现在事件A是事件B的一个特例。当A发生，则B自动发生，在集合理论中，A是B的一个子集，在这些条件下， $A\bigcap B=A$ 。于是
$\lambda (t)dt=\frac{P[t<T<t+dt]}{P(t<T)}=\frac{P[A]}{P[B]}=\frac{f(t)dt}{1-F(t)}$
最终
$\lambda(t)=\frac{f(t)}{1-F(t)}$
这也就是公式X-34.
如果我们为一个系统画出关于时间的 $\lambda (t)$ ，则曲线如图X-8所示。这个曲线呈现浴缸的样子。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-txmufdU3-1586708457778)(asserts/figureX-8.png)]

图8的曲线可以分成I，II，III的三部分。I区被称为“婴儿死亡率区域”，这个区域很难确定分布。适合这部分曲线的分布可能取决于系统本身的特性。制造商经常要对产品进行老化测试，以降低批量产品运送给顾客前的早期故障。II区对应“一个常数故障率”，是指数分布适用的机会失败区域。区域III对应磨损过程，正态分布经常为此提供一个适当的模型。对于一个真实的系统， $\lambda (t) - t$ 曲线经常与图X-8的描述差异较大。例如，区域II的指数分布经常整个消失，或者老化区域是可以忽略的。

返回故障率方程，可以很方便的对X-34的F（t）和f(t)求解。通过以下形式改写X-34来完成。
$\lambda (t)dt=\frac{[-F'(t)dt]}{1-F(t)} \tag{X-35}$
其中 $F'(t)=\frac{dF(t)}{dt}$ .
对X-35两边取积分，得到
$-\int_0^t \lambda(x)dx=ln[1-F(t)]$
它等效于
$1-F(t)=exp[-\int_0^t\lambda (x)dx]$
因此 $F(t)=1-exp[-\int_0^t\lambda (x)dx] \tag{X-36}$
如果我们对X-36取微分，我们有
$f(t)=\lambda (t)exp[-\int_0^t\lambda (x)dx] \tag{X-37}$
假如我们令 $\lambda(t)=\lambda=常数$ ，那么对于X-36和X-37，我们有
$F(t)=1-e^{-\lambda t} \\ f(t)=\lambda e^{-lambda t}$
这是一个指数分布。对于该指数分布，然后，故障率是一个常数（仅依赖于时间t），
$\lambda(t)dt=P[故障发生在t和t+dt之间 | 以前没有发生故障]=\lambda dt$
如果我们选择采用指数分布来描述部件的故障分布。我们假设我们处于“浴缸曲线”中恒定的，稳态的部分，没有老化和磨损的发生。因为故障率是一个常数，指数分布通常指作为“随机故障率分布”，如以后的故障概率依赖于以前时序正常工作时间。

如果我们采用 $e^{=t/\theta}$ 来表示可靠性也是十分有价值的，即使是磨损发生（但不是老化），我们这里依旧是保守的。例如 $R(t)\geq e^{-t/\theta}$ ，这里R(t)是实际上的可靠性， $\theta$ 是实际的故障平均时间。对于 $t \leq \theta$ 这个关系是真实的（参考[15]）。

公式X-36，X-37可以用来评估多种不同类型的故障率模型。例如，如果 $\lambda(t)=kt$ （线性增加的故障率）我们可以得出
$R(t)=1-F(t)=exp(-kt^2/2)$
这被叫做瑞利分布。一个时间故障率相关的重要分布，通过将 $\lambda (t)=Kt^m (m>-1）$ 代入，可以获得威布尔分布.
$f(t)=kt^mexp(-\frac{kt^{m+1}}{m+1})$
和
$R(t)=1-F(t)=exp(-\frac{kt^{m+1}}{m+1})$
威布尔分布是两参数的分布，k是比例参数(scale parameter)，m是形状参数(shape parameter)。对于m=0，我们得到指数分布，当m增加，一个磨损行为就被建模。当m增长到2，f(t)则变成正态分布。当m小于0但是大于-1，则浴缸曲线的老化区域的模型就被建立起来。因此，改变m的值，我们能使用威布尔分布来包含浴缸曲线的I，II，III区域。读者可以从其他的文献中找到威布尔分布的更多的讲解。（参考【23】p137-138, 附录D，[36] p190）

10.9 一个涉及时间-失效分布的应用

时间-失效分布的概念是十分重要的，为了加深读者的印象，我们设计了如下的例子。

我们从两个供应商那里买了相似的部件A和B。供应商A声称平均寿命是100小时（ $\theta_A=100$ 小时），并声称其时间-失效分布是指数分布。B的平均寿命也是100小时，但是它的时间-失效分布是正态分布，其均值是100小时，标准差是40小时。

让我们尝试计算这两个部件的10小时工作时间的可靠性。首先，我们考虑部件A。
$R_A(t)=e^{-t/\theta_A} \\ R_A(10)=e^{-10/100}=e^{-0.1}=0.905$
因此，对于部件A，它的可靠性是90.5%。

现在让我们考虑部件B。它的分布是正态分布。我们需要找到对应t=10小时的变量z的值。
$z=\frac{t-\theta_B}{\sigma_B}=\frac{10-100}{40}=-2.25$
这个值是z去掉尾部区域的0.01222（从标准正态表），表明了10小时之前的失效概率。因此
$R_B(t=10)=1-0.01222=0.988$
B的可靠性是98.8%。
根据以上的内容，我们发现尽管 $\theta_A=\theta_B$ ，但是 $R_A$ 和 $R_B$ 还是不一样。这个结果不同因为他们的分布是不同的。当t增加，最终指数分布会比正态分布有更高的可靠性。例如，对于t=100小时， $R_A=36.8$ ， $R_B=50.0%$ ，但是对于t=200小时，这两个分布都会有相同的可靠性。读者可以计算下给定R_A=R_B$下t的值。

10.10 统计估计

假设我们参加洛杉矶地区中20到30岁的男人身高的研究。这是一个很大的总量，尽管我们想要去测量诶一个人的身高，但是实际上是不允许的。
我们采用一个妥协的方式解决该问题，我们从总量里边进行随机采样。随机采样的重要性将在后边叙述。从样本中，我们能估计任意感兴趣的参数，例如样本的均值，样本的中值，样本的方差等。现在的问题是，对于总量的采样统计这个方法到底怎么样？事实上，我们是否能保证样本均值比样本中值或中位数在总体均值中更好？为了回答这个问题，我们需要准确的了解诸如此类语句在统计上的含义。

“ $\hat{\theta_a}$ ”表示总量参数 $\theta$ 的好的估计方法
“ $\hat{\theta_b}$ ”表示总量参数 $\theta$ 的最好的估计方法
“ $\hat{\theta_b}$ ”是比 $\hat{\theta_c}$ 更好的估计方法（//TODO:这里没看懂，是不是应该是a?）

这些问题将在第十三章重新讲解。首先我们必须讨论选择随机样本的重要性，然后我们必须建立抽样分布的概念，特别是均值的抽样分布。

10.11 随机样本

一个随机样本，表示在一个总体中每一个样本都有相同的机会被涵盖（采样）。大多数统计计算是基于随机假设的；如果一个结论是通过看似是随机的，但实际上是反应某些总体特征的样本得出的，那么这个结论一定是大错特错的。

一个经典的随机假设是无效的例子，在1936年的Literary Digest投票上。投票想要做一个抽样调查，目的是看罗斯福和蓝盾谁能当选美国下一任总统。投票显示蓝盾将获胜，然而实际上却是罗斯福通过11069785票的普遍多数和523比8的选举人票数赢得了选举。在这个例子里，投票大部分是通过电话进行。在当时的经济大萧条时期，拥有电话的人大部分是富裕的共和党人，他们都倾向于投票给蓝盾。通过非随机样本做出的结论有明显的错误。在此之后不久Literary Digest就不复存在了。

如果想要在刚获取的一箱样本中进行随机抽样，那么只从箱子上边拿是不对的。如果你这样做了，你可能得到了过于乐观的结论，因为有可能箱子在运输过程中跌落，导致下边的部件都是故障的。不论何时进行抽样，必须小心保证抽样的随机性因为所有的估计技术都是基于随机抽样的。一个简单的方法，就是利用随机数表来保证抽样的随机性。其他随机抽样的方法在资料【10】有详细的描述。

10.12 抽样分布

假设从某总量中抽取样本的数量为n，并计算样本的均值 $\overline{x_1},其中$ \overline{x_1}=\frac{1}{n}\sum_{i=1}{n}x_i $，我们现在能进行第二次数量为n的抽样，并计算它的均值$ \overline{x_2} $。采用类似的方式，我们能生成其他的采样均值，$ \overline{x_3},\overline{x_4},\overline{x_5} $等。我们并不期望这些均值都相等。事实上，这些均值都是随机变量。我们将样本均值用$ \overline{X} $表示，它代表随机变量。问题来了，$ \overline{X}$是如何分布的？所谓的受限中心极限定理(restricted central limit theorem)提供了部分答案，它是这样说的：

如果X（随机变量）是按照均值 $\mu$ ，方差 $\sigma$ 进行正态分布的，那么 $\overline{X}$ 是按照均值 $\mu_{\overline{X}}=\mu$ ，方差 $(\omega_{\overline{X}})^2=\omega^2/n$ 进行正态分布的，n是样本大小。

这个定理只在总体数量是无限大的情况下才是完全正确的。对于有限的总量为N，样本大小为n，则
$(\omega_{\overline{X}})=\frac{\omega^2}{n}(\frac{N-n}{N-1})$

更重要的是，一般的中心极限定理，指的是如果X是按照均值 $\mu$ 和方差 $\omega^2$ 分布的，但是其他的分布是未知的， $\overline{X}$ 的分布和均值 $\mu$ 和方差 $\omega^2/n$ 非常接近，最少对于很大的n来说是这样的(n大于等于50)。

因此，不论何时我们处理大样本的均值，我们都会关注正态分布。均值采样分布的方差随着样本大小的增加而减少，这为尽可能多的采集样本数量提供了依据。注意针对 $\overline{x}$ 的z变换为
$z=\frac{\overline{x}-\mu}{\omega/\sqrt{n}}$

其他评估的方法（例如中位数，范围，方差等）的特征在于其对应的采样分布，其中的大部分可以在统计学的进一步资料中找到（例如参考【30】）。比如，对于一个正态分布，方差估计值 $s^2$ 是卡方分布得到的 $\chi^2$ 的函数。

$\chi^2=\frac{(n-1)s^2}{\sigma^2}$

卡方分布已经被广泛的制表，并大量应用于决策准则，拟合判断优度分析，以及假设测试。

10.13 点估计——总述(//TODO: Check General meaning )

从样本中计算单一的数值（比如 $\overline{x}$ ），构成了对应参数的点估计。代表值集合的相关随机变量称为样本估计量。为了便于描述，我们定义 $\theta$ 代表要估计的总量参数， $\hat{\theta_a},\hat{\theta_b},\hat{\theta_c}$ 表示 $\theta$ 中要估计的各类样本。例如，如果 $\theta$ 表示总量的平均值，那么 $\hat{\theta_a}$ 就可以表示样本均值估计量; $\hat{\theta_b}$ 代表中位数估计； $\hat{\theta_c}$ 代表中间范围估计，等等。
$\hat{\theta_a},\hat{\theta_b},\hat{\theta_c}$ 估计量都有采样分布。读者应注意，以下的估计量特征与采样分布有关。

a) 无偏估计量

如果一个估计量的采样分布存在这样一个均值，该均值与被估计的总量参数相等，那么这个估计量叫做无偏估计量。因此，如果 $\hat{\theta_a}$ 是一个总量均值 $\mu$ 的无偏估计量，那么
$E(\hat{\theta_a})=\mu$
从期望的属性中，我们知道样本均值 $\overline{X}$ 是一个 $\mu$ 的无偏估计量，因为 $E(\overline{X})=\mu$ 。另一方面
$S^2=\frac{1}{n}\sum_{i=1}^{n}(X_i-\overline{X})^2$
是 $\sigma^2$ 的偏差估计量。如果我们乘以 $n/(n-1)$ (贝塞尔修正)我们有
$S^2=\frac{1}{n-1}\sum_{i=1}{n}(X_i-\overline{X})^2$
这是 $\sigma^2$ 的无偏估计量。

b) 最小均方差估计量和最小方差估计量

一个估计量的均方差定义如下：
$MSE=E(\hat{\theta}-\theta)^2 \tag{X-38}$
MSE是一个衡量估计值 $\hat{\theta}$ 偏离真实值 $\theta$ 的总量的一个方法。通过在公式X-38的圆括号中加上或减去 $E(\hat{\theta})$ ，并利用该结果，我们能重写MSE为如下形式：
$MSE=E[\hat{\theta}-E(\hat{\theta})]^2+[E(\hat{\theta})-\theta]^2$
右手边的第一项是估计值的方差，第二项是估计值偏差的平方。如果估计是是无偏的，那么 $E(\hat{\theta})=\theta$ ，且
$MSE=E[\hat{\theta}-E(\hat{\theta})]^2$
因此对于无偏估计量的MSE是简单的估计量的方差。

如果针对多个估计量 $\hat{\theta_a},\hat{\theta_b},\hat{\theta_c}$ …，其中之一有最小的MSE，那么这个估计量就叫做最小均方差（minimum mean square error,MMSE)估计量。如果在这些估计量中，所有的都是无偏的，其中之一有最小的方差，那么这个估计量就叫做最小方差无偏估计量(minimum variance unbiased estimator,MVUE)

估计量的选择依赖于应用情况。如果我们打算用于许多的应用，那么我们一般想要估计量是无偏的，因为一般来说我们希望估计量等于真实的值。如果我们从两个或者多个无偏估计量中选择，我们经常选择最小方差的那个。如果比较两个无偏的估计量 $\hat{\theta_1}$ 和 $\hat{\theta_2}$ ，那么其中具有相对较小的方差的那个更有效。在实际应用中，我们用它们的比值
$\frac{var(\hat{\theta_2})}{var(\hat{\theta_1})}$
它是一个衡量估计值 $\hat{\theta_1}$ 与 $\hat{\theta_2}$ 相对效率的方法。

但是，如果我们打算只应用估计值一次或者几次，那么一个（有偏差）MMSE估计值或许更有效率。在这个例子中，相对于长时间的无偏的性质，我们对与真实值的最小偏离量更感兴趣。

c) 一致估计量（Consistent Estimators) //TODO:I don’t know my translation is correct or not.

如果 $\hat{\theta_a}$ 是 $\theta$ 的一致估计量，那么
$P[|\hat{\theta_a} - \theta | < \epsilon] > (1-\delta) \ \ \ n>n'$

这里 $\epsilon$ 和 $\delta$ 是任意小的正数， $n'$ 是某个整数。我们可以将上面的等式解释为随着采样量n的增加，估计量的概率密度函数将集中与参数的真实值。当n变得非常大，估计值偏离真实值的概率将趋近于0.这种情形我们叫“ $\hat{\theta_a}$ 的概率收敛到 $\theta$ “。

性质a,b,c是评价估计量好与坏的理论特征。关于估计量的进一步的考虑将在参考[24]中给出。

10.14 点估计量——极大似然

一个计算估计量非常重要的技术叫做极大似然法。这个方法用途很广，例如，在生命测试中计算参数估计量。对于一般条件下的大样本数量（n趋近于无穷），极大似然技术可以得到一致估计量（consistent)、最小均值平方差估计量(MMSE)和最小方差无偏估计量(MVUE)。甚至对于中小规模的样本，极大似然技术也能产生可用的估计量。该技术基于以下的假设：从总体中抽取的特殊样本是最有可能被选择的样本。为了证明这个推论是正确的，考虑如下两个例子。

桥牌玩家不希望拿一手包含所有13张黑桃的牌。拿到这样一手牌的概率是十分小的，因为它只有一种发生的方式。但是，拿到一手黑桃的概率是和一手其他同样一张张分配好的牌的概率是一样的，因为它们也是只有一种方式。拿到一手牌的的样子可以是这样的：

4张黑桃
2张红心
4张方块
3张草花

这手牌有许多种获得的方式。准确的来说， $C_13^4 C_13^2 C_13^4 C_13^3=(13)^4(11)^3(10)^2(3)$ 种方式（超过10亿）。事实上，你将会得到4-4-3-2的分布大概20%的机会。剩下的次数将会得到和这个十分类似的一手牌。极大似然技术是基于这样一个假设：我们得到的抽样是最大概率得到的那一个，或者是接近最大可能的那一个。

为了更实际的阐述，假设我们有一个特殊的摄像头来拍摄一个满是气体的箱子里的分子。当这个摄像头开发出来，我们不仅能看到分子的位置，还能看到分子的矢量速度。我们可以拍照几千年，并且它们所有的照片将看起来很类似：空间中的同类型分子向所有方向的运动。即使这样，我们依旧有概率（即使很小），我们将找到一张照片，所有的分子都在盒子的一个角落，且运动方向都是北方。如果我们应用极大似然技术到一个样本（一张给定的照片），然后我们将作出一个假设：这个样本是一个可能性，但不是非常不可能的一个。

总的来说，极大似然技术是在以下假设上发现的：我们的样本是我们从总体中抽取到的最有可能的那一个——总是带有附带条件：我们尽力确保它是随机的。

假设我们从一个根据概率密度函数(pdf) $f(x;\theta)$ 的总体随机抽样，这里 $\theta$ 是一个未知的总体参数，我们想要对其进行估计。假设我们的采样（大小为n）是 $x_1,x_2...x_n$ ，且样本的变量是独立的。利用概率密度函数，我们写下了一个表达式，该表达式给出了与特定样本相关的概率，并应用最大化的条件。

我们在区间 $dx_1$ 中第一个读到是 $x_1$ 的概率明显就是 $f(x_1;\theta)dx_1$ 。在 $dx_1$ 中第一个读取到的是 $x_1$ ，并且在 $dx_2$ 中第二个读到的是 $x_2$ 的概率是
$f(x_1;\theta)dx_1 \dot f(x_2;\theta)dx_2$

根据这种推理方式，我们能写出例子的概率表达式为
$P[sample]=f(x_1;\theta)dx_1 f(x_2;\theta)dx_2 f(x_3;\theta)dx_3...f(x_n;\theta)dx_n \tag{X-39}$

如果我们抛弃微分，我们能得到一个被称作似然函数的表达式
$\text{Likelihood Function}= f(x_1;\theta)f(x_2;\theta)...f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta) \tag{X-40}$

符号 $\prod$ 表示连乘。似然函数在该例子中不再等于概率，但是它表示与该概率成比例的数量。（如果概率变量不独立，则似然可能会由多种分布组成，我们将试图使其最大化，具体参考[24]）

注意的是这个函数是仅仅是关于 $\theta$ 的，因为所有的x都是已知的。我们现在将研究如何取值 $\theta$ ，使得 $L(\theta)$ 最大化。我们通过将其求导，让导数等于0从而得到极值条件下 $\theta$ 的值。
$\frac{d}{d\theta}L(\theta) =0$
假设我们能解出该方程，将结果写作 $\theta_ML$ ，这就是极大似然估计一个未知总体的参数 $\theta$ 。

我们现在思考一些极大似然技术在实际中的具体应用的例子。假设我们从一个总体中随机抽样，该总体符合正态分布，其均值 $\mu$ 为未知，方差 $\sigma^2$ 为1。

$f(x;\mu,\sigma=1)=\frac{1}{\sqrt{2\pi}}exp[-\frac{(x-\mu)^2}{2}].$
我们想对 $\mu$ 做出极大似然估计。
极大似然估计的函数是

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Msijvk6t-1586708457779)(asserts/equationX_t1.png)]

两边取自然对数，我们有

$L(\mu)=-\frac{n}{2}ln(2\pi)-\frac{1}{2}\sum_{i=1}{n}(x_i-\mu)^2$

应用最大化条件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3vwfcsDM-1586708457781)(asserts/equationX_t2.png)]

这产生
$\sum x_i - n\mu =0$
于是
$\mu_{ML}=\frac{1}{n}\sum_{i=1}^n x_i=\overline{x}$

因此， $\mu$ 的极大似然估计就是数学均值。

如果多于一个总体的参数被估计，其过程是类似的。假设在以前的例子中 $\mu$ 和 $\sigma^2$ 都是未知的，那么我们的基本概率密度函数为
$f(x;\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{(x-\mu)^2}{2\sigma^2}]$
似然函数为
$f(x_1,\mu,\sigma^2)...f(x_n;\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{n/2}}exp[-\sum_{i=1}{n}\frac{(x_i-\mu)^2}{2\sigma^2}]$

取自然对数，我们有
$L(\mu,\sigma^2)=-\frac{n}{2}ln(2\pi)-\frac{n}{2}ln\sigma^2-\frac{1}{2sigma^2}\sum_{i=1}{n}(x_i-\mu)^2$
我们得到 $\partial L/\partial \mu$ 和 $\partial L/ [\partial(\sigma^2)]$ 并将结果等于0，第一个操作得到和以前相同的结果，也就是
$\mu_ML=\frac{1}{n}\sum_{i=1}{n}x_i=\overline{x}$ 。
第二个操作得到

$\sigma^2_ML=\frac{1}{n}\sum_{i=1}{n}(x_i-\overline{x}^2)$

这是一个 $\sigma^2$ 的有偏估计，其偏差可以通过将 $\sigma^2_ML$ 与数量n/(n-1)相乘来消除。那么
$\sigma^2_{unbiased}=\frac{1}{n-1}\sum_{i=1}{n}(x_i-\overline{x})^2$

如果样本的大小n比较大( $n\geq 30$ )，那么 $\sigma^2_{ML}$ 和 $\sigma^2_{unbiased}$ 是没什么明显的差别的。方差的估计值通常用 $s^2$ 来表示。

作为最后一个例子，让我们返回指数分布并找到 $\theta$ 的ML估计，也就是平均生命。//TODO：这里有点问题，ML到底如何翻译比较好？

假设我们n个部件实验中发生了n次失效，那么
$f(t_1;\theta)...f(t_n;\theta)=\theta^{-n}exp[-\frac{1}{\theta}\sum_{i=1}^{n}t_i]$
且
$L(\theta)=-nln\theta - \frac{1}{\theta}\sum_{i=1}^{n}t_i$
因此
$\frac{dL}{d\theta} = -\frac{n}{\theta}+\frac{1}{\theta^2}\sum_{i=1}{n}t_i=0$
并且
$\frac{1}{\theta}\sum_{i=1}^{n}t_i=n$
于是
$\theta_{ML}=\frac{1}{n}\sum_{i=1}^n t_i$
又一次是简单数学平均。

10.15 区间估计（Interval Estimators)

从上一节，我们学习到，基于从总体中随机抽样，如何进行总体参数的点估计。如果我们愿意，我们也可以采用一种不同的方法。这涉及到一个如下的断言(assertion)

$P[(\hat{\theta}_{lower} < \theta < \hat{\theta}_{upper})] = \eta$

这里 $\theta$ 是一个未知的总体参数， $\hat{\theta}_{lower}$ 和 $\hat{\theta}_{upper}$ 是随机抽样的估计量， $\eta$ 是一个概率值，像是0.99，0.95什么的。假设 $\eta=0.95$ ，我们是指如下的区间
$(\theta_L<\theta<\theta_U)$
对于置信区间为95%情况下的 $\hat{\theta}_{lower}$ 和 $\hat{\theta}_{upper}$ 。在这个例子中，我们允许5%的概率（风险）我们的断言是错误的。

为了阐明置信区间的概念，我们用几何的方法来说明。假设我们从总体中连续的抽样 $(x_1,x_2)$ ，它有个参数是 $\theta$ ，我们对 $\theta$ 设置了一个置信区间。我们在对应的纵座标 $\theta$ 和横座标 $x_1,x_2$ 中设置了三维的空间（参考X-9）。总体参数 $\theta$ 的实际数值已被标记在了纵座标轴上，一个横向的平面穿过了这个点。现在我们从我们95%置信区间中计算的值 $\theta_U,\theta_L$ 中随机抽样 $(x_1,x_2)$ 。 $\theta_U$ 和 $\theta_L$ 所定义的区间被画在图中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dDr3xUKv-1586708457782)(asserts/figureX-9.png)]

下一步我们进行第二次抽样 $(x_1',x_2')$ ，据此我们在95%置信区间中计算出 $\theta '_U,\theta_L'$ 。这个区间被标注在图中。第三次抽样 $(x_1'',x_2'')$ 得到 $\theta_U'',\theta_L ''$ ，等等。在这种方式下，我们能生成一个大的置信区间族。这些置信区间仅仅依赖于采样的值 $(x_1,x_2)(x_1',x_2')..$ ，因此我们能在不知道 $\theta$ 的真实值的情况下计算这些区间。如果所有的置信区间都是在95%置信的基础上计算的，并且如果这些置信区间的族非常大，那么其中的95%将通过 $\theta$ (包含 $\theta$ )切割那个平面，而其中5%不会。

选择一个随机样本，并且从中计算置信区间的过程，就相当于从一个包含几千个置信区间的口袋中随机抓取一个。如果它们都是95%区间，我们选择一个包含 $\theta$ 的机会是95%。相反的，5%的机会我们不幸的选择了一个不包含 $\theta$ 的（就像图X-9中 $(\theta_U'',\theta_L'')$ 区间）。如果5%的风险感觉太高了，我们可以选择99%的区间，这个风险只有1%。如果我们选择更高的置信层次（更低的风险），如果我们持续增加置信层级，区间的长度将会增加直到100%置信，此时区间包含了每一个可能的 $\theta$ 的值（我确信在总量10000中有缺陷的物品的数量为0至10000之间）。因此，100%置信区间没什么意义。

现在我们看一个例子，学习怎么样从一个均值为 $\mu$ ，标准差为 $\sigma$ 的正态分布中计算出 $\theta_L$ 和 $\theta_U$ 。在这个例子中，我们假设我们想要求解 $\mu$ 并且已经知道 $\sigma$ （基于以前的数据和知识）。如果每一个样本都来自正态分布，那么样本均值 $\overline{X}$ 是一个均值为 $\mu$ 标准差为 $\sigma/\sqrt{n}$ 的正态分布，这里n是样本大小。甚至如果每一个样本的值都不是取自正态分布，那么根据中心极限定理，对于一个非常大的n， $\overline{X}$ 也将约等同均值为 $\mu$ ，标准差为 $\sigma/\sqrt{n}$ 的正态分布。然后数量Z将是标准正态随机变量，这里
$Z=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}$
这里Z的分布已经被制表。因为Z的分布已经被制表，对于任意给定的概率 $\eta$ ，-w和w的值，这样
$P[-w < Z \leq w] = \eta$
例如，对于 $\eta = 0.95, w= 1.96$ 。上式中取代Z，我们有
$P[-w\leq\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\leq w]=\eta$
这里w对于任意给定的 $\eta$ 是已知的。(例如，我们可以替代 $\eta$ 为0.95且w为1.96)

下面我们来专注于最后一个公式左边的不等式，并将它转化成如下的形式：
$[\theta_L<\mu<\theta_U]$
各项都乘以因子 $\sigma/\sqrt{n}$ ，将不等式转换成
$[-w\frac{\sigma}{\sqrt{n}}<\overline{X}-\mu<+w\frac{\sigma}{\sqrt{n}}]$
每一项减去 $\overline{X}$
$[-w\frac{\sigma}{\sqrt{n}}-\overline{X}<-\mu<w\frac{\sigma}{\sqrt{n}}-\overline{X}]$
下一步我们将每一项乘以-1，注意此操作要将不等式反向。
$[w\frac{\sigma}{\sqrt{n}}+\overline{X}>\mu>-w\frac{\sigma}{\sqrt{n}}+\overline{X}]$
我们可以写成如下的形式
$[\overline{X}-w\frac{\sigma}{\sqrt{n}}<\mu<\overline{X}+w\frac{\sigma}{\sqrt{n}}]$
该不等式得出了 $\mu$ 的置信区间，在总体均值的情况下，那么
$\theta_L=\overline{x}-w\frac{\sigma}{\sqrt{n}} \\ \theta_U=\overline{x}+w\frac{\sigma}{\sqrt{n}}$

如果给定了置信系数 $\eta$ ， $\overline{x},n,w$ 是已知的。 $\sigma$ 的值假设也已经知道。如果我们不知道 $\sigma$ 的值，从先前的正态分布描述中，我们可以通过采样来估计 $\sigma$ ，从而获得数量s。现在我们可以形成标准值t，其中
$t=\frac{\overline{x}-\mu}{s/\sqrt{n}}$
向z变量那样处理，我们能得到如下不等式
$\overline{x}-\frac{ts}{\sqrt{n}}<\mu<\overline{x}+\frac{ts}{\sqrt{n}}$

但是，t并不符合正态分布。该分布在20世纪初被W.S.Gossett发表，被公认为t分布；它的性质已经被一一列举。所以如果 $\sigma$ 未知，我们对于给定的 $\eta$ 能方便的从t分布表格，而不是正态分布表格中找到t的值，t分布饿值取决于样本大小（自由程度）。事实证明，当样本大小大于25或30，t分布表格和正态分布已经难以分辨了，于是我们可以用正态分布表格。

在估计可靠性和故障平均时间方面，单边置信区间比双边置信区间更常见。如果抽样分布是对称的（尾部面积相同），那么双边区间可以轻易的转换成单边区间；举个例子，如果
$0.95<R<0.98$
在95%置信级别，那么
$R>0.95$
在97.5%置信级别。

对于指数分布，故障平均时间 $\theta'$ ，可以通过点估计的方法进行估计
$\theta_ML=\frac{1}{n}\sum_{i=1}{n}t_i$

这里 $t_i$ 是故障的观察时间。他能符合2n自由度的卡方分布 $\chi^2=\frac{n\theta_{ML}}{\theta}$ $。令$ \chi^2(97.5,2n), \chi^2(2.5,2n)$为卡方的值，对应97.5%和2.5%的累积分布值，对于双边95%置信区间，我们有
$\chi^2(2.5,2n)<\frac{n\theta_{ML}}{\theta}<\chi^2(97.5,2n)$
或者，等效为
$\frac{n\theta_{ML}}{\chi^2(97.5,2n)}<\theta<\frac{n\theta_{ML}}{\chi^2(2.5,2n)}$

对于不同等级的其他区间可以通过卡方分布查表获得。对于失效率 $\lambda = 1/\theta$ 的置信区间可以通过将上面关于 $\theta$ 的不等式换向来获取。

对于更多的有关实验，置信区间，以及最大似然点估计，取决于数据收集的方式。例如，在命名为类型1测试中，对于预先分配的时间段T，n个部件具有相同的故障机率。在这个时间段内，故障的部件数量是随机的。对于类型2测试，n个部件持续运行直到某数量的部件发生故障，这个故障的数量小于n。

前面引用的Mann,Schafer,和Singpurwalla的文章[24]，进一步阐述了方式1和方式2，结合了点估计和置信区间。讨论了替换的测试，各种情况下的Weibull分布，gamma分布，以及指数分布的置信区间和点估计也进行了讨论。

10.16 贝叶斯分析

在前边的讨论中，我们将采样分布的参数作为固定值进行处理。在很多应用中，这个假设是有问题的。在贝叶斯原理中，采样分布的参数并不是作为固定值处理，而是作为随机变量进行处理的。作为指数分布 $f(x)=\frac{1}{\theta}e^{-x/\theta}$ ，失效平均时间 $\theta$ 被认为符合某个概率分布。以故障率 $\lambda=1/\theta$ 表示指数，我们得到 $f(x)=\lambda e^{-\lambda x}$ 。故障率当然也符合某概率分布（因为存在关系 $\lambda = 1/\theta$ ， $\lambda$ 的分布取决于 $\theta$ ，反之亦然)。从此处 $\lambda,\theta$ 的描述我们能表示出和 $\lambda,\theta$ 有关的随机变量。

我们用 $p(\lambda)$ 表示 $\lambda$ 的概率密度函数。 $p(\lambda)$ 被称为先验分布，表示我们抽样之前对 $\lambda$ 了解的知识。假设已知给定的样本的故障时间 $(t_1,t_2...t_n)$ ，我们然后讨论 $\lambda$ 的后验分布，它表示我们对 $\lambda$ 分布新的了解，并结合了额外的采样数据。

$\lambda$ 的概率密度函数用 $p(\lambda | D)$ 表示，它的后验分布可以轻易的从贝叶斯定理中获取(标志D表示数据采样，例如 $(t_1,t_2..,t_n)$ )，现在贝叶斯原理
$P(B|A)=\frac{P(A|B)P(B)}{\sum_B P(A | B)P(B)}$
让我们用A表示数据采样D，且B表示故障机率在 $\lambda$ 和 $\lambda+d\lambda$ 之间的事件，我们有
$P(\lambda | D )= \frac{exp[-\sum_{i=1}^{n} \lambda t_i]\lambda^n p(\lambda)}{exp[-\sum_{i=1}^{n} \lambda t_i] \lambda ^n p(\lambda)d \lambda}$

这里我们将求和符号替换成积分符号。因为分母并不包含 $\lambda$ （它被积分）我们能将上式写成
$P(\lambda | D)=K exp[-\sum_{i=1}{n}\lambda t_i]\lambda^n p(\lambda)$

这里K被视为归一化常量。 $\lambda$ 的后验分布 $p(\lambda | D)$ 现在会结合我们的先前的知识和抽样的观察数据。

贝叶斯原理给我们一个标准的方法来更新故障率 $\lambda$ 有关的信息(例如，从 $p(\lambda)$ 到 $p(\lambda | D)$ )。如果第二个采样 $D'$ 被收集(记为 $t_1',t_2',...t_n'$ )那么 $\lambda$ 的分布将结合两个数据集合来更新。如果 $p(\lambda | D,D')$ 表示 $\lambda$ 基于数据D和D’集合的后验分布，那么我们使用上边带有 $p(\lambda | D)$ 的等式来作为我们的优先给予 //TODO:I don’t understand the word ‘giving’ means here.

$p(\lambda | D,D')=K exp[-\sum_{i=1}^{n}\lambda t_i]\lambda^n p(\lambda | D)$

喝多文章都描述了初始先验选择 $p(\lambda)$ 以及各类数据处理技术（参考24和30）。在贝叶斯理论中，概率密度函数获取了一些参数（例如 $p(\lambda | D)$ )这些参数给出了有关参数易变性和不确定性的详细信息。我们能获取点的值，比如 $\lambda$ 最可能的值或者 $\lambda$ 的均值。我们同样能获取区间值，这些区间值是概率区间，有时被叫做贝叶斯置信区间。举个例子，决定了 $p(\lambda | D)$ ,然后我们就决定了下限和上限 $\lambda_L,\lambda_U$ 的95%的值，这样失效概率在这些值之间的概率就有95%。
$\int_{\lambda_L}^{\lambda_U} p(\lambda | D)d\lambda = 0.95$

其他的边界和点的值也可以通过贝叶斯方法来获取，因为这些参数的分布（例如 $p(\lambda | D)$ )是完全已知的，这些分布表明我们对于这些参数的了解。贝叶斯方法在工程经验和总体知识方面很有优势，同样还有“干净”统计数据，它可以分解成先验分布（后验分布）。一旦获得每个相关组件参数的分布，例如部件失效机率，然后就可以直接获取任何故障树量化中的系统参数的分布，例如系统不可用，可靠性，或者平均失效时间。人们必须非常小心的决定先验分布，它真实的表示了分析人员的相关知识，且确定不同先验的影响——如果它们都可能适用。贝叶斯方法在参考【24】中进一步讨论。

第十一章故障树评估技术

11.1 概述

本章描述了手动和自动化故障树评估技术，并且讨论了从这些评估中得到的基础结果。一旦故障树建立，我们都能评估来获取到定量和定性的结果。对于简单的故障树，评估可以手动进行；对于复杂的故障树，需要进行计算机编码来进行评估。第十二章讨论了用于故障树评估的计算机代码。

我们从故障树评估中可以获取到两种结果：定量的结果和定性的结果。定性的结果包括：1)故障树的最小切割集；2）定性的部件权重；3）最小切割集可能易受常见原因（常见模式）的影响。如同前边讨论的那样，最小切割集给出了所有导致系统失效的部件失效的唯一性组合。定性的重要性给出了每个部件在系统失效层面的“定性级别”。这些常见原因（常见模式）评估定义了那些由由于共同敏感性，因为单一失效原因导致所有可能失效的多部件组成的最小切割集。

定量的结果可以从下方面获取：1）绝对概率；2）部件量化权重和最小切割集；3）敏感性和相关概率评估。量化权重给出了系统由于特定的最小切割集后特定部件失效造成的系统失效的的时间的百分比。敏感性和相关的概率评估决定了更动维护，检查次数，执行设计变更，以及更动部件可靠性的效果。包括在敏感性评估中的还有误差分析，这是为了确定故障率数据的不确定度的影响。

下面是从故障树评估中获取到的不同类型的结果。在下一节中我们会对故障树评估进行进一步的研究。

定性的结果
最小切割集	导致系统失效的部件失效的组合
定性的权重	系统失效的作用的定性排名
常见原因可能性	最小切割集可能导致的单一失效的原因

量化的结果
数字的概率	系统和切割集的失效概率
量化的权重	导致系统失效的量化排名
敏感性估计	改变模型，数据，错误判定的影响

11.2 量化评估

定性评估的最小切割集能通过第七章第四节的故障树布尔化简来获取。本节会给出一些附加的例子来让读者对布尔化简更加熟悉。最小切割集不仅会在随后的定性评估中使用，在定量评估中一样被广泛使用。

11.2.1 最小切割集的确定

因为最小切割集构建了这里涉及的所有类型的评估，所以我们先大体的回顾一下故障树的最小切割集。总的来说，在第七章第四节开始，我们的目标是从最小切割集T中获取顶层事件
$T=M_1+M_2+M_3+...+M_n$
最小切割集 $M_j$ 由主要失效（primary failures)的组合构成，如 $M_j=C_1 C_2 C_3$ ，这是导致系统失效的主要失效的最小组合。取代（//TODO:Check the means of substitution ）可以是自上而下的取代和自下而上的取代。大部分决定最小切割集的算法都是基于这些原理的（计算机编码将在第十二章讨论）

现在让我们考虑图XI-1中压力罐故障树的例子。图XI-1与第8章压力罐构建的例子细节上很像（第八章压力罐的例子的图示在图VIII-13）。在第八章中，最小切割集为了简化版本的故障树而确定（//TODO：I’m not sure if this translation is correct）。我们将在这里确定细节故障树的最小切割集作为定性或定量估计的第一个类别。

在图XI-1的故障树中，我们标明主要失效为圆中的 $P_1,P_2...$ ；次要失效为钻石型中的 $S_1,S_2...$ ；未开发事件为钻石形状中的 $E_1,E_2...$ ；除了顶层事件用T表示外，所有更高级的故障用 $G_1,G_2...$ 表示。

与图XI-1故障树等效的布尔方程为:

注意我们对故障树中每一个门都有一个方程

我们使用从下至上的过程，并通过用G‘s代入主要事件(P’s, E’s和S’s)来写每一个门方程。使用分配律和吸收律我们将转换每一个门方程到最小切割集的形式。 $G_8$ 已经是最小切割集的形式。 $G_7$ 只包含更高级的故障 $G_8$ ，于是代之以
$G_7= P_5+S_5+P_6+S_6+E_6$
现在这是最小切割集的形式。 $G_6$ 和 $G_5$ 都是最小切割集的形式。 $G_4$ 包含 $G_6$ 和 $G_7$ ，它们也已经是最小切割集的形式，因此得到
$G_4=P_4+S_4+E_4+P_5+S_5+P_6+S_6+E_6$
在 $G_3$ 的方程中取代 $G_4,G_5$ ，我们有
$G_3=(P_4+S_4+E_4+P_5+S_5+P_6+S_6+E_6)\cdot(P_3+S_3+E_3)$
利用分配律，转换 $G_3$ 到如下形式

现在 $G_2=P_2+S_2+G_3$ ，因此
$G_1=E_1+P_2+S_2+G_3$
于是 $T=P_1+S_1+E_1+P_2+S_2+G_3$
以 $G_3$ 的扩展形式代入最后一个等式，我们最终得到T的最小切割集形式

顶层事件，或系统模型，因此包含：

5个单独的部件最小切割集
24个双部件最小切割集

我们需要注意如果 $S's$ 表示次要故障，那么我们真的需要细致的描述它们。所有我们需要做的就是重新定义主要故障P，从而表示所有的原因类型，如果我们愿意，我们能区分定量分析的原因。通过删除故障树中的 $S's$ ，我们删除了所有包含 $S$ 的切割集。我么现在有：

3个单独部件最小切割集
10个双部件最小切割集。

11.2.2 定性的权重

获取最小切割集之后，根据大小对最小切割集进行排序，能获取一些故障权重的思路。首先单一部件最小切割集先被列举，然后是双部件最小切割集，然后是三个的。计算机代码经常会按照这种顺序列出最小切割集。

因为当最小切割集的大小增加，需要计算机参与的需求也会明显增加，通常的做法是近获取一个、两个的、和三个部件的最小切割集。作为额外的计算，如果它们有可能导致出常见的故障，更高序列的最小切割集（四个以上）有时也会被获取（将在下一节讨论）。

因为最小切割集的故障概率会随着切割集大小的增加而以数量级形式的减小，所以用大小进行的排名也就表明了切割集的权重。例如，如果单个部件的故障概率是 $10^{-3}$ 这种量级的，那么一个单独部件的最小切割集的概率也将是 $10^{-3}$ 级别的，双部件的就是 $10^{-6}$ 级别的，三部件的就是 $10^{-9}$ 级别的。部件故障概率总体上是不同的，依赖于测试区间，停机时间等因素；因此，根据大小的最小切割集排名仅仅给出了一个大概的权重。

这些最小切割集有时候能直接用用于检查设计标准。例如，一个设计标准表明系统中没有单一部件故障，那么这就等效说明系统不会含有单一部件最小切割集。最小切割集可以用于检查该标准是否被满足。相似的检查同样可以用于“系统中不能有单独的故障这种对特定故障的限制”这种标准上。

11.2.3 常见原因敏感性（//TODO:Susceptibilities和sensitively都是敏感性，怎么区分？）

故障树上的主要故障（部件故障）不一必须是互相独立的。一个单一的，更基础的原因可能会导致系统失效的多种故障。例如，一个操作员可能会标定错误所有的传感器。例如，一个蒸汽管道的泄漏可能会导致控制台的所有仪器都失效。导致系统失效且起源于共因的故障被叫做共因故障。

在故障树评估中，我们并不知道那些故障是共因故障；但是，我们能指出部件失败可能会导致一个普通起因的敏感性。现在根据定义，如果在最小切割集中的所有主要故障都发生，顶层事件发生（例如，系统故障就发生）。因此，我们只对那些共因感兴趣，它们能触发最小切割集内的所有主要故障。不在最小切割集中触发所有主要故障的原因本身不会造成系统故障。

为了定义最小切割集，该最小切割集对我们能首先定义基本原因类别的共因故障是敏感的，这些状态类别是能造成部件依赖的常规区域。共因分类的例子包括制造商，环境，能量源（不能清晰的在树上表示），和人。下面给出了一些分类的例子，这些分类可用于指导共因敏感性评估。

评估的共因分类列表

制造商
位置
地震敏感性
洪水敏感性
温度
湿度
辐射
磨损敏感性
测试降级
维护降级
操作人员交互
能量源
污垢或污染

对于每一个共因分类，我们定义特定的“元素”。例如，对于分类“供应商”，其元素可以是涉及的特定制造商，我们将其编码为“制造商1”，“制造商2”等等。对于分类“位置”，我们可以将其按照实际位置把车间划分成不同的区域并进行编码，其编码就是元素。对于“地震敏感”类别，我们可以定义集中敏感等级，从不敏感到十分敏感，为了更具体说明，我们将定义故障可能发生的加速度范围。

在共因敏感性评估中我们下一步的任务涉及部件编码。作为部件名称编码的一部分或有关部件描述字段中，对于每一个部件故障，我们描述每一个部件相关的每一个分类的元素。分类和元素可以按照任何方便使用的编码系统进行分类和编码。例如，“MV2-183”可以表示手动阀门2，它具有分类1相关的元素1，分类2相关的元素8，分类3相关的元素3（“-183”）。这种命名方式可以在随后的计算机输入中被轻易的编码。

执行这样的编码，随后我们就能在故障树的最小切割集中识别敏感的最小切割集。对共因故障具有潜在敏感的最小切割集就是那些对于给定的分类所有具有相同元素的主要故障的那些集合。定义这些潜在敏感的最小切割集，我们需要最终筛选这些切割集，以确定那些需要进一步的处理。这些最终的筛选可以基于常规原因发生的历史记录，一些量化分析的类别，和/或工程判断。最后一步是最困难也是最消耗时间的。第十二章第六节，将讨论执行初始查询的计算机代码。

11.3 量化评估（Quantitative Evaluations)

当获得最小切割集后，如果需要量化结果，则概率评估就可以执行了。这种顺序的方式进行概率评估是最容易实现的，首先确认部件的失效概率，然后是最小切割集概率，最后是系统。例如，顶层事件，概率。这种过程下每一个切割集和部件的量化权重也很容易获得。

如果失效率是作为随机变量处理，那么随机变量遗传技术就能用于对从失效率变化得到的系统结果变化率的估计。我们首先讨论常见的“点估计”，其中为每一个失效率分配一个值，每一个最小切割集和系统概率有一个值，随后，我们讨论随机变量分析。

11.3.1 部件失效概率模式

对于“部件”，我们意思是失效树上的任何基本主要事件（圆型，钻石型等）。对于任何部件，我们考虑的仅仅是到底是使用每小时固定的失效概率模型还是每循环固定失效率模型。在使用这些固定失效率的模型过程中，我们无视任何时间相关的效果，比如部件磨损或老化。我们讨论的恒定失效率模型通常用于数量级结果。当时间相关的效果，比如磨损或老化是比较重要的，或者当需要较高的准确度，比如10倍，那么就需要更精确的模型。这些更精确的模型包含，Weibull或gamma失效分布模型；读者可以在参考【12】和【17】中读到更多的相关知识。

11.3.2 每小时恒定失效率模型：概率分布

首先思考一个部件，它的失效模型具有每小时恒定的失效机率。让我们将每小时恒定的失效率记做 $\lambda$ 。当我们使用每小时恒定失效率模型，我们这里简单的记做 $\lambda$ 模型。我们直接假定失效概率直接和部件的曝光时间有关。曝光时间越长，失效概率越高。失效原因可以是人工错误，测试和维护，或者是环境，比如污染和腐蚀等。 $\lambda$ 模型是失效树评估中最常用的模型。

对于 $\lambda$ 模型，第一个失效概率分布是指数分布。为了加深印象，我们来回顾一下该分布的性质。假设在初始状态，概率 $F(t)$ 是部件在时间t里遭受第一次故障的概率，那么
$F(t)=1-e^{-\lambda t} \tag{XI-1}$
F(t)是我们在第十章第3节中讲述的累积概率分布。在可靠性术语中， $F(t)$ 被称作部件不可靠性（component unreliability)。对应 $F(t)$ 互补的量纲是 $1-F(t)$ ，它部件在初始工作时，在时间t内没有故障的概率。
$1-F(t)=e^{-\lambda t}$
在统计的术语中， $1-F(t)$ 叫做互补累积概率。在可靠性属于中， $1-F(t)$ 是部件的可靠性，用 $R(t)$ 表示。
$R(t)=1-F(t)$

这里用 $f(t)$ 表示密度函数，它是 $F(t)$ 的导数； $f(t)\Delta t$ 表示部件在时间t的区间内不发生故障，但是在 $\Delta t$ 的区间内发生故障的概率，这里 $\Delta t$ 是一个接近于0的区间。作为 $f(t)\Delta t$ 的定义的一部分，我们这里再次假设部件在区间开始时是从初始开始工作的。“初始工作”的假设被应用于所有的计算，我们在后边的讨论中将不会再次详细说明这一点。

对于指数分布，我们的密度函数 $f(t)$ 是
$f(t)=\lambda e^{-\lambda t}$

每小时恒定失效率模型,之所以会叫这个名字，是因为对于时间相关的失效率 $\lambda(t)$ 的形式化计算仅仅给出了常数 $\lambda$ 。恒定失效率 $\lambda$ 的估计可用于不同种类数据源中的各种部件。分析人员需要为其故障树上应用恒定故障率模型的每个组件故障获取 $\lambda$ 值。表XI-1给出了一些不同种类部件失效的有代表性的失效率；数据选自WASH-1400（参考【38】）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wu7q1EiN-1586708457788)(asserts/tableXI-1.png)]

在故障树的评估中，极端的准确度是没有必要的（也是不可信的）；对于故障率我们需要关注的是数量级的大小，例如，故障率是每小时 $10^{-6}$ 还是 $10^{-5}$ 。对于这个“大小的数量级”的准确度，详细的环境和详细的组件规格通常对获得故障率的总体估计并不重要。但是分析人员当然还是需要使用所有的有效的信息来对每一个部件和故障树上每一个基本事件获取尽可能准确的对 $\lambda$ 的估计。

因为故障树评估并没有对精度就很高的要求，因此指数分布可以利用一阶项来近似，以简化计算。累积指数分布，比如指数不可靠性，可以近似为
$F(t) \approx \lambda t \tag{XI-5}$

上面的式子对于失效概率（F(t））的误差在5%以内，小于0.1并且在保守端有很细微的误差。
此外，与 $\lambda$ 的不确定性相比，该误差更小。

在 $lambda$ 模型中使用的故障率可以是就绪故障率，也可以是操作故障率；数据源给出了这两种故障率形式。如果 $\lambda$ 是就绪故障率，那么公式XI-5的时间区间t就是就绪时间t，例如从部件准备好实际操作的时间区间。在这种就绪情况下， $F(t)$ 就是故障将在就绪状态下出现的概率。如果 $\lambda$ 是操作故障率，那么t就是实际操作时间区间， $F(t)$ 就是故障发生在操作时的概率。许多部件都有就绪状态故障率和操作故障率；例如，一个抽水泵就有在不工作时的就绪故障率和工作时的操作故障率。分析人员必须确认在合适的时期使用正确的故障率。相对于就绪和操作阶段，总故障的表达为
$F_s(t_s)+(1-F_s(t_s))F_o(t_o) \approx F_s(t_s)+F_o(t_o)$
其中，下标s表示就绪阶段，下标o表示操作阶段。对于很小的概率（比如0.1），我们能简单的将概率相加。

11.3.3 每小时恒定失效率模型：可靠性特征

前一节已经讲过， $R(t)=1-F(t)$ 表示时间t内没有故障的概率，部件的不可靠性 $F(t)$ 表示在时间区域t内部件发生至少一次失效的概率，也表示在时间t内发生第一次失效的概率。如果部件是可修复的，那么这个 $F(t)$ 的定义就包含了超过一个失效发生的可能性。如果这个部件是不可修复的，那么最多只能发生一次失效。

当我们说失效是可修复的，我们的意思是当部件异常时，部件是可以修复或更换的。维修和更换并不需要在失效发生后立即执行，而且当维修和更换开始后，也是需要一定的修复时间的。维修或更换操作的特征在于组件的停机时间以d表示，d是该组件停机且无法运行的总时间。对于备用组件，请在可能需要该组件的情况下停机。如果工厂在故障发生后的某个时间关闭，而d只是在线停机时间段，在该时间段内仍可能需要组件运行。

$G(d)$ 表示的停机时间的累积分布定义如下：
$G(d)=停机时间区间小于d的概率$
累积分布可以从维修、替换的实际数据来获得，并且为量化评估完整的定义了维修替换过程。
让我们用 $q(t)$ 来表示部件不可用性，并定义如下
$q(t)=在时间t部件失效并且如果被调用则无法工作的概率$
$1-q(t)$ 是部件的可用性，表示部件恢复并且能对请求正常响应的概率。
如果部件失效是不可恢复的，则只有在时间t内失效时，部件才会在时间t停机。总的来说，对于不可维修的失效，当部件在t=0时运行，则不可用性 $q(t)$ 等于不可靠性 $F(t)$ 。
$q(t)=F(t)$
对于指数分布，不可用性q(t)可以简单的用下面的近似计算：
$q(t) \approx \lambda t$
对于不可维修的失效，计算故障树评估中使用的基本组件特征 $F(t)$ 和 $q(t)$ 所需的只是恒定的故障率 $\lambda$ .。

对于可修复的失效，部件的不可用性 $q(t)$ 不等于不可靠性，我们需要维修过程的更多的信息来计算 $q(t)$ 。

我们将假定修复将组件恢复到实质上与新组件一样好的状态。这个假设是乐观的，但是常常被用到。测试效率低下的影响可以通过更复杂的分析来研究。（其他措施可以参考【37】和【41】）

对于可修复的失效，我们考虑两种情况：1）失效被监控，2）失效没被发现直到周期性的检测时才发现。对于方式1，当失效时会通过警告、声音、警告灯等形式告知操作员。这种情况下，不可用性 $q(t)$ 会快速逼近一个恒量 $q_M$ ,其形式为
$q_M=\frac{\lambda T_D}{1+\lambda T_D} \approx \lambda T_D \tag{XI-11}$

故障率 $\lambda$ 是待机故障率， $T_D$ 是从对停机时间分布中获取的平均在线停机时间（通过累积分布 $G(d)$ 描述）。被估计的停机时间也是从系统启动期间和部件被请求（例如对灾难情况的请求）的时间的在线停机时间。对于简要的估计，停机时间通常可以分解为几个离散值，并具有相关的概率，并对这些离散值进行统计平均。根据公式XI-11给出的估计是保守的，对于 $\lambda T_D <0.1$ ，其准确度在10%以内。

对于那些并不是实时监视，属于按时间段检查的部件，任何失效都将在检查后才会发现。这种情况是，假设我们的检查测试是一个月执行一次，任何发生在检查前该月的失效只有当检查时才会发现。（这里我们假设执行的是完美检查，任何失效模式都能100%被检查出来）

对于在区间T内的周期性的检查，在检查执行后，到下一次检查之前，不可用性从第一个低的值 $q(t=0)=0$ 上升到一个高的值 $q(t=T)=1-e^{-\lambda T} \approx \lambda T$ 。因为指数能通过一个线性函数（对于 $\lambda T<0.1$ )近似表示，则测试期间的平均不可用性约等于 $\lambda T/2$ 。如果我们假设该组件的需求在该时间间隔内的任何时间都可能均匀出现，则该平均值可用于故障树评估。

如果在查询检测时发现部件发生故障了，那么它将在必要的维修时间内保持一个停机的状态。考虑这个额外的维修负担，对于阶段测试的部件，其总平均不可用性 $q_T$ 我们有如下的等式
$q_T=\lambda T/2+\lambda T_R \tag{XI-12}$
在上面的方程中， $\lambda$ 还是每小时的待机故障率， $T_R$ 是从停机时间得出的平均维修时间。评估的维修时间再次是部件可能被调用功能的在线维修时间。 $T_R$ 的下标 $R$ 表示这是平均维修时间，而不是由维修时间加上从失效到探测出来的停机时间的和的总的停机时间。

总的来说， $T_R$ 相比T来说，是个比较小的值，公式XI-12中右手边的第二项是可以忽略的，于是我们有
$q_T \approx \lambda T/2, \ \ T_R<<T \tag{XI-13}$

对于可维修的失效，不可用性是通过 $g_M$ 或 $q_T$ 给出的，依赖于监控是否存在，或者在基于两次检查中没有监控的情况下，周期检查是否执行。（如果监控存在， $q_M$ 在不论任何额外的周期检查被执行的情况下都适用）。对于每一个故障树的可维修部件， $\lambda$ 和 $T_D$ （被监控的)或者 $\lambda$ ， $T_R$ ， $T$ （周期检查）是作为数据输入。故障率数据源为 $\lambda$ ，部件的操作说明是 $T_R,T,T_D$ 的来源。

除了部件不可用性，还有一个部件可靠性参数在操作系统评估时也十分重要。这个部件参数就是部件失效发生率(component failure ocurrence rate) $w(t)$ ，其定义如下：
$w(t)\delta t= 部件在t和t+\Delta t之间失效的概率 \tag{XI-14}$

在该定义中，我们并不能看出在给定的故障率 $\lambda(t)$ 情况下，该部件在时间t之内有没有故障（参考第十章第八节）。事实上，如果部件是可维修的，它可以在前边失效很多回； $w(t)\Delta t$ 是不考虑以前情况的，只看在t到 $t+\Delta t$ 区间发生故障的概率。

发生率w(t)对不可维修的和可维修的部件都适用。对于这两种部件，在某时间段 $(t_1,t_2)$ 的故障次数，用 $n(t_1,t_2)$ 表示，通过如下的积分形式来展示
$n(t_1,t_2)=\int_{t_1}^{t_2} w(t)dt \tag{XI-15}$
对于不可维修的部件失效，部件只可能失效一次。因此，w(t)等于第一次失效的概率密度函数
$\begin{aligned} w(t)&=f(t) \\ &=\lambda e^{-\lambda t} \end{aligned} \tag{XI-17}$
这里公式XI-17是针对恒定的失效率模型( $\lambda$ 模型)

对于t小于 $1/\lambda$ 的情况（比如 $\lambda t<0.1$ ), $e^{-\lambda t}$ 约等于1，因此公式XI-17就变成
$w(t)\approx \lambda ,\ \ \lambda t<.1.$
对于可维修的失效，w(t)可以是关于时间的复杂函数；但是，随着时间的推移它会逐渐逼近 $\lambda$ ，而且这个这个接近值 $\lambda$ 对于大多数应用来说精度也已经足够了。
$w(t) \approx \lambda$
因此，不论对于不可修复的还是可修复的失效， $w(t)=\lambda$ 都是一个合理的近似。（下一章的一些计算机代码可以讨论w(t)的时间相关值）。

11.3.4 每周期固定失效率模型的可靠性参数

代替将组件故障建模为每小时具有恒定的失效率，我们可以使用每个周期恒定失效率模型。在周期固定失效率模型中，部件被被假设当被请求时（例如每一次循环），具有固定的失效概率。每次循环的故障概率，我们用p来表示，独立于任何已知的时间区间，比如测试之间的时间区间或者部件的就绪时间。

当组件固有的失效而不是由与暴露时间相关的“外部”机制引起的失效时，将应用周期固定失效率模型（我们简称为p模型）。对于循环失效，部件的循环或许会真正的造成失效（因为压力等原因）。例如，一个从供应商那里获取的部件，马上就应用到现场，因为存在制造缺陷，就可以建模为有着固定失效概率p的模型。在进行操作前测试（即老化测试）之后，将检测到许多固有组件失效，然后可以通过 $lambda$ 模型（即每小时恒定失效率模型）对故障进行最佳建模。

在过去的实际使用中，p模型仅用于相当少的部件，而 $\lambda$ 模型（每小时恒定失效率模型）被用于绝大多数的部件中。分析人员必须清楚的判定哪种模型是当前分析中最适用的。失效率数据有时候也能提示哪种模型更为适合；另一方面，分析人员必须基于失效原因的知识和机制来判断哪种模型是最合适的。

p模型的可靠性特征是十分直接的，所有都是基于一个特征值p，也就是每次循环（每次请求）的失效概率。我们再次使用公式XI-8到公式XI-11中曾经使用的部件不可靠性F(t),部件不可用性q(t)的定义。对于时间t内的n次需求，假设失效互相独立，可靠性 $R_c$ 和不可用性 $q_c$ 可以用下式中得出
$R_c=1-q_c=(1-p)^n$
$1-R_c=q_c \approx np, \ \ np<0.1$
上式中，可靠性和不可用性都和时间无关，但是和时间内的循环数有关。对于一次请求(n=1),我们注意到 $1-R_c=q_c=p$ 。对于p模型建模的故障树的每个部件，使用者必须获取合适的p值和请求的次数（大多数是1）。

11.3.5 最小切割集的可靠性参数

当部件的可靠性参数被获取，那么最小切割集的可靠性参数就能被估计。对于一个就绪系统的故障树，比如核能安全系统，理论有关的特征参数就是最小切割集的不可用性，用Q表示：
$Q(t)=最小切割集的所有部件在时间t停机并且无法工作的概率 \tag{XI-22}$
因为最小切割集能被看成是系统的特定失效模式，所以我们能将Q定义为
$Q(t)=在时间t因为指定的最小切割集导致的系统停机的概率 \tag{XI-23}$
我们能把Q(t)叫“因为一个最小切割集导致的系统不可用性”。

我们鞥对故障树的最小切割集进行任何形式的编号， $Q_i(t)$ 是最小切割集i的不可用性。为了确定 $Q_i(t)$ 我们注意到，根据定义，最小切割集是关联部件失效的交集；最小切割集失效仅在所有部件失效发生时才发生。假设这些部件的失效互相独立，回想第七章（公式VII-3），一个交集（例如：一个与门）的概率是部件概率的乘积。于是
$Q_i(t)=q_1(t)q_2(t)...q_n(t) \tag{XI-24}$
这里 $q_1(t),q_2(t)...$ 是特定最小切割集中部件的不可用性， $n_i$ 是切割集中部件的数量。举一个公式XI-24的例子，如果一个最小切割集有两个部件，各自的不可用性分别是 $1\times 10^{-2}, 1\times10^{-3}$ ，那么切割集的不可用性为
$Q_i=(1\times 10^{-2})(1\times 10^{-3})=1\times 10^{-5}$
部件的不可用性已经在上一节进行了讨论；任意部件不可用性的组合都能被运用（比如一个部件可以是周期检查的，而另一个具有循环失效率等）。如果最小切割集的部件都是可修复的或者都是循环的，那么恒定值就能用于部件的不可用性，比如，（公式XI-10或XI-11），在那些我们忽略任何时间有关的瞬态行为内。在我们的近似范围内，对于这些完全可修复的或者循环的例子，最小切割集的不可用性是时间无关的简单的恒定值。

如果故障树是关于操作系统的，那么相对于不可用性，系统失效的数量和系统失效的概率就是我们最关心的。一个可靠性相关信息的最小切割集参数且最容易计算的就是最小切割集的出现率，用 $W(t)$ 表示。最小切割集出现率 $W(t)$ 通过以下形式定义：
$W(t)\Delta t=最小切割集失效在时间t和\Delta t之间出现的概率 \tag{XI-25}$
$\Delta t$ 是一个非常小的时间增量。发生率 $W(t)$ 是每个单位时间内最小切割集失效出现的概率。因为一个最小切割集可以被看作是系统失效的，因为我们可以等效的定义 $W(t)$ 为
$W(t)\Delta t=特定最小切割集导致系统在时间t和\Delta t 之间失效的概率 \tag{XI-26}$
如果我们对故障树上的所有最小切割集编号，那么 $W_i(t)$ 指的是最小切割集i出现率。

为了计算 $W_i(t)$ ，我么使用最小切割集的基本定义以及一个“发生”的概念。如果除了一个以外的所有部件都在时间t停机而另一个部件在时间t到 $t+\Delta t$ 之间停机，那么一个最小切割集失效发生在时间t和 $t+\Delta t$ 。假设部件失效是独立的， $W_i(t)$ 可以通过以下形式给出：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oaCOI7Y6-1586708457789)(asserts/equationXI-27.png)]

这里 $q(t)$ 是部件的不可用性，w(t)是部件的发生率（公式XI-14）。公式XI-27右手边第一项是除了部件1其他所有部件在时间t停机然后部件1失效的概率。第二项是部件2在时间t和 $t+\Delta t$ 之间停机，其他所有部件都已经停机的概率。每一个在时间t到 $t+\Delta t$ 之间失效部件的贡献是在切割集中的 $n_i$ 个部件相加来获取公式XI-27给出的总的发生率。公式XI-27的 $\Delta t$ 抵消，得出

当所有部件都有一个每小时失效率（ $\lambda$ 模型），那么最小切割集发生率 $W_i(t)$ 是严格适用的。前文说明的那类周期部件(p模型)，并没有任何明确的时间有关的行为。如果我们用于循环部件 $q_c(t) \approx n(t)p$ , 且 $w_c(t)\approx pk(t)$ ，那么上面的式子（XI-28）能用于具有周期部件的最小切割集，其中p是周期部件失效概率，n(t)是时间t内（期望的）请求数量，k(t)是在时间t每个单位时间一次请求的发生概率。（因此 $k(t)\Delta t$ 是在t到 $t+\Delta t$ 之间的一次请求的概率）。n(t)和k(t)必须从部件的运行情况的思考中得到。

在某时间区间 $t_1,t_2$ ，最小切割集i发生故障的期望数量 $N_i(t_1,t_2)$ 是
$N_i(t_1,t_2)=\int_{t_1}{t_2}W_i(t)dt \tag{XI-29}$

如果最小切割集中的部件都是可修复的，并且部件的不可用性和发生率都是恒定值（忽略任何瞬态），那么 $W_i(t)$ 也是恒定值， $W_i(t)=W_i$ 。在这个恒量案例下， $N_i(t_1,t_2)$ 就等于将时间区间乘以恒定的最小切割集发生率。
$N_i(t_1,t_2) = (t_2-t_1)W_i \tag{XI-30}$
因为每当最小切割集失效发生，则系统失效发生（由最小切割集蒂尼得出），所以对于最小切割集i， $N_i(t_1,t_2)$ 是在 $t_1,t_2$ 区间的系统失效次数的期望值。当所有部件是不可修复的，那么 $N_i(t_1,t_2)$ 也是在 $t_1,t_2$ 区间的最小切割集失效的概率（在这个例子中，期望值等于概率）。甚至当部件是可修复的，如果一段时间系统失效概率非常小（比如小于0.1），那么 $N_i(t_1,t_2)$ 就小于1。即时 $N_i(t_1,t_2)$ 是严格的失效期望值，对于最小切割集在时间段 $t_1$ 到 $t_2$ 中失效的概率，这也是一个很好的近似值。这个对于可修复的例子的近似是保守的（真正的概率会比这个略小一些，但已经相当准确，对于 $N_i(t_1,t_2)<0.1$ ,真实的概率偏差会在10%以内）。

使用我们前边的术语定义，最小切割集失效的概率是最小切割集的不可用性，因此，由于以上的原因，当 $N_i(t_1,t_2)<0.1$
$N_i(t_1,t_2) \approx 时间t_1到t_2之间最小切割集的不可用性$
在系统故障方面，当 $N_i(t_1,t_2)<0.1$ ，对于最小切割集i, $N_i(t_1,t_2)$ 在时间 $t_1,t_2$ 之间可以近似等于系统失效概率。我们可以说，在我们的近似范围内，对于最小切割集i， $N_i(t_1,t_2)$ 就是系统不可用性。当一些部件是可修复的，准确的最小切割集和系统不可用性相当难以计算，所以 $N_i(t_1,t_2)$ 成为了一个有用且相对准确的近似计算方法，这种方法对于大部分的应用都是很好的。

对于故障树评估，最小切割集 $Q_i(t)$ 和最小切割集发生率 $W_i(t)$ 给出了最小切割集概率行为的综合信息。如果是一个打击系统，比如核能安全系统被评估，一般只计算最小切割集不可用性 $Q_i(t)$ 。需要为故障树上所有主要的最小切割集计算最小切割集的参数。对于数量较少的最小切割集，可以计算故障树上所有最小切割集的参数。对于具有大量最小切割集的故障树，可以只计算低阶切割集的最小切割集参数，比如单元素或双元素的最小切割集。因为部件失效假设互相独立，所以高阶切割集（三部件以上的）的 $Q_i(t),W_i(t)$ ，相比低阶的，可以忽略。独立性假设代表一个最佳条件，并且因为部件失效之间的独立性原因，两部件或以上的真实的切割集参数，可能会比计算得来的 $Q_i(t)，W_i(t)$ 高很多。如果故障树只有两阶或更高的切割集，那么 $Q_i(t),W_i(t)$ 的计算值表示主要用于相关评估的设计能力数量（//TODO:这里翻译的有点问题）； $Q_i(t),W_i(t)$ 的实际达到的值可能会高的多，并且会非常难以估计。（参阅参考12）

11.3.6 系统（顶级事件）可靠性参数

一旦获取到最小切割集，则系统参数的决定就十分简单了。系统不可用性 $Q_s(t)$ 通过以下形式定义
$Q_s(t)=在时间t系统停机且无法响应工作的概率 \tag{XI-32}$
对于一个待机系统，比如核能安全系统， $Q_s(t)$ 是十分关键的系统参数。如果故障树的顶层事件
并不是系统失效二是一些基本事件，那么 $Q_s(t)$ 就是顶层事件在时间t时存在的概率（在更早时已经发生过且维持到时间t）

现在，当且仅当任意一个或更多的最小切割集停机，系统才会停机。如果我们忽视两个或以上最小切割集同时停机的概率，则系统不可用性 $Q_s(t)$ 可以约等于最小切割集不可用性 $Q_i(t)$ 的和。
$Q_s(t) \approx \sum_{i=1}^{N}Q_i(t) \tag{XI-33}$

这里 $\sum$ 代表涵盖故障树中N个最小切割集的 $Q_i(t)$ 的和。

公式XI-33，叫做“稀有事件近似（rare event approximation)，我们在第六章曾经讲过。对于 $Q_s(t)<0.1$ ，它与真实值的误差在10%以内。更进一步讲，所犯的任何错误都是保守的，因为实际不可用性略低于方程式（Xl-33）计算的不可用性。公式XI-33经常用于故上述评估，它计算方便，它能根据任何N值缩减，以仅考虑那些对 $Q_s(t)$ 影响最大的切割集。如果部件的失效都是可修复的或者周期的，且不可用性是恒定值，那么 $Q_s(t)$ 就是时间无关的，并且是一个简单的恒定值 $Q_s$ 。

对于在线的操作系统，系统失效发生率 $W_s(t)$ 是经常关注的，其定义如下：
W_s(t) \Delta t = 在时间t到t+\Delta t之间系统失效的概率 \tag{XI-34}$

发生率 $W_s(t)$ 本身代表在时间t每单位时间的系统失效概率（对于任意常规顶层事件，W_s(t)$是时间t每单位时间发生顶层事件的概率）。

当且仅当任意一个或多个最小切割集发生，系统失效才会发生。系统失效发生率 $W_s(t)$ 可以作为最小切割集发生率 $W_i(t)$ 的和来表达。
$W_s(t) = \sum_{i=1}^{N}W_i(t) \tag{XI-35}$

公式XI-35是稀有事件近似的另一个应用。它在低概率事件的时候非常精确，因为这样的事件，它的两个或以上最小切割集同事发生的概率是可以忽略的。公式（XI-35）仍然易于评估，可以将其截断，以便仅考虑N个主要的最小切割集的影响。

如果我们使用 $W_s(t)$ ，在时间 $t_1,t_2$ 期间的系统失效的期望次数 $N_s(t_1,t_2)$ 是
$N_s(t_1,t_2) = \int_{t_1}^{t_2}W_s(t)dt \tag{XI-36}$
作为上式中的特殊应用，系统在时间t内失效的期望次数 $N_s(t)$ 是
$N_s(0,t)=\int_0^t W_s(t')dt'$
如果部件失效都是可修复的或者循环的，且部件的不可用性是一个恒定值，那么 $W_s(t)$ 是一个恒定值 $W_s$ ,并且 $N_s(t_1,t_2)$ 就是区间 $t_2-t_1$ 乘以 $W_s$ 的积。

对于最小切割集 $N_i(t_1,t_2)$ 应用相同的逻辑，对于 $N_s(t_1,t_2)$ 小于0.1, $N_i(t_1,t_2)$ 同样是系统在 $t_1,t_2$ 之间相对准确的近似值，也就是系统的不可靠性。

$N_s(t_1,t_2) \approx 系统在t_1与t_2之间的不可靠性$
因此， $N_s(0,t)$ 就是系统在时间区间t中的相对准确的不可靠性。

系统的不可用性 $Q_s(t)$ ，系统的失效发生率 $W_s(t)$ ，系统失效的期望次数 $N_s(t_1,t_2)$ 给出了系统故障的概率描述相关的广泛的信息。通过使用这些结果，读者必须记住这些计算过程中使用的假设和限制，特别是部件故障发生之间相互独立的假设。作为讨论最小切割集的参数，如果故障树只有两个或以上的切割集，那么由于部件间失效的相互独立性，系统计算结果或许会比真实值低很多。当这些依赖关系存在的程度极大地提高了故障概率，那么 $Q_s(t),W_s(t),N_s(t)$ 代表最佳设计数字，这个数字对于相对评估有用，但是对于绝对评估没有用。

11.3.7 最小切割集和部件权重

作为一个附加的估计，我们描述一个决定每一个最小切割集和每一个部件失效的权重的量化技术。我们将最小割集重要性定义为特定的最小割集对系统故障概率的作用。我们定义部件权重为特定部件失效对系统失效概率的作用。不同的公式可以拥有计算权重（对于不同的方法，可以参考【21】），在这里我们使用一种最简单的方法来计算权重。

可以根据系统不可用性 $Q_s(t)$ ，或系统失效发生率 $W_s(t)$ 来计算最小切割集和部件的权重。这两面的规则是一样的：为了计算最小切割集的权重，我们我们采用最小割集参数与系统参数之比。对于部件权重，我们将所有包含该部件的最小切割集的参数相加，然后除以系统的参数。

用 $E_i(t)$ 表示时间t时最小切割集i的权重， $e_k(t)$ 为部件k在时间t的权重（我们将最小切割集和部件用简单的表示方法编号）。关于系统不可用性
$E_i(t)=\frac{Q_i(t)}{Q_s(t)}= 最小切割集i对于系统不可用性影响的分数 \tag{XI-39}$

且

$e_k(t)=\frac{\sum_{k in i}Q_i(t)}{Q_s(t)}= 部件k的失效对系统不可用性的影响的分数 \tag{XI-41}$

公式XI-41中的求和符号表示涵盖所有那些包含部件k作为其一个部件的最小切割集的 $Q_i(t)$ 的和。因为系统只会在一个或更多切割集失效的时候停机，因此公式XI-41中的 $Q_i(t)$ 的和就是由于部件失效k成为其中一个原因的系统停机的概率。鉴于系统已经关闭,根据条件概率， $E_i(t)$ 约等于系统因为最小切割集i而停机的概率。鉴于系统已经关闭， $e_k(t)$ 约等于系统由于部件k成为原因之一而停机的概率。（由于忽略了最小割集的交集，因此数量是近似的，即使用了稀有事件近似）

当所有的部件都是可修复的或者周期的，并且部件的不可用性是恒定的，那么权重 $E_i(t),e_k(t)$ 也是恒定的且与时间无关： $E_i(t)=E_i,e_k(t)=e_k$ 。最小切割集和部件的权重因此能从最大到最小排序，而不用考虑时间。

关于系统失效发生率，最小切割集权重 $\hat{E_i}(t)$ 和部件权重 $\hat{e_k}(t)$ 为
$\hat{E_i}(t)=\frac{W_i(t)}{W_s(t)} = 在时间t最小切割集i对系统失效发生率的影响的分数 \tag{XI-44}$

$\hat{e_k}(t)=\frac{\sum_{k in i}W_i(t)}{W_s(t)} = 在时间t部件k作为其中一个贡献者的系统失效发生的分数 \tag{XI-46}$

以上两个公式的推论与之前使用的推论相同。关于 $\hat{e_k}(t)$ ,部件k是定义成为在时间t系统的失效贡献者之一，如果其在时间t已经故障或在时间t发生故障。如果所有组件参数是恒定值，则 $\hat{e_k}(t),\hat{E_i}(t)$ 仍然是简单常数，可以不考虑时间从高到低进行排序。

为了便于读者使用，表格XI-2，XI-3总结了所有估计故障树的相关公式。

11.3.8 敏感度估计和不确定度分析

在上一节的内容里，我们描述了不可用性的点估计的计算和故障树的顶层事件的故障发生率。在本节中，我们简要讨论了如何评估这些估计值对组件数据或模型中的变化或不确定性的敏感性的问题。

敏感性研究是评估各种变化对部件数据和这故障树的影响。我们使用上一章所讲的公式来评估部件数据的效果是十分方便的，因为它们非常准确的包含了部件失效率，测试区间，以及作为变量的维修时间。。在敏感度测试中，我们经常赋给这些变量不同的值，以确定其结果的不同点。例如，如果T是一个周期性的测试区间，那么系统不可用性的效果就能依据不同的区间T的值来研究。这可能需要像使用不同的T重新进行计算一样简单的计算，也可能需要采用动态编程来实现复杂的计算。同样，可以更改故障率 $\lambda$ ，以确定升级或降级组件可靠性的影响。

作为敏感性研究的一种，还可以通过对树上的特定事件使用高失败率和低失败率来执行范围界定评估（scoping-type evaluations)。如果系统不可用性变化的并不明显，，那么事件就并不重要，没必要在上边花费过多的精力。如果系统不可用性变化的十分明显，那么需要获得更多更准确的数据，或者事件必须进一步开发以获取更多的基本原因。一个大范围的敏感性分析可能被执行，这取决于工程师的需求。

在判断影响的重要性时，分析人员必须考虑其数据的准确性，这一点很重要。例如，尽管当故障率已知为3个有效数字时，系统不可用性的2倍变化可能非常显着，但是当故障率仅已知一个数量级时，相同的2变化因数可能并不重要。//TODO:这句话翻译的有点问题

作为敏感性评估的一种，由于可能的数据不确定性或可变性，可以执行形式错误分析来确定任何最终结果中的错误扩散。为结果获得的误差分布给出了与结果相关的不确定性或可变性。误差分析采用统计或概率技术，它们独立于故障树评估技术本身；因此，讨论应简短一些。

各类误差分析技术已经得到了应用，我们将大概的解释一下当数据作为随机变量处理的相关方法。对于随机变量方法，故障树评估最适合的方法是蒙特卡洛模拟技术。蒙特卡洛方法可以适用于常规分布，误差的常规大小，以及依赖性。

在蒙特卡洛方法中，故障树评估被重复好多次进行，每一次都使用不同的数据（比如 $\lambda$ 和 $T_R$ )。通过从概率分布函数中随机采样来“模拟”数据值的变化，该概率分布函数描述了数据的变化性。概率分布可以是 $\lambda,T_R$ 等参数上的贝叶斯先验分布，或者可以是表示故障率和其他数据在工厂间变化的分布。每次试验计算将为感兴趣的系统结果提供一个值，例如系统不可用性或发生率。整个重复计算的整个集合将给出一组系统结果，从该系统结果中确定误差分布（例如，选择5％的最大值和95％的最大值以表示结果的90％范围）。

上面的方法相当于于重复试验很多次来在试验数据中确定误差。最终在结果上体现的误差是产生于不同类结果的最终误差扩展是对由失败率和其他数据作为随机变量的可变性引起的结果可变性的估计。(第十二章第2节讲述了一些基于原始故障树蒙特卡洛模拟的计算机代码)

第十二章故障树评估计算机代码

12.1 可用代码概述

本章讲述了故障树分析中可用的计算机代码。这些代码分成了五个组（group），括号中的数字是参考书目中的参考文献。

第一组由故障树的定性评估代码组成（比如计算最小切割集或路径集的代码）。第二组代码执行基于切割集的结构信息的量化分析（概率分析）。第三组代码用于不用计算最小切割集作为必要的中间步骤，而进行故障树的直接数字估计；但是，他们中的大部分都要生成切割集，作为分析的附加部分。PLMOD，一个双目标代码，他可以在故障树的定量分析和定性分析中使用，它在第四部分进行阐述，最终，第五组包含了用于共因分析的代码。这五个代码组将在后续的几节内容中进行阐述。

12.2 故障树的定性分析计算机代码

这一节我们分析计算最小切割集（路径）的代码。最小切割集的计算常常意味着故障树的定性估计，因为它的结果只基于故障树的结构，而和基础事件的概率无关。与之相对应的是，概率估计经常被看作故障树的定量估计。

定性和定量的划分是十分自然的，因为概率分析经常包含多次重复的故障树估计（比如在不同的时间点，使用失效或维修率的分布来执行敏感性或错误分析）。因此，执行非常耗时的单次结构分析它经常是最有效率的，以一些方便的形式保存结果，使用这些结果通过按照要求使用不同的数据集合对故障树进行量化分析。计算最小切割集带来的其他优势有：

最小切割集给分析人员很多非常有用的信息，即时没有任何定量数据，因为他们指出了部件失效会导致系统失效的那些部件的最小切割集；
没有贡献的切割集（通常基于切割集大小）可以被优先在量化分析中舍弃，因此会提升计算效率并降低数据需求；
将最小切割集和原始树进行比较的能力提供了一个有价值的误差检查；
切割集是常见原因分析代码输入的一部分。

最小切割集代码的一个不足是，即使是一个普通大小的故障树，其过程的存储和计算时间也常常是非常巨大且不能承受的。这是因为切割集的数量会随着门的数量呈指数上涨，并会轻易达到M级甚至G级（比如一个299个基本事件的书，有着324个门，有着超过64M个切割集）。因为事件和门的简单数量不足以表明最小切割集的数量，因此问题会变的更加复杂，而且即使是最小切割集的数量也不足以预测所需要的过程时间。因此预测一个故障树的存储需求和执行时间是十分困难的。

可以使用几种方法来克服或减轻获取最小切割集的问题。其中最常用的是在过程中取消那些集合大小（事件数量）超过预设数量n的切割集。这对一些有着低阶切割集的故障树非常有效，这些切割集通常控制高阶切割集。在WASH-1400【38】中，只有单一的或两个的时间切割集为独立失效计算所保留；更高阶的切割集仅用于常规模式和常规原因失效可能性分析。另一种方法是直接依据切割集的概率而不是它是低阶或高阶的来化简故障树。但是这需要一开始就提供部件失效概率的输入。使用故障树化简的不足之处有：

无法判断总的被舍弃的失效概率
依赖性分析，比如事件对于基本原因的依赖性，这需要对高阶切割集进行分开估计

一些代码中使用的其他技术是有效的“打包”和/或位级存储方案，在切割集处理期间使用辅助存储介质以及自动树分解方案。后者似乎是一种有前景的方法，将在后边的章节中进行讨论（SETS，FTAP和PL-MOD节的内容）。

在本节剩下的内容中，我们讨论了单独的定性分析代码。第1（a)节中PREP是第一个切割集代码。它包含了背景介绍，其具体方法实际已经被后续的方法所取代。1（b）到（g)的各节介绍了不同的方法，其采用了第七章介绍的不同类型的“从顶向下”或“自下而上”的方法。第四节，SETS与其他代码有些不同，因为它提供了一种非常通用且灵活的工具，以其相应的布尔方程式的形式来处理故障树。

（a)PREP

PREP和KITT代码【40】【42】，基于IBM 360平台，用FORTRAN IV语言在1970年完成，是第一个故障树估计代码。PREP是最小切割集（或路径集合）生成器，KITT1和KITT2使用PREP的结果，在动力学树理论（Kinetic Tree Theory）的背景下执行时间相关的故障树分析。KITT代码将在量化分析章节中进行讨论。

PREP包含两个部分：PREP-TREBIL和PREP-MINSET。TREBIL(“tree build”)使用用户的故障树的输入描述，并建立一个故障树布尔方程的FORTRAN子程序。MINSET使用TREBIL的故障树子程序来找到故障树的最小切割集以及路径集合。

PREP-MINSET有两个最小切割集生成选项：COMBO和FATE。COMBO系统的对所有单一基本事件，结对基本事件以及三个基本事件一组的等等进行失效分析，来确定那个组合导致顶层事件的发生。用户决定用于计算的切割集的最大大小（对于低概率事件，例如核能设备故障树，两个和三个的已经足够）。FATE结合部件的可靠性量化数据来找到最可能发生的最小切割集。它通过执行蒙特卡洛模拟来实现。

PREP最主要的不足是对于一个大故障树的高阶要求切割集，COMBO需要巨量的计算时间，而FATE并不能保证找到所有的最小切割集。同样的，PREP的输入被限制到与门和或门，于是非门，不论是明确的还是非明确的（比如异或门），都是禁止的；特殊的门，比如n输入k输出的门，必须依据它们基础的与门和或门的结构进行输入。基本时间被假设为互相独立的；非限制的重复事件是允许的；没有办法去生成中间门的切割集；没有简单的方法来输入树的重复部分。PREP最多允许2000个部件和2000个门；COMBO生成的最小切割集被限制到最大10个部件。

(b) ELRAFT

ELTAFT(efficient logic reduction of fault tree)代码[35]使用唯一的自然数的因数分解属性来找故障树的最小切割集。每个大于1的整数都可以表示为素因子（prime factors）的唯一（排除次序）乘积。在这个代码中，每一个基本事件被分配一个唯一的素数。树是从下往上处理的，连续的高层级门的切割集被表示为何他们输入事件相关的数字的乘积。ELRAFT最主要的缺点就是，对于很大的树，素因子的乘积会很快超过计算机的容量。FORTRAN IV CDC 6600平台的代码，ELRAFT能够为顶部事件和其他指定的中间事件找到最多六个基本事件的最小切割集。

（c) MOCUS

MOCUS代码【11】完成于1972年来为KITT代码作为最小切割集生成器来取代PREP代码。名为“布尔值表示的切割集”（BICS）是通过从顶部事件开始，连续进行替换到门方程中而生成的，直到树中的所有门都被基本事件替换为止。如果树没有包含重复事件，那么BICS将会是最小的；否则，不是最小的BICS必须被舍弃。MOCUS原理可以在给定的树中查找最多20个门的最小切割集或路径集。如果需要，用户可以设置找到切割集的长度的最高限制。MUCOUS代码的其他方面与PREP相同。 MUCUS是用FORTRAN IV编写的，用于IBM 360系列计算机。

(d) TREEL & MICSUP

TREEL和MICSUP [29]基于类似于MOCUS中使用的思想，除了MICSUP（最小切割集向上）不是从顶部事件向下进行工作，而是从最低级别的门基本输入开始，并向上运行至顶部树事件。TREEL是一个预处理器，它检查树是否有错误，并预先确定指示的布尔值和路径集的最大数量和最大大小。作为从下到上处理树的结果，MICSUP具有为树的每个中间门生成BICS的优势。非最小BICS和长度大于用户指定限制的BICS可以在出现时丢弃，从而减少了计算机时间和存储要求。与MOCUS一样，代码的大多数其他方面与PREP相似。

（e) ALLCUTS

搜寻最小切割集的另一个代码是由Atlantic Richfield Company开发的ALLCUTS [39]。 ALLCUTS使用自上而下的算法，类似于MOCUS的算法。辅助程序BRANCH可用于检查输入，并交叉参考门和输入事件，而绘图程序KILMER可用于基于故障树输入描述和对话式绘图指令来生成故障树的Calcomp绘图。 ALLCUTS可选地允许输入基本事件概率数据。如果输入了此数据，ALLCUTS可以计算最高事件概率，以概率的降序对多达1000个最小切割集进行排序和打印，并在指定的概率范围内选择切割集。ALLCUTS能处理高达175个基本事件和425个门事件；当前版本的代码使用110 K（八进制）。 ALLCUTS用FORTRAN IV和COMPASS（汇编语言）为CDC 6600计算机编写。

(f) SETS

SETS(Set Equation Transformation System[46]),是由Sandia Laboratories开发的一个基础程序，用于故障树的布尔方程处理和寻找最小切割集或路径集合。SETS代码的优点是它的通用性和灵活性，其中一个例子是可以通过SETS用户程序动态操纵树的能力。此功能为用户提供了对处理的大量控制，此功能在分析大树时特别有用。例如，可以编写SETS用户程序来分解原始树并分阶段处理它，而无需对原始故障树输入描述进行任何更改。最近添加的功能使SETS能够自动识别独立的子树并选择阶段以有效处理大型树。 SETS的其他功能是打包的位级存储方案和辅助存储的使用，旨在有效处理大型树。

与PREP，ELRAFT，MOCUS，ALLCUTS和MlCSUP不同，SETS可以处理补充事件（complemented event)，异或门和由用户定义的任何有效布尔表达式表示的特殊门。这能用于查找任意中间级门的“素隐含数（prime implicants)”(这是一个比最小切割集更基本的术语，它包含一个在一个布尔方程里的事件和它的补充的概率)。其他有用的功能是自由字段输入，方便处理重复子树输入的能力，为文件中的任何事件保存切割集或分解式的选项，以备将来使用。分解式是最小割集方程的紧凑形式，可以出于枚举目的从中生成任何顺序的割集。

SETS允许基于割集顺序和割集概率来减少树。还将按降序排列（并输入基本事件概率）对最小割集进行排序和打印。 SETS是用FORTRAN编写的，用于CDC 6600。

(g) FTAP

FTAP(Fault tree analysis program[43])是由加利福尼亚伯克利大学功能研究中心研发的最小切割集生成代码。FTAP是唯一提供给用户三个过程方法的代码：自上而下，自下而上，以及"Nelson"方法。自上而下和自下而上基本类似于MOCUS和MICSUP的方法。Nelson方法采用了素隐含数原理，它适用于包含补充事件的树，并结合了自上而下和自下而上的技术。除SETS之外，FTAP是唯一的故障树代码，它可以计算素隐含数。

FTAP使用两种基本技术来减少产生的非最小割集的数量，从而提高代码的效率。自下而上和Nelson方法中使用的第一种技术是模块化分解。这种方法与PL-MOD中使用的方法非常相似（请参见第4节），并且与用于识别和处理独立子树的SETS算法（请参见本章（f）节）有些相似。第二种技术，在从上之下方法和Nelson方法中都用到，在FTAP文献【43】中被叫做“对偶原理（dual algorithm)”。这个原理涉及到将和的乘积到乘积的和，然后使用一种特殊的方法进行对偶运算。作者声称，在对偶的构造过程中出现的非最小集“将始终少于[和的原始乘积]中此类集的数量，通常少很多倍”。，

其他FTAP的特性是基于切割集顺序或者概率来化简故障树的能力，查找路径集合或者切割集合的能力，对称门（n入k出）的直接输入的能力，以及相当的灵活性和处理过程中和输出中用户的控制能力。

FTAP用FORTRAN和汇编语言编写，在CDC6600、7600和IBM360-370平台上运行。

12.3 故障树量化分析的计算机代码

这一节内容涵盖如何进行故障树量化评估的代码。这些代码的输入有两部分：

顶层事件不可用性或不可靠性的方程（经常从最小切割集，但是也能从非故障树模型中获取，比如模块图或者原理图）
出现在公式中的部件的失效率，测试和维修数据。
根据以上的输入，量化结果的一些类型可以被计算，包括：

数值概率：系统和部件失效率的概率
量化权重：系统和部件失效的权重
敏感度估计：误差绑定的模型和数据内变更的效果

分别在第2(a)和2©节描述的KITT和FRANTIC的代码，计算系统失效概率的时间平均和时间依赖的点估计。KITT也计算量化权重。第2(b)节中的SAMPLE和MOCARS，根据组件故障特征的不确定性，误差或变化，计算系统故障概率的分布和误差范围。

(a) KITT代码

KITT1和KITT2【40】【42】基于故障树的最小切割集或路径集的描述，执行时间相关的故障树的量化。因此，这些代码可以与任何定性分析代码一起使用，这些定性分析代码会根据成分（基本事件）（例如PREP，MOCUS，SETS等）生成最小切割集。PREP和MOCUS以直接可用作KITT代码输入的形式生成切割集。其他所需的输入是组件故障率和维修特性。假定组件具有指数故障分布。每个组件可能具有固定的修复时间，指数的修复分布，或者是不可修复的。此外，KITT2允许每个组件具有其自己独特的时间阶段，由此其故障和修复数据可能会随阶段而变化。

KITT代码为系统失效（顶层事件）计算以下五个方面的概率特征，每一个部件，在用户指定的任意时间点计算每一个最小切割集或者路径集：

在时间t存在的失效概率（非有效率）
到时间t也没有发生失效的概率（可靠性）
时间t失效发生的期望次数
每小时的发生率

除上述内容外，KITT代码还通过定性和定量的重要性对事件进行单组分和双组分切割。有关重要性度量的讨论，请参见第十一章。

(b) SAMPLE，MOCARS等

当将概率分布分配给组件故障率以解决数据可变性时，已编写了一些代码来计算所计算的系统结果的概率分布（例如，不可用性）。这些代码使用蒙特卡洛模拟，其中从输入概率分布中采样组件故障率。然后，通过用户提供的FORTRAN子例程中给出的系统功能，将故障率的样本值组合起来，以确定样本系统结果。在多次这些“试验”之后，可以将不同的系统值制成表格，并可以表征所得的经验分布。通过这种方法，可以评估不确定性或组件故障率变化对系统可用性的影响。

通常，用户提供的系统不可用性函数可能是从定性分析代码之一获得的最小切割集方程。SAMPLE[38]是WASH-1400中使用的蒙特卡罗代码。 SAMPLE允许为组件故障率指定非正态分布，对数非正态分布或对数统一（log-uniform)分布。输出分布以估计的经验概率百分位数表示，从中可以轻松读取估计的中位数，上限和下限。输出还包括分布的估计平均值和标准偏差以及系统密度函数的表格直方图。样本是用FORTRAN IV编写的。

MOCARS [25]类似于SAMPLE的原理和操作，但是允许更多种类的采样分布，包括指数分布，正态分布，γ，β，对数，二项式，泊松分布，威布尔分布和经验分布。它允许将系统不可用功能指定为FORTRAN语句或使用切割集。其他选项包括使用集成图形系统（IGS）进行微缩胶片绘图以及对输出分布执行Kolmogorov-Smirnov拟合优度测试以查看其是否类似于正态，对数正态或指数函数的功能。MOCARS是用FORTRAN编写的，可在INEL CDC 76-1973操作系统上运行。

研究人员也已经编写了SAMPLE[4]的其他扩展版本，但是它们都非常相似，因此在此不再讨论。

© FRANTIC

FRANTIC(Formal Reliablity Analysis including Normal Testing, Inspection and Checking) 【41】代码计算任意常规系统模型，例如故障树或者事件树的平均和时间相关的不可靠性，详细考虑不同周期测试方案的影响。程序可用来评估系统的测试停机时间、维修时间、测试效能、不可用性，测试旁路功能，测试导致的失效，以及不同的测试交错的不可用性。除了定期测试的组件之外，不可维修的和监控的组件，以及人工错误和常规原因贡献也可以被建模。

在SAMPLE代码中，系统模型以FORTRAN支路的形式输入。对于每一个部件，失效率、测试和维修特性必须被提供。指数失效分布被假设。其他输入包括了计算的时间区间，打印和绘图的选项。时间相关的系统不可用性函数的Calcomp绘图将被描绘。

可以使用FRANTIC代码[16]的蒙特卡罗版本，其中可以为组件故障率输入采样分布。 FRANTIC是用FORTRAN IV编写的，用于IBM 360-370系列计算机。

4. 直接评估代码（Direct Evaluation Code)

就像名称里描述的那样，直接评估代码只用一个单一步骤对代码进行量化。因此，它们不将切割集作为分析的必须步骤，而是要求对于从过程输出的每一个部件进行概率输入。这些代码的输出大体上以系统不可用性和失效概率的形式的点估计的形式给出。

第三节c和f描述的GO和WAM-BAM代码，对允许的补充事件和一些依赖的模型有一定的优势。GO还允许开关和时间延迟和建模所有的系统状态，来替代单一失效事件。GO和WAM-BAM通过消除过程中在中间层次的低概率的路径来降低存储需求，并且同一时间保持跟踪舍弃路径概率的总量。不利条件一般是关于它无法生成切割集（很多直接评估代码是有计算切割集的选项的，但是不是分析必须的），以及必须对于所有部件都要输入概率，即使很多事件对于系统失效是无足轻重的。同样，一个概率的变更会经常导致整个过程的重新运算。

(a)ARMM

由北美航空为美国空军开发并由Holmes和Narver修改并应用于核电站系统的ARMM（自动可靠性数学模型）代码[26]是第一个直接评估代码。 ARMM使用成功路径方法对可靠性框图进行建模。使用为每个组件提供的故障密度函数确定组件的故障概率。程序能够处理Weibull（时间依赖失效率）密度函数，依赖的组件，以及完全互斥的失效率。它用FORTRAN IV编写，运行于IBM 360平台。

(b)SAFTE

SAFTE（通过故障树评估进行系统分析）代码[13]，SAFTEl，SAFTE2和SAFTE3是蒙特卡罗模拟程序，使用类似于PREP的FATE选项的技术来生成故障树中组件失效的随机时间。但是，不同于计算切割集，SAFTE代码直接生成系统失效的时间分布。SAFTE1代码如下边叙述的一样工作；SAFTE2代码也包括从常规维修分布中抽样来获取每个部件的维修时间。在这个版本，一个失效的部件或许会在系统失效前维修（成为新的一样），然后通过一个新的随机失效时间和维修时间恢复工作。在SAFTE1和SAFTE2中，失效的随机时间生成于指数型的失效分布。

SAFTE3计算系统失效的概率，是基于稳定状态维修，使用直接或权重采样的技术。SAFTE代码用FORTRAN IV运行于IBM 360计算机。

© GO

Go方法，开发于1960年中期的卡曼科技公司，不同于故障树原理，其常规操作流程会被建模，而且所有可能的系统状态都会被考虑。所使用的输入模型比叫做GO图型，它继承了标准操作集合组成的原理图或流程图，这些图形描述了系统部件的逻辑功能和内部连接。16个GO操作的其中一部分于故障树的门非常像，但是除了逻辑功能之外，时间延迟和开关，以及互补事件逻辑和完全独立状态也能被建模。GO还提供了一个对树的重复部分，采用“超级类型”进行建模的简单的方法。除了指定操作员的类型及其互连之外，用户还指定与每个组件的可能操作模式关联的概率。此过程类似于为故障树中的组件提供故障概率；但是，在GO方法中，给出了除了简单的成功和失败以外的简单事件的概率（比如，为某些操作员提供了提前操作的概率或一系列时间点上的响应概率）。GO的输出是各个输出事件发生的概率或几个输出事件的性能的角度的联合概率。输出事件可以包含系统成功，各种失效的角度，例如荒谬或提前的操作，延迟或片面的操作，以及完全操作失效。部件维修的效果不能建模。

通过使用马尔可夫链（事件树）方法通过模型跟踪信号（事件概率）以传播值，一步一步地执行了数值评估。这意味着组件概率的变化，例如敏感性研究，即使系统结构保持不变，也需要一个完全的重新估计。因为概率树会轻易的变得非常大，所以Go会先依据一个选定的概率值对树的分支进行修剪，并且去除不再需要的信号，同时持续跟踪舍弃路径的概率总量。Go同样包括一个“故障查找器”选项，它能为指定的输出事件计算第四级别的切割集

因为GO代码的细节与多样性，以及包含所有部件的必要性，Go的建模过程比故障树更复杂一些。但是，需要看到GO的图表和人们熟悉的系统原理图更相似，其建模过程对于设计人员和工程师们会更容易学。如果分析人员想要使用故障树模型来取代GO图形，使用GO来估计故障树也是可行的。在这种情况下，将仅使用类似于故障树门的GO运算符的子集，并且输出将是顶级事件失败概率的点估计

GO使用FORTRAN语言，运行于CDC 7600.

(d) NOTED

NOTED，是由United Kingdom Atomic Energy Authority在1971年推出，在概念上和GO很相似。但是，与在一系列离散时间点分析系统不同，NOTED制作出一个累积失效概率的图形，在系统的任意几个点上作为一个时间的连续性的功能。相似的，输入部件的行为通过连续性的失效分布进行描述，包括指数对数正态，正态，威布尔以及包括修复时间在内的形式。

(e) PATREC

PATREC是一个采用列表过程技术来解决故障树估计问题的计算机代码。PATREC使用以PL / 1编程语言实现的模式识别算法直接进行故障树估计，而不是生成切割集。一组子树模式及其对应的概率方程式存储在计算机代码的库中。然后在故障树中搜索库中模式的出现。每一个识别的模式被一个超部件集合存储在库中的相等的出现概率进行替换。因此整棵树就会完全缩减成一片叶子，它反映了整个系统的失效概率。

PATREC能估计包含一个事件和其补充事件的故障树；n入k出门的直接输入也是支持的。如果需要，它能通过一个和MOCUS类似的算法生成切割集，但是他们不能用于故障树的估计。PATREC最局限的地方应该是处理重复的事件了。模式识别方案仅在没有事件被复制时才产生正确的概率。因此，PATREC将具有r个不同复制事件的单个故障树替换为 $2^r$ 个没有复制事件的故障树。即使近似值可以丢弃一些 $2^r$ 故障树，PATREC也无法有效地评估具有大约20个以上重复事件的故障树。

PATREC能执行时间相关系统不可用性分析，其中每一个事件都可以有一个失效分布，它可以是指数型的，威布尔型的，正态的，对数正态的。对于指数型失效的情况，部件可以选择性的被假设为一个指数维修分布的可维修性。此外，用户能包含一个恒定的“按需失效”（比如，在开始时失效）概率，它与时间不相关。

PATREC-MC【20】是PATREC的蒙特卡洛版本，它能用于评估部件可靠性参数中的不确定性造成的影响。该代码的功能和SAMPLE（第二节中介绍的）非常类似，但是在系统功能的表示方法不太一样。在PATREC-MC，首先会有一个计算，利用列出先前描述的过程方法来定义故障树中的所有模式。模式将存储在内存中，以便他们能在蒙特卡洛实验中被反复估计。注意，为随后的重新估计所进行的模式的存储意味着PATREC-MC并不是直接估计，因为存储的模式实际上是中间过程定性分析的结果，它独立于部件的概率。具体区别我们将在后边PL-MOD的章节中继续分析（本章第四节）。

(f)WAM_BAM

WAM-BAM是由Science Applications开发的代码。起始于1975年的EPRI，WAM-BAM包实际上包含了四个代码：WAM,WAMTAP, BAM, WAM-CUT。WAM和WAMTAP是针对估计代码BAM(boolean arithmetic model)的输入预处理。WAM预处理，近似于PREP，旨在简化输入准备过程。它从故障树的输入描述和事件概率中为BAM生成数字输入。在用户的选项中，BAM的输入可以保存并在后边通过WAMTAP进行修改。WAMTAP允许单一的部件和成组的部件为了敏感度研究或者为了包含常见原因作用而作出修改。WAM-CUT能用于计算最小切割集，任意的门的概率的方差或者平均值。它还能生成蒙特卡洛代码的输入，SPASM，它能对门概率的分布进行计算。

估计代码BAM，使用一个来自于GO方法和故障树分析的组合概念。它使用了GO的计算方案，但是却使用了像故障树的门那样的建模操作。作为允许的门，它包括两个事件的八个可能的逻辑组合以及他们的补充。在BAM，顶层事件的概率通生成一个真值表来计算，每行代表与所有其他P项不相交的乘积项（P项）事件。就GO方法论而言，P项等效于在GO事件树内的路径。BAM的输出是顶层事件的点概率。就像前边提到的，WAMTP能被用来修正BAM敏感性的输入。WAM-BAM由FORTRAN语言编写，运行于CDC 660平台。

12.5 PL-MOD:双目的代码

PL-MOD【28】在本节会被分开叙述，因为它能对故障树进行定性和定量的分析，它既不依赖于标准切割集生成也不依赖于直接估计技术。类似于PATREC-MC代码，它执行并不依赖标准切割集生成技术的定性估计，二是重复使用定量估计。

PL-MOD代码通过从一个部件和门的框图的描述来直接将故障树模块化。根据可靠性网络图的定义，一个模块是一组部件，这些部件具备超部件的行为特征（比如，完全满足知道超部件的状态，而不是组成它的部件的状态，来判断系统的状态）。根据故障树图，如果没有包含在门域（例如门下所有的分支）中的基本事件出现在故障树的其他地方，一个中间门就是一个顶层事件树所对应的模块。简单来说，模块化意味着所有独立的子树（例如子系统或模块）都被妥善定义，并且最小切割集都根据这些模块被递归的定义。或者，换一种说法，一个模块化的树是一个与原始树等效但是基于某些理由最大化的将树分解成独立的子树。

模块化的概念和优点已为人所知[2]，Chatterjee[6]在1975年描述了一种在给定故障树的切割集的情况下找到最佳模块化分解的算法。使用PL-MOD模块化的过程是独特的，它并不应用切割集，但却使用PL/1编程语言的列表过程特点从而直接应用故障树图形的描述。使用PL-MOD的模块化过程更复杂，我们在这里并不继续讨论（参考28会有更详细的叙述）。

PL-MOD的特点是能处理补充事件，对称门（n入k出）的直接输入，自由字段的输入，动态存储分配。PL-MOD的输出包含顶层事件和树的指定中间门的标准的或模块化的最小切割集。

PL-MOD的不足是它是机器相关的（PL/1在很多计算机上无法运行）并且很多科研从业人员并不熟悉。

PL-MOD的量化能力包含顶层事件和所有其他模块的出现概率和权重的计算。PL-MOD同样还有针对计算不确定度的蒙特卡洛选项，以及时间相关不可用性的估计，它能处理不可维修的，可维修的，以及周期性的测试部件。

12.6 共因失效分析代码

共因失效分析在系统可靠性和安全性研究中越来越重要，因为人们逐渐认识到共因失效能经常主导随机硬件失效。共因失效分析尝试定义系统失效模式（例如最小切割集），它可能由一个单一的，更基本的共因触发。需要定义的最小切割集是那些有两个或更多事件的，所有这些都容易受到单一的共因失效机制的影响。//TODO:这里的Common cause到底是共因还是普通原因？

(a) COMCAN

COMCAN是由INEL开发的，是第一个执行共因失效分析的程序。该程序的输入有两部分：1）需要分析的故障树的最小切割集；2）每一个基础事件的共因薄弱性（//TODO：文中有好多susceptibility，是翻译成薄弱性还是敏感性比较好？）数据。程序的输出是一个最小切割集列表，它是供候选的共因。

可以通过两个标准中的任何一个将最小切割集标识为共同原因候选者。第一个标准要求所有的切割集的事件应有可能被相同的原因或条件影响。第二个校准要求所有切割集的事件共享一个共因或条件对应的易感性，此外，关于共有原因的易感性方面，最小切割集中的基本事件所暗指的所有部件必须共享一个共有物理位置。一些标准共有原因包含：冲击、震动、牵引力（stress）、砂砾、同向力（pressure)、温度。最小切割集和共因易感性数据组成了需要的输入。可选的输入是部件的结构，常规原因的位置区域定义，基本事件所隐含的每个组件的位置，以及每个常见原因对组件的易感性。提供的输入越多，对共因候选的搜索就越精细。输出的选项包含仅打印 $ranks \geq N$ 的共因候选，和包含作为共因候选标准之一的所有相似类型部件。

COMCAN用FORTRAN IV编写，运行于IBM 360计算机。

(b)BACKFIRE

BACKFIRE代码[5]于1977年5月发布，是COMCAN的分支。必需和可选输入几乎相同，除了BACKFIRE允许为一个组件指定多个位置。这对于可能穿过区域屏障的管道和布线很有用。像COMCAN一样，BACKFIRE是用FORTRAN IV编写的，用于IBM 360计算机。

© SETS

在前边章节中介绍的SETS代码也可以用于共因分析[47]。通过输入每个基本事件的一般原因易感性，以类似于COMCAN的方式进行分析。变量转换将共因易感性合并到故障树的顶部或任何中间门的布尔方程中，并且一些简单的操作允许用户显示作为共因候选的切割集。