一、随机事件和概率

1：互斥，对立，独立事件的定义和性质。

$\color{red}\textbf{互斥事件}$
事件A和B的交集为空，A与B就是互斥事件，也叫互不相容事件。也可叙述为：不可能同时发生的事件。如A∩B为不可能事件（A∩B=Φ），那么称事件A与事件B互斥，其含义是：事件A与事件B在任何一次试验中不会同时发生。

则P(A+B)=P(A)+P(B)（这个公式何时成立在我一面thu叉院的时候被问到过，我神tm就答了一个相互独立/(ㄒoㄒ)/~~）且P(A)+P(B)≤1

$\color{red}\textbf{对立事件}$

若A交B为不可能事件，A并B为必然事件，那么称A事件与事件B互为对立事件，其含义是：事件A和事件B必有一个且仅有一个发生。

对立事件概率之间的关系：P(A)+P(B)=1。例如，在掷骰子试验中，A={出现的点数为偶数}，b={出现的点数为奇数}，A∩B为不可能事件，A∪B为必然事件，所以A与B互为对立事件。

互斥事件与对立事件两者的联系在于：对立事件属于一种特殊的互斥事件。

它们的区别可以通过定义看出来：一个事件本身与其对立事件的并集等于总的样本空间；而若两个事件互为互斥事件，表明一者发生则另一者必然不发生，但不强调它们的并集是整个样本空间。即对立必然互斥，互斥不一定会对立。

$\color{red}\textbf{独立事件}$

设A,B是试验E的两个事件,若 $P(A)>0$ ,可以定义 $P(B∣A)$ .一般A的发生对B发生的概率是有影响的,所以条件概率 $P(B∣A)≠P(B)$ ,而只有当A的发生对B发生的概率没有影响的时候（即A与B相互独立）才有条件概率 $P(B∣A)=P(B)$ .这时,由乘法定理 $P(A∩B)=P(B∣A)P(A)=P(A)P(B).$

定义:设A,B是两事件,如果满足等式 $P(A∩B)=P(AB)=P(A)P(B)$ ,则称事件A,B相互独立,简称A,B独立.

容易推广:设A,B,C是三个事件,如果满足 $P(AB)=P(A)P(B)$ , $P(BC)=P(B)P(C)$ , $P(AC)=P(A)P(C)$ , $P(ABC)=P(A)P(B)P(C)$ ,则称事件A,B,C相互独立

更一般的定义是, $A1,A2,……,An$ 是 $n(n≥2)$ 个事件,如果对于其中任意2个,任意3个,…任意n个事件的积事件的概率,都等于各个事件概率之积,则称事件 $A1,A2,…,An$ 相互独立

2：概率，条件概率和五大概率公式

$\color{red}\textbf{概率公理与条件概率}$

什么是概率？设实验E的样本空间为 $\Omega$ ，则称实值函数 $P$ 为概率，如果 $P$ 满足下列三个条件

对于任意事件A，满足 $P(A）\geq0$
对于必然事件 $\Omega$ 有 $P(A)=1$
对于两两互斥的可数无穷个事件 $A_1,A_2,...,A_N...$ ，有
$P(A_1\cup A_2\cup...\cup A_N\cup...)=P(A_1)+P(A_2)+...+P(A_N)+...$

什么是条件概率？设 $A,B$ 为两个事件，且 $P(A)>0$ ，称
$P(B|A)=\frac{P(AB)}{P(A)}$
为在事件A发生的条件下事件B发生的条件概率。

$\color{red}\textbf{五大概率公式}$

加法公式： $P(A\cup B)=P(A)+P(B)-P(AB)$ ，P（A∪B∪C）=P(A)+P(B)+P©-P(AB)-P(BC)-P(AC)+P(ABC).
减法公式： $P(A-B)=P(A)-P(AB)$
乘法公式：当 $P(A)>0$ 时， $P(AB)=P(A)P(B|A)$
全概率公式：设 $B_1,B_2,...,B_n$ 为样本区间内概率均不为零的一个完备事件组，则对任意事件 $A$ ，有 $P(A)=\sum_{i=1}^n P(B_i)P(A|B_i)$ 。
贝叶斯公式：设 $B_1,B_2,...,B_n$ 为样本区间内概率均不为零的一个完备事件组，则对任意事件 $A$ 且 $P(A)>0$ ，有
$P(B_j|A)=\frac{P(B_j)P(A)}{P(A)}=\frac{P(B_j)P(A|B_j)}{\sum_{i=1}^nP(B_i)P(A|B_i)}$

3：古典型，几何型概率和伯努利试验

$\color{red}\textbf{古典型-能通过样本点数出来的概率}$

$\color{red}\textbf{几何型：通过几何度量计算的概率}$

$\color{red}\textbf{伯努利试验：独立重复实验}$

伯努利试验（Bernoulli experiment）是在同样的条件下重复地、相互独立地进行的一种随机试验，其特点是该随机试验只有两种可能结果：发生或者不发生。我们假设该项试验独立重复地进行了n次，那么就称这一系列重复独立的随机试验为n重伯努利试验，或称为伯努利概型。单个伯努利试验是没有多大意义的，然而，当我们反复进行伯努利试验，去观察这些试验有多少是成功的，多少是失败的，事情就变得有意义了，这些累计记录包含了很多潜在的非常有用的信息。

4：易错问题汇总

$P(A\cup B)=1$ 不能推出 $A\cup B=\Omega$ ，同样 $P(AB)=0$ 也不能推出 $AB=\emptyset$ 。这两个关系只能从右往左推，仅给出概率是得不到事件的结论的。

二、随机变量及其分布

1：随机变量及其分布函数

$\color{red}\textbf{随机变量}$
在样本空间 $\Omega$ 上的实值函数 $X=X(\omega),\omega\in\Omega$ 称为随机变量，简记为 $X$ 。随机变量不是一个变量，而是实值函数。
$\color{red}\textbf{分布函数}$

分布函数（英文Cumulative Distribution Function, 简称CDF），是概率统计中重要的函数，正是通过它，可用数学分析的方法来研究随机变量。分布函数是随机变量最重要的概率特征，分布函数可以完整地描述随机变量的统计规律，并且决定随机变量的一切其他概率特征。

分布函数 $F(x)$ 是定义在 $(-\infty,\infty)$ 上的一个实值函数， $F(x)$ 的值等于随机变量 $X$ 在区间 $(-\infty,x]$ 上取值的概率，即事件 $X\leq x$ 的概率：
$\color{blue}F(x)=P(X\leq x),x\in (-\infty,\infty)$

分布函数的性质主要有三条，单调不减，负无穷收敛到0 $\lim_{x\rightarrow+\infty} F(x)=1$ ，正无穷收敛到1。右连续性 $F(x+0)=F(x)$ .

这三个条件同样是 $F(x)$ 成为某一随机变量的分布函数的充分必要条件。

分布函数的定义对于离散型随机变量和连续型随机变量都是一致的，但是对于连续型随机变量而言，他还有概率密度

把随机变量的概率分布表推广到无限情况，就可以得到连续型随机变量的概率密度函数。此时，随机变量取每个具体的值的概率为0，但在落在每一点处的概率是有相对大小的，描述这个概念的，就是概率密度函数。你可以把这个想象成一个实心物体，在每一点处质量为0，但是有密度，即有相对质量大小，他有以下两条主要的性质。

2：常用分布

$\color{red}\textbf{伯努利分布（0-1分布）}$
$0—1$ 分布就是 $n=1$ 情况下的二项分布。即只先进行一次事件试验，该事件发生的概率为 $p$ ，不发生的概率为 $1-p$ 。这是一个最简单的分布，任何一个只有两种结果的随机现象都服从 $0-1$ 分布。

$\color{red}\textbf{二项分布}$

一般地，如果随机变量 $X$ 有分布律

则称 $X$ 服从参数为 $n$ 和 $p$ 的二项分布，我们记为 $X\thicksim B(n,p)$ 或 $X\thicksim b(n,p)$ 。

含义：在 $n$ 次独立重复的伯努利试验中，若每次实验的成功率为 $p$ ，则在 $n$ 次独立重复实验种成功的总次数 $X$ 服从二项分布。当 $n=1$ 时，二项分布退化为 $0-1$ 分布。
$\color{red}\textbf{几何分布}$
如果随机变量 $X$ 的分布律为：

则称 $X$ 服从参数为 $p$ 的几何分布。

含义：在 $n$ 次伯努利试验中，试验 $k$ 次才得到第一次成功的机率服从几何分布
$\color{red}\textbf{超几何分布}$
如果随机变量 $X$ 的分布律为：

则称 $X$ 服从参数为 $n，N，M$ 的超几何分布。

含义：如果 $N$ 件产品中含有 $M$ 件次品，从中任意一次取出 $n$ 件（不放回依次取出 $n$ 件），另 $X$ =抽取的 $n$ 件产品中的次品件数，则 $X$ 服从参数为 $n，N，M$ 的超几何分布。

如果有放回的取 $n$ 次，那么服从 $B(N,\frac{M}{N})$ 。

$\color{red}\textbf{泊松分布}$
如果随机变量 $X$ 的分布律为：

则称 $X$ 服从参数为 $\lambda$ 的泊松分布，记为 $X\thicksim P(\lambda)$ 。

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合于描述单位时间内随机事件发生的次数。

在实际事例中，当一个随机事件，例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等，以固定的平均瞬时速率 $λ$ （或称密度）随机且独立地出现时，那么这个事件在单位时间（面积或体积）内出现的次数或个数就近似地服从泊松分布 $P(λ)$ 。
$\color{red}\textbf{指数分布}$
连续型均匀分布：如果连续型随机变量 $X$ 具有如下的概率密度函数，

则称 $X$ 服从 $[a,b]$ 上的均匀分布（uniform distribution），记为 $X\thicksim U(a,b)$ 。

$\color{red}\textbf{正态分布}$
如果随机变量 $X$ 的概率密度为：

其中 $\mu,\sigma$ 为常数而且 $\sigma>0$ ，则称 $X$ 服从参数为 $\mu,\sigma$ 的正态分布，记作 $X\thicksim N(\mu,\sigma^2)$ 。当 $\mu=0,\sigma^2=1$ 时，称 $X$ 服从标准正态分布。

三、多维随机变量及其分布

1-二维随机变量及其分布

$\color{red}\textbf{二维随机变量}$
设 $X=X(=\omega)$ ， $Y=Y(\omega)$ 是定义在样本空间 $\Omega$ 上的两个随机变量，则称向量 $(X,Y)$ 为二维随机变量或者随机向量。
$\color{red}\textbf{二维随机变量的分布}$
$F(x,y)=P(X\leq x,Y\leq y)$ ，该分布具有如下的性质

对任意的 $x,y$ , $0\leq F(x,y)\leq 1$
$F(-\infty,y)=F(x,-\infty)=F(-\infty,-\infty)=0,F(+\infty,+\infty)=1$
$F(x,y)$ 关于 $x,y$ 均单调不减而且右连续。
$P(a<X\leq b,c<Y\leq d)=F(b,d)-F(b,c)-F(a,d)+F(a,c)$
$\color{red}\textbf{二维随机变量的边缘分布}$
设二维随机变量 $(X,Y)$ 的分布函数如上，那么称 $F_X(x)=P(X\leq x),F_Y(y)=P(Y\leq y)$ 为 $(X,Y)$ 关于 $X$ 和关于 $Y$ 的边缘分布函数。

边缘分布与二维随机变量分布函数的关系为：

$F_X(x)=P(X\leq x)=P(X\leq x,Y<+\infty)=F(x,+\infty)$
$\color{red}\textbf{二维连续型随机变量的概率密度}$

2-随机变量的独立性

如果对于任意 $x,y$ ，都有
$P(X\leq x,Y\leq y)=P\{X\leq x\}P\{Y\leq y\}$
即 $F(x,y)=F_X(x)F_Y(y)$ ，则称随机变量 $X$ 与 $Y$ 相互独立。

$\color{red}\textbf{随机变量相互独立的充要条件}$

离散型随机变量 $X$ 和 $Y$ 相互独立的充要条件：对任意 $i,j=1,2,..,$ 有 $P\{X=x_i,Y=y_i\}=P\{X=x_i\}P\{Y=y_i\}$ ，即 $p_{ij}=p_ip_j$
连续型随机变量 $X$ , $Y$ 相互独立的充要条件：对于任意的 $x,y$ ，有 $f(x,y)=f_X(x)f_Y(y)$ 。可将两个随机变量的独立性推广到两个以上随机变量的情形。

3-两个随机变量 $Z=g(X,Y)$ 的分布

当 $X,Y$ 为离散型随机变量时， $Z$ 的分布律与一维离散型类似。

当 $X,Y$ 为连续型随机变量时， $F_Z(z)$ 的求法，可以用公式

$F_Z(z)=P(Z\leq z)=P\{g(X,Y)\leq z\}=\int\int_{g(X,Y)\leq z} f(x,y)dxdy$

四、随机变量的数字特征

1：随机变量的数学期望

$\textbf{数学期望}$

离散型随机变量：设随机变量 $X$ 的概率分布为 $P\{X=x_k\}=p_k$ ，如果级数 $\color{red}\sum_{k=1}^\infty x_kp_k$ 绝对收敛，则称此级数为随机变量 $X$ 的数学期望或均值，记作 $E(X)$ 。
连续型随机变量， $f(x)$ 为随机变量 $X$ 的概率密度，那么他的数学期望为 $\color{red}\int_{-\infty}^{+\infty} xf(x)dx$

$\textbf{数学期望的性质}$

设C是常数,X是随机变量，那么 $E(C)=C$ ， $E(CX)=CE(X)$
设 $X,Y$ 是任意两个随机变量，那么 $E(X+Y)=E(X)+E(Y)$ 。
设 $X,Y$ 是任意两个随机变量，那么 $E(XY)=E(X)E(Y)$ 当且仅当二者不相关。

$\textbf{随机变量X的函数Y=g(X)的数学期望}$

离散性随机变量： $\color{red}E(g(X))=\sum_{i=1}^\infty x_ig(x_i)$
连续型随机变量： $\color{red}E(g(X))=\int_{-\infty}^{+\infty} g(x)f(x)dx$ , $f(X)$ 是 $X$ 的概率密度。

$\textbf{随机变量(X,Y)的函数Z=g(X,Y)的数学期望}$

离散性随机变量： $\color{red}E(g(X,Y))=\sum_{i=1}^\infty\sum_{j=1}^\infty p_{i,j}g(x_i,y_j)$ ，其中 $p_{i,j}=P(X=x_i,Y=y_j)$ 。
连续型随机变量： $\color{red}E(g(X,Y))=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty}g(x,y)f(x,y)dxdy$ , $f(X,Y)$ 是 $Z$ 的概率密度。

2：随机变量的方差

随机变量 $X$ 的方差定义为 $D(X)=E\{[X-E(X)]^2\}$
方差计算公式： $D(X)=E(X^2)-[E(X)]^2$
方差的性质：(1)常数的方差为0.（2） $D(aX+b)=a^2D(X)$ 。(3) $D(X+Y)=D(X)+D(Y)$ 成立的充要条件是 $X,Y$ 不相关。

3：常用随机变量的数学期望和方差

4：矩、协方差和相关系数

通俗易懂地解释「协方差」与「相关系数」的概念。

这里需要注意的是两个随机变量不相关，这是区别于独立，互斥的另一种关系，不相关的充要条件是两个随机变量的相关系数 $\rho_{XY}=0$ 。如果两个变量独立，那么相关系数一定为0，但是相关系数为0是线性不相关，不能推出两变量相互独立。

五、理解大数定律和中心极限定律

1:大数定律和中心极限定理的区别和联系

这里主要是理解，我就不摆公式了，

在统计活动中，人们发现，在相同条件下大量重复进行一种随机实验时，一件事情发生的次数与实验次数的比值，即该事件发生的频率值会趋近于某一数值。重复次数多了，这个结论越来越明显。这个就是最早的大数定律。一般大数定律讨论的是n个随机变量平均值的稳定性。

而中心极限定理则是证明了在很一般的条件下，n个随即变量的和当n趋近于正无穷时的极限分布是正态分布。（对，就是它，跟我念，正态分布！O.O哎，哪里都有它，记住记住。）

一句话解释：大数定律讲的是样本均值收敛到总体均值，说白了就是期望，如图一样：

而中心极限定理告诉我们，当样本足够大时，样本均值的分布会慢慢变成正态分布，对，就是如图这个样子：

上面是区别，那么联系根据区别也能看出来，都总结的是在独立同分布条件下的随即变量平均值的表现。

2:简单总结他们的作用

我们假设有n个独立随机变量，令他们的和为：

$S_n=\sum_{i=1}^n X_i$
那么大数定律（以一般的大数定律为例），它的公式为：

$\frac{S_n}{n}-E(X)\rightarrow 0$
而中心极限定理的公式为：

$\sqrt{n}(\frac{S_n}{n}-E(X))\rightarrow N(0,\sum)$

注意：上面两个公式，一个是值为0，一直均值为0的正太分布；而左边极为相似！但不一样的。第二个公式比第一个公式多了 $\sqrt n$ ，所以你就记住这条就不会混乱了，来，跟我念一遍：“差了个 $\sqrt n$ ！”

六、参数估计

1：点估计

总体分布的参数在很多情况下是未知的，如均值 $μ$ 、方差 $\sigma^2$ 、泊松分布的 $λ$ 、二项分布的比例 $π$ ，其它分布还会有更多的未知参数，需要通过样本进行相应的估计，这种估计值就是点估计。

点估计的评价：

无偏性：如果参数估计值的数学期望等于被估计的参数值 $E(\theta\widehat)$ ，则称此估计量为无偏估计。与此相反则称为有偏估计。

有效性：当一个参数有多个无偏估计时，估计方差越小则越有效。

相合性(一致性)：如果随着样本量增大，参数的估计量趋于被估计的参数值。

2：矩估计

矩估计，即矩估计法，也称“矩法估计”，就是利用样本矩来估计总体中相应的参数。首先推导涉及感兴趣的参数的总体矩（即所考虑的随机变量的幂的期望值）的方程。然后取出一个样本并从这个样本估计总体矩。接着使用样本矩取代（未知的）总体矩，解出感兴趣的参数。从而得到那些参数的估计。

矩法估计原理简单、使用方便，使用时可以不知总体的分布，而且具有一定的优良性质（如矩估计为Eξ的一致最小方差无偏估计）。矩法估计量实际上只集中了总体的部分信息，这样它在体现总体分布特征上往往性质较差，只有在样本容量n较大时，才能保障它的优良性,因而理论上讲，矩法估计是以大样本为应用对象的。

用样本矩作为相应的总体矩估计来求出估计量的方法.其思想是：如果总体中有 $K$ 个未知参数，可以用前 $K$ 阶样本矩估计相应的前 $K$ 阶总体矩，然后利用未知参数与总体矩的函数关系，求出参数的估计量。即有多少未知参数，就利用矩列几个方程。

令样本的 $l$ 阶原点矩为 $A_l=\frac{1}{n}\sum_{i=1}^n X_i^l$ ，而每阶矩肯定也是 $X$ 分布中未知参数 $\theta_1,\theta_2,...,\theta_n$ 的函数，即
$\alpha_l(\theta_1,\theta_2,...,\theta_n)=A_l，l=1,2,...,k$

3：最大似然估计

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值！

最大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若干次试验，观察其结果，利用结果推出参数的大概值。最大似然估计是建立在这样的思想上：已知某个参数能使这个样本出现的概率最大，我们当然不会再去选择其他小概率的样本，所以干脆就把这个参数作为估计的真实值。

求最大似然函数估计值的一般步骤：
（1）写出似然函数
（2）对似然函数取对数，并整理
（3）求导数
（4）解似然方程

概率论与数理统计基础概念与重要定义汇总

文章目录

一、随机事件和概率

1：互斥，对立，独立事件的定义和性质。

2：概率，条件概率和五大概率公式

3：古典型，几何型概率和伯努利试验

4：易错问题汇总

二、随机变量及其分布

1：随机变量及其分布函数

2：常用分布

三、多维随机变量及其分布

1-二维随机变量及其分布

2-随机变量的独立性

3-两个随机变量 $Z=g(X,Y)$ 的分布

四、随机变量的数字特征

1：随机变量的数学期望

2：随机变量的方差

3：常用随机变量的数学期望和方差

4：矩、协方差和相关系数

五、理解大数定律和中心极限定律

1:大数定律和中心极限定理的区别和联系

2:简单总结他们的作用

六、参数估计

1：点估计

2：矩估计

3：最大似然估计

題解 P3275 【[SCOI2011]糖果】

【超詳細】計算機組成原理考點總結

【看了就懂】P問題、NP問題、NP完全問題和NP難問題

POJ 1942 Paths on a Grid【題解報告|DP巧妙的解決組合數問題】

POJ 1836 Alignment【巧妙地LCS】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

概率论与数理统计基础概念与重要定义汇总

文章目录

一、随机事件和概率

1：互斥，对立，独立事件的定义和性质。

2：概率，条件概率和五大概率公式

3：古典型，几何型概率和伯努利试验

4：易错问题汇总

二、随机变量及其分布

1：随机变量及其分布函数

2：常用分布

三、多维随机变量及其分布

1-二维随机变量及其分布

2-随机变量的独立性

3-两个随机变量Z=g(X,Y)Z=g(X,Y)Z=g(X,Y)的分布

四、随机变量的数字特征

1：随机变量的数学期望

2：随机变量的方差

3：常用随机变量的数学期望和方差

4：矩、协方差和相关系数

五、理解大数定律和中心极限定律

1:大数定律和中心极限定理的区别和联系

2:简单总结他们的作用

六、参数估计

1：点估计

2：矩估计

3：最大似然估计

3-两个随机变量 $Z=g(X,Y)$ 的分布