AI笔记: 数学基础之概率与统计

概率

1 )概率与频率

  • 概率是一个稳定的数值,也就是某件事发生或不发生的概率是多少.
  • 频率是在一定数量的某件事情上面,发生的数与总数的比值.
  • 假设事件A的概率是0.3,在100次中发生28次,那么它的频率是 28/100=0.28
  • 频率是有限次数的试验所得的结果, 概率是频数无限大时对应的频率
  • 频率的稳定值是概率, 频率随试验次数的不同是变化的,是一个统计规律,但它都在概率附近摆动,而一个事件的概率是不变的

2 ) 随机事件及其概率

  • 事件:试验的每一种可能的结果,用大写英文字母表示
  • 种类:必然事件、不可能事件、随机事件 ,(对应下面的不等关系)
  • 随机事件A的概率:P(A)=mn,0P(A)1P(A) = \frac{m}{n}, 0 \leq P(A) \leq 1

3 ) 古典概型

  • 基本事件:一次试验中可能出现的每一个基本结果
  • 古典概型特点
    • 所有的基本事件只有有限个
    • 每个基本事件都是等可能发生
  • 古典概型概率计算公式:一次试验的等可能基本事件共有n个,事件A包含了其中的m个基本事件,则事件A发生的概率P(A)=mnP(A) = \frac{m}{n}

4 ) 几何概型

  • 几何概型的特点

    • 所有的基本事件是无限个
    • 每个基本事件都是等可能发生
  • 几何概型概率计算公式 P(A)=dDP(A) = \frac{d的测度}{D的测度}

    • 其中测度根据题目确定,一般为线段、角度、面积、体积等

5 ) 互斥事件

  • 互斥事件:不可能同时发生的两个事件称为互斥事件
    • 如果事件 A1,A2,...,AnA_1, A_2, ..., A_n 任意两个都是互斥事件,则称事件 A1,A2,...,AnA_1, A_2, ..., A_n 彼此互斥
    • 如果事件A,B互斥,那么事件A+B发生的概率,等于事件A,B发生的概率的和, 即:P(A+B)=P(A)+P(B)P(A+B) = P(A) + P(B)
    • 如果事件A1,A2,...,AnA_1, A_2, ..., A_n 彼此互斥,则有:P(A1+A2+...+An)=P(A1)+P(A2)+P(An)P(A_1 + A_2 + ... + A_n) = P(A_1) + P(A_2) + P(A_n)
    • 互斥事件是不可能同时发生的两个事件
  • 对立事件:两个互斥事件中必有一个要发生,则称这两个事件为对立事件
    • 事件A的对立事件记为 Aˉ\bar{A}
    • P(A)+P(Aˉ)=1,P(Aˉ)=1P(A)P(A) + P(\bar{A}) = 1, P(\bar{A}) = 1 - P(A)
    • “互斥事件”、"对立事件"都是就两个事件而言的
    • 对立事件是其中必有一个发生的互斥事件
    • 对立事件一定是互斥事件,互斥事件未必是对立事件,"互斥"是"对立"的必要但不充分的条件
  • 相互独立事件:事件A(或B)是否发生对事件B(或A)发生的概率没有影响(即,其中一个事件是否发生对另一个事件发生的概率没有影响),这样的两个事件叫做相互独立事件。
    • 当A、B是相互独立事件时,那么事件A*B发生(即A、B同时发生)的概率,等于事件A、B分别发生的概率的积,即:P(AB)=P(A)P(B)P(A*B) = P(A) * P(B)
    • 若A、B两事件相互独立,则A与Bˉ\bar{B}Aˉ\bar{A}与B、Aˉ\bar{A}Bˉ\bar{B} 也都是相互独立的

6 ) 独立重复试验

  • 一般地,在相同条件下重复做的n次试验称为n次独立重复试验
  • 独立重复试验的概率公式
    • 如果在1次试验中某事件发生的概率是p, 那么在n次独立重复试验中这个试验恰好发生k次的概率:Pn(k)=Cnkpk(1p)nk   (k=0,1,2,...n)P_n(k) = C_n^k p^k(1-p)^{n-k} \ \ \ (k = 0, 1, 2, ... n)

7 ) 条件概率

  • 对任意事件A和事件B, 在已知事件A发生条件下时间B发生的概率,叫做条件概率,记为:P(BA)P(B|A),读作A发生的条件下B发生的概率
  • 公式:P(BA)=P(AB)P(A),   P(A)>0P(B|A) = \frac{P(AB)}{P(A)}, \ \ \ P(A) > 0

统计

1 ) 抽样方法

  • 简单随机抽样(总体个数较少)
  • 系统抽样(总体个数较多)
  • 分层(类)抽样(总体中差异明显)
  • 注意:在N个个体的总体中抽取出n个个体组成样本,每个个体被抽到的机会(概率)均为 nN\frac{n}{N}

2 ) 总体特征数的估计

  • 平均数:xˉ=x1+x2+x3+...+xnn\bar{x} = \frac{x_1 + x_2 + x_3 + ... + x_n}{n}
    • 取值为 x1,x2,...,xnx_1, x_2, ..., x_n 的频率分别为 p1,p2,...,pnp_1, p_2, ..., p_n
    • 则其平均数为 x1p1+x2p2+...+xnpnx_1p_1 + x_2p_2 + ... + x_np_n
    • 注意:频率分布表计算平均数要取组中值,平均数反应数据总体水平
  • 方差与标准差:一组样本数据 x1,x2,...,xnx_1, x_2, ..., x_n
    • 方差:s2=1ni=1n(xixˉ)2s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
    • 标准差:s=1ni=1n(xixˉ)2s = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2}
    • 注意:方差与标准差越小,说明样本数据越稳定,反应数据稳定水平

3 ) 线性回归方程

  • 变量之间的两类关系:函数关系与相关关系
  • 函数关系是一种确定性关系,相关关系是一种非确定性关系,
  • 判断两个变量间的关系是否为相关关系的关键是看这个关系是否具有不确定性
  • 可以制作一些散点图,判断是否为线性相关关系
  • 线性回归方程:y^=bx+a\hat{y} = bx + a 最小二乘法, 线性回归直线经过定点(xˉ,yˉ)(\bar{x}, \bar{y})

{b=i=1nxiyinxˉyˉi=1nxi2nxˉ2a=yˉbxˉ \left\{ \begin{aligned} b = \frac{\sum_{i=1}^n x_i y_i - n \bar{x}\bar{y}}{\sum_{i=1}^n x_i^2 - n \bar{x}^2} \\ a = \bar{y} - b \bar{x} \end{aligned} \right.

4 ) 相关关系

  • 定义:如果两个变量中一个变量的取值一定时,另一个变量的取值带有一定的随机性,那么这两个变量之间的关系,叫做相关关系
  • 两类特殊的相关关系:如果散点图中点的分布是从左下角到右上角的区域,那么这两个变量的相关关系称为正相关
  • 如果散点图中点的分布是从左上角到右下角的区域,那么这两个变量的相关关系成为负相关

5 ) 线性相关

  • 定义:如果两个变量散点图中点的分布从整体上看大致在一条直线附近,我们称这两个变量之间具有线性相关关系,这条直线叫做 回归直线
  • 最小二乘法:求线性回归直线方程 y^=bˉx+a^\hat{y} = \bar{b}x + \hat{a}, 使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法,其中 a,b 值由以下公式给出

{b^=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2=i=1nxiyinxˉyˉi=1nxi2nxˉ2a^=yˉb^xˉ \left\{ \begin{aligned} \hat{b} = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{\sum_{i=1}^n x_i y_i - n \bar{x} \bar{y}}{\sum_{i=1}^n x_i^2 - n \bar{x}^2} \\ \hat{a} = \bar{y} - \hat{b} \bar{x} \end{aligned} \right.

  • 其中,y^\hat{y} 是回归方程的斜率, a^\hat{a} 是回归方程在y轴上的截距
  • 回归直线是对原数量关系的一种拟合,如果两个变量不具有线性相关关系,即使求出回归方程也是毫无意义的,而且由其得到估计和预测的值也是不可信的
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章