CDA数据分析师培训笔记(二)20151114-20151115

(续)

         关于正太分布:

         f(x)实际上是概率密度曲线,曲线的面积才表示概率值,f(x)表示密度,比如X=10的时候,f(x)等于多少。Y轴不表示概率。

         我百度了一下中学时所学的密度的定义

CDA数据分析师培训笔记(二)20151114-20151115
 

f(x)函数和上面这个类似。所以最后我们求概率都是使用求积分的方式。

         关于Z统计量

         自然界很多变量都属于正太分布(已知了均值和标准差,我们就知道这个分布的样子),但不一定是正太分布,我们用Z统计量是讲变量矫正到标准正太分布,然后用标准正太分布的特殊性求得区间或者概率。

        其他的统计量,或者只要是能够构造出来的统计量必定知道他的分布,如果不知道这个统计量的分布,构造出来就没有意义。正因为我们知道分布,所以我们就能根据值求得概率。这个构造出来的统计量就是概率密度函数的X轴的值。

         关于SQL

         之前公司有上一个ERP软件,说实话真的很难用,一年好几次更新,更新还要执行很多SQL语句,虽然我不会写,但是时间长了就知道语句是干什么用的了。我现在电脑上还存着很多SQL语句,有些单据错误还得靠这些语句。这个软件让我头疼了好几年,不过也从中学到的数据库的一些知识还是蛮有用的。

          关于区间估计

          给定一个置信度(95%、99%),我们可以求出一个概率度t,Z统计量在正负t间的范围的面积就为置信度。Z统计量是根据样本均数,总体均数,平均抽样误差计算的,样本均数知道,平均抽样误差知道,反过来就可以推算总体均数。

          关于假设检验

          在一定的假设条件下,构造一个统计量,这个统计量服从一个已知分布,我们根据这个统计量的计算值,求得相应的概率,根据概率大小判断是不是小概率事件。

          关于P值

          表示对原假设的支出程度。在原假设成立的条件下,我们一次抽样得到现在这个样本的概率。

 

(未完)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章