CDA数据分析师培训笔记（二）20151114-20151115

原創

2018-10-02 10:14

（续）

关于正太分布：

f（x）实际上是概率密度曲线，曲线的面积才表示概率值，f（x）表示密度，比如X=10的时候，f（x）等于多少。Y轴不表示概率。

我百度了一下中学时所学的密度的定义

f（x）函数和上面这个类似。所以最后我们求概率都是使用求积分的方式。

关于Z统计量

自然界很多变量都属于正太分布（已知了均值和标准差，我们就知道这个分布的样子），但不一定是正太分布，我们用Z统计量是讲变量矫正到标准正太分布，然后用标准正太分布的特殊性求得区间或者概率。

其他的统计量，或者只要是能够构造出来的统计量必定知道他的分布，如果不知道这个统计量的分布，构造出来就没有意义。正因为我们知道分布，所以我们就能根据值求得概率。这个构造出来的统计量就是概率密度函数的X轴的值。

关于SQL

之前公司有上一个ERP软件，说实话真的很难用，一年好几次更新，更新还要执行很多SQL语句，虽然我不会写，但是时间长了就知道语句是干什么用的了。我现在电脑上还存着很多SQL语句，有些单据错误还得靠这些语句。这个软件让我头疼了好几年，不过也从中学到的数据库的一些知识还是蛮有用的。

关于区间估计

给定一个置信度（95%、99%），我们可以求出一个概率度t，Z统计量在正负t间的范围的面积就为置信度。Z统计量是根据样本均数，总体均数，平均抽样误差计算的，样本均数知道，平均抽样误差知道，反过来就可以推算总体均数。

关于假设检验

在一定的假设条件下，构造一个统计量，这个统计量服从一个已知分布，我们根据这个统计量的计算值，求得相应的概率，根据概率大小判断是不是小概率事件。

关于P值

表示对原假设的支出程度。在原假设成立的条件下，我们一次抽样得到现在这个样本的概率。

（未完）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.