统计学小抄：常用术语和基本概念小结

原創

2022-05-08 13:04

统计学是涉及数据的收集，组织，分析，解释和呈现的学科。

统计的类型

描述性统计是以数字和图表的形式来理解、分析和总结数据。对不同类型的数据(数值的和分类的)使用不同的图形和图表来分析数据，如条形图、饼图、散点图、直方图等。所有的解释和可视化都是描述性统计的一部分。重要的是要记住，描述性统计可以在样本和总体数据上执行，但并不会使用总体数据。

从总体数据中提取一些数据样本，然后从这些数据样本中，推断一些东西(结论)。数据样本被用作对该总图作出结论的基础。这可以通过各种技术来实现，比如数据可视化和操作。

1、数字数字

数字数据就是指数字或数值型的数据。数值数据又分为离散和连续两类数值变量。

I) 离散数值变量——离散变量的概念是指具有有限取值范围的变量，例如教室中的排名、系中教授的数量等。

II) 连续数值变量——连续变量的值可以是无限的，可能是范围内的任意数值，例如员工的工资。

2、分类数据-

分类数据类型是数据的字符类型表示，例如名称和颜色。一般来说，这些也有两种类型。

I) 序数变量—序数分类变量，其值可以在一系列值中排序，例如学生的年级(a、B、C)，或高、中、低。

II) 名义变量——这些变量没有排名，只是包含名称或一些类别，如颜色名称、主题等。

集中趋势的度量给出了数据中心的概念，即数据的中心是什么。其中有几个术语，如平均值、中位数和众数。

一个特定数值变量的平均值是其中所有数值的平均值。当数据包含异常值时，不建议找出平均值并将其用于任何类型的操作，因为单个异常值会严重影响平均值。

中值是对所有数字排序后的中心值。如果总数是偶数，那么它就是中心2值的平均值。它不依赖或影响异常值，除非一半的数据是异常值（这样的话就不是异常值了）。

众数是观察结果中出现最多的数值。Numpy没有提供查找众数的函数，但是Scipy有。

在使用的时候，不要只使用他们三个的一个，可以试着全部使用这三种方法，这样就可以理解数据的本质。

分布度度量描述了特定变量（数据项）的观察值集的相似性或变化程度。分布度的度量包括范围，四分位数和四分位数范围，方差和标准差。

1、范围

通过比较数据的最大和最小值（最大值）来定义范围。

完整文章：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.