终于到了咋们最最最头痛的环节--统计学,是包含了高等数学的统计学。这部分我也是找回当年封尘多年的笔记又又又看了许多教材和视频,终于总结到一些有用的见解。当然楼主也是曾经的学渣,更深奥的问题也解决不了……(尽力了)真后悔当年没能加高数老师的微信,他可是帅哥啊!
目录
一、什么是统计学
- 统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。简单的说,咋们数据分析师工作的流程有四大任务:收集数据、处理数据(即清洗数据)、分析数据、解释数据。
- 分析数据的方法主要分两类:描述性分析方法(描述现有的现状,:总体规模,对比关系、集中趋势、离散程度、偏态、峰态等)、推断性分析方法(推测预估「也是推断已经发生或未发生事情的结果」:估计、假设检验、列联分析、方差分析、相关分析、回归分析)
二、数据的几个概念
1、统计学的对象是数据,那么什么是数据?比如:0,18岁,本科,这三个字段哪个是数据呢?
【解】以上三个都是数据。数据的形式分两种:文字和数字。数字:数学上的字符,可以用阿拉伯数字表示,可以进行比较,加减乘除运算。文字:不可运算,如男女等。是否可运算这个是区别文字和数字的核心问题!
2、数据按计量尺度可以分三类:
- 分类型数据:对事物进行分类,是由文字来表述;
- 顺序型数据:对事物进行排序然后分类,是有等级递进关系,和分类型的共同点是都是文字表述,同样属于“定性数据”,和分类型的区别是顺序型数据是可比较,有等级区分。而分类是不能排序的,因此顺序型数据比分类型数据高级。
- 数值型数据:表现为具体的数字,也称为“定量数据”,定量数据又分为“定距”和“定比”,定距和定比的区别在于0是否有意义,如果0是代表无,没有的意思,那么就是定比数据,否则是定距。例子:温度指标,0度不代表没有温度,所以他是定距数据;收入指标,0元就是没有收入,所以收入是定比数据。定距和定比的适用方法是不一样的,所以我们要区分开来。定距数据只能加减不能乘除,而定比是可以加减乘除的。
数据的分类 |
||||
等级 |
低级 --------------> 高级 |
|||
两类 |
定性 |
定量 |
||
三类 |
分类 |
顺序 |
数值 |
|
四类 |
分类 |
顺序 |
定距 (如:年份) |
定比 (如:身高) |
补充要点:
- 区间(分组的数值型数据,如[4,6])仍属于数值型。
- 高级数据可以向低级数据进行转换,如:2000元(定比)工资可以划分成中等工资(顺序数据),而中等工资是不可以转换成2000元的!
- 重要的规律:高级数据可以用低级数据的方法,而低级数据不能用高级数据的方法。(因为高级数据可以转换成低级数据,再适用低级数据方法)
三、数据的几个指标:总体、样本、参数、统计量
- 总体:全部元素集合,其中每个元素称为个体。
- 样本:从总体中抽取一部分元素的集合。
- 参数:想要研究总体的某个特征值。(主要有总体均值:μ,标准差:σ,总体比例:π)
- 统计量:样本的某个特征值。
- 抽样的目的:用样本的统计量来推断总体的参数。(样本均值:`x,样本标准差:s,样本比例:p)
- 例子:需要研究全学院学生的平均年龄,全院学生是总体,抽100个学生调查,则这100个学生是样本,全院学生的平均年龄是参数,100个学生的平均年龄是统计量。
- 变量:描述事物某特征的概念。