【数据挖掘数学基础】00前言

终于到了咋们最最最头痛的环节--统计学,是包含了高等数学的统计学。这部分我也是找回当年封尘多年的笔记又又又看了许多教材和视频,终于总结到一些有用的见解。当然楼主也是曾经的学渣,更深奥的问题也解决不了……(尽力了)真后悔当年没能加高数老师的微信,他可是帅哥啊!


目录

一、什么是统计学

二、数据的几个概念

三、数据的几个指标:总体、样本、参数、统计量


一、什么是统计学

  1. 统计学是一门收集、处理、分析、解释数据并从中得出结论的科学。简单的说,咋们数据分析师工作的流程有四大任务:收集数据、处理数据(即清洗数据)、分析数据、解释数据。
  2. 分析数据的方法主要分两类:描述性分析方法(描述现有的现状,:总体规模,对比关系、集中趋势、离散程度、偏态、峰态等)、推断性分析方法(推测预估「也是推断已经发生或未发生事情的结果」:估计、假设检验、列联分析、方差分析、相关分析、回归分析)

二、数据的几个概念

1、统计学的对象是数据,那么什么是数据?比如:0,18岁,本科,这三个字段哪个是数据呢?

【解】以上三个都是数据。数据的形式分两种:文字和数字。数字:数学上的字符,可以用阿拉伯数字表示,可以进行比较,加减乘除运算。文字:不可运算,如男女等。是否可运算这个是区别文字和数字的核心问题!

2、数据按计量尺度可以分三类:

  • 分类型数据:对事物进行分类,是由文字来表述;
  • 顺序型数据:对事物进行排序然后分类,是有等级递进关系,和分类型的共同点是都是文字表述,同样属于“定性数据”,和分类型的区别是顺序型数据是可比较,有等级区分。而分类是不能排序的,因此顺序型数据比分类型数据高级。
  • 数值型数据:表现为具体的数字,也称为“定量数据”,定量数据又分为“定距”和“定比”,定距和定比的区别在于0是否有意义,如果0是代表无,没有的意思,那么就是定比数据,否则是定距。例子:温度指标,0度不代表没有温度,所以他是定距数据;收入指标,0元就是没有收入,所以收入是定比数据。定距和定比的适用方法是不一样的,所以我们要区分开来。定距数据只能加减不能乘除,而定比是可以加减乘除的。

数据的分类

等级

                   低级 --------------> 高级

两类

定性

定量

三类

分类

顺序

数值

四类

分类

顺序

定距

(如:年份)

定比

(如:身高)

补充要点:

  • 区间(分组的数值型数据,如[4,6])仍属于数值型
  • 高级数据可以向低级数据进行转换,如:2000元(定比)工资可以划分成中等工资(顺序数据),而中等工资是不可以转换成2000元的!
  • 重要的规律:高级数据可以用低级数据的方法,而低级数据不能用高级数据的方法。(因为高级数据可以转换成低级数据,再适用低级数据方法)

三、数据的几个指标:总体、样本、参数、统计量

  1. 总体:全部元素集合,其中每个元素称为个体。
  2. 样本:从总体中抽取一部分元素的集合。
  3. 参数:想要研究总体的某个特征值。(主要有总体均值:μ,标准差:σ,总体比例:π)
  4. 统计量:样本的某个特征值。
  5. 抽样的目的:用样本的统计量来推断总体的参数。(样本均值:`x,样本标准差:s,样本比例:p
  6. 例子:需要研究全学院学生的平均年龄,全院学生是总体,抽100个学生调查,则这100个学生是样本,全院学生的平均年龄是参数,100个学生的平均年龄是统计量。
  7. 变量:描述事物某特征的概念。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章