【數據挖掘數學基礎】00前言

終於到了咋們最最最頭痛的環節--統計學,是包含了高等數學的統計學。這部分我也是找回當年封塵多年的筆記又又又看了許多教材和視頻,終於總結到一些有用的見解。當然樓主也是曾經的學渣,更深奧的問題也解決不了……(盡力了)真後悔當年沒能加高數老師的微信,他可是帥哥啊!


目錄

一、什麼是統計學

二、數據的幾個概念

三、數據的幾個指標:總體、樣本、參數、統計量


一、什麼是統計學

  1. 統計學是一門收集、處理、分析、解釋數據並從中得出結論的科學。簡單的說,咋們數據分析師工作的流程有四大任務:收集數據、處理數據(即清洗數據)、分析數據、解釋數據。
  2. 分析數據的方法主要分兩類:描述性分析方法(描述現有的現狀,:總體規模,對比關係、集中趨勢、離散程度、偏態、峯態等)、推斷性分析方法(推測預估「也是推斷已經發生或未發生事情的結果」:估計、假設檢驗、列聯分析、方差分析、相關分析、迴歸分析)

二、數據的幾個概念

1、統計學的對象是數據,那麼什麼是數據?比如:0,18歲,本科,這三個字段哪個是數據呢?

【解】以上三個都是數據。數據的形式分兩種:文字和數字。數字:數學上的字符,可以用阿拉伯數字表示,可以進行比較,加減乘除運算。文字:不可運算,如男女等。是否可運算這個是區別文字和數字的核心問題!

2、數據按計量尺度可以分三類:

  • 分類型數據:對事物進行分類,是由文字來表述;
  • 順序型數據:對事物進行排序然後分類,是有等級遞進關係,和分類型的共同點是都是文字表述,同樣屬於“定性數據”,和分類型的區別是順序型數據是可比較,有等級區分。而分類是不能排序的,因此順序型數據比分類型數據高級。
  • 數值型數據:表現爲具體的數字,也稱爲“定量數據”,定量數據又分爲“定距”和“定比”,定距和定比的區別在於0是否有意義,如果0是代表無,沒有的意思,那麼就是定比數據,否則是定距。例子:溫度指標,0度不代表沒有溫度,所以他是定距數據;收入指標,0元就是沒有收入,所以收入是定比數據。定距和定比的適用方法是不一樣的,所以我們要區分開來。定距數據只能加減不能乘除,而定比是可以加減乘除的。

數據的分類

等級

                   低級 --------------> 高級

兩類

定性

定量

三類

分類

順序

數值

四類

分類

順序

定距

(如:年份)

定比

(如:身高)

補充要點:

  • 區間(分組的數值型數據,如[4,6])仍屬於數值型
  • 高級數據可以向低級數據進行轉換,如:2000元(定比)工資可以劃分成中等工資(順序數據),而中等工資是不可以轉換成2000元的!
  • 重要的規律:高級數據可以用低級數據的方法,而低級數據不能用高級數據的方法。(因爲高級數據可以轉換成低級數據,再適用低級數據方法)

三、數據的幾個指標:總體、樣本、參數、統計量

  1. 總體:全部元素集合,其中每個元素稱爲個體。
  2. 樣本:從總體中抽取一部分元素的集合。
  3. 參數:想要研究總體的某個特徵值。(主要有總體均值:μ,標準差:σ,總體比例:π)
  4. 統計量:樣本的某個特徵值。
  5. 抽樣的目的:用樣本的統計量來推斷總體的參數。(樣本均值:`x,樣本標準差:s,樣本比例:p
  6. 例子:需要研究全學院學生的平均年齡,全院學生是總體,抽100個學生調查,則這100個學生是樣本,全院學生的平均年齡是參數,100個學生的平均年齡是統計量。
  7. 變量:描述事物某特徵的概念。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章