數據挖掘——數據的準備

1、數據的收集

2、數據抽樣 :注意其代表性和隨機性

代表性指的是樣本與總體的接近程度;隨機性反映樣本被抽中純屬偶然

例如:在對總體質量狀況一無所知的情況下,採用簡單隨機抽樣最爲合理;在對總體質量有一定的瞭解情況下,採用分層隨機或系統隨機抽樣可提高其代表性;而對於簡單隨機抽樣有困難的情況下,可採用隨機性和代表性較差的分段隨機或整羣隨機抽樣

3、抽樣方法

單價段抽樣方法

方法介紹

特點

簡單隨機抽樣

將調查總體全部編號,再用抽籤法或者隨機數表法抽取部分觀察組成樣本

優點:操作簡單

缺點:總體較大時,無法編號

系統抽樣(機械抽樣、等距抽樣)

先將總體的觀察按某一順序號分成n個部分,再從每一個部分個抽取一定數量的觀察組成樣本

優點:易於理解、簡單易行

缺點:總體有周期或增減趨勢時,易產生偏性

整羣抽樣

總體分羣,在隨機抽取幾個羣組成樣本,羣內全部抽樣

優點:便於組織、節省經費

缺點:抽樣誤差大於單純隨機抽樣

分層抽樣

按對樣本影響較大的某種特徵,將總體分成若干個類別,再從每一層內隨機抽取一定數量的觀察,合起來組成樣本

優點:樣本代表性好、抽樣誤差小

 在實際應用中,常根據實際情況將整個抽樣過程分爲若干個階段進行,成爲多階段抽樣

 

流程圖如下:
 
 
 
 
 
 
 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章