常用的抽樣方法

在數據挖掘的實際工程中,多數時候需要從總體中抽取樣本來進行模型預測。抽樣的方法有多種,此處例舉常見的幾種。

1、簡單抽樣。

   簡單抽樣分爲有放回抽樣和無放回抽樣。無放回抽樣:從N個個體中隨機抽取n個個體,每次抽取一個個體,且抽取後不再放回。有放回抽樣:跟無放回類似,但是每次抽取個體之後,要放回。

2、簇抽樣

先將總體分爲多個不想交的簇,然後再抽取一個或多個簇作爲樣本。例如:把某中學二年級的學生按班級分爲多個簇(假設一個班就是一個簇),每次抽取一個或多個班(簇)作爲樣本,這種抽樣方法就是簇抽樣。簇抽樣要求簇內的差異較大,簇之間的差異較小,從而使得簇抽取的樣本具有代表性。

3、分層抽樣

將總體分爲多個不想交的部分,叫做層,然後按照一個定的比例在每個層中進行抽樣。例如:將某中學的所有學生作爲總體,每個年級的學生作爲一個層,再從每個層中隨機抽樣一定數量的學生,這種方法就是分層抽樣。分層抽樣要求層內的差異較大,而層之間的差異較小。

4、系統抽樣(針對樣本容量很大的情況)

   從N個個體中抽取n個個體,做法是先確定k=N/n(對k向上取整),把N個個體分爲n段,每段有k個個體,設定一個整數m1 <= m <= k,在每段中抽取第m個個體,抽取完n段得到n個個體,這n個個體就是抽樣的結果。這種抽樣方法就是整體抽樣。

5、自助抽樣

   假設總體的個體(實例)個數爲N,自助抽樣的思想是:每次從總體裏面抽取一個個體,抽取N次,這樣有一部分個體一次都沒被抽中,而另一部分個體至少被抽中一次。一次都沒抽中的個體數量大概是,當N很大時,其值爲 ≈ 0.368,而至少被抽中一次的個體數佔總體的0.682

6、蓄水池抽樣

   當總體的數量足夠大,不能讀進計算機內存的時候,前面幾種方法就不適用了,這個可以採用蓄水池抽樣法。其具體實現的僞代碼如下(假設從N個個體中抽取k個個體)


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章