[數據分析] 樣本、抽樣和整體,也說說對統計的理解

本來這周的安排是寫方差和標準差。動筆之後,發現不先說清楚樣本和整體,方差什麼的就只是個名詞而已。

先稍微講一下數學,畢竟統計就是數學的一個分支。通過票圈大家知道了著名的裝逼名言:世界有三類人,數學家、實現數學家預言的工程師,和…其他人。是不是特別像“一等男人開政府、二等男人開保險公司、剩下都是三等男人”,吼吼吼~

但是,數學給人感覺其實還是“沒用”。這個直觀的感覺是對的,純粹的數學是沒有什麼“用”的。我們用等速螺線來描述鸚鵡螺殼的優美曲線,但鸚鵡螺的生長原則其實很簡單,不過就是最大可能利用上一個空間的一條邊的情況下,用最少的幾丁質材料做一個儘可能大的新空間。這個“邏輯”的結果,就是一條近似完美的等速螺線。受重力影響足夠大的物體幾乎都是球體也是類似道理。所以數學是一種“邏輯”,表述了一種“原理”,闡述了對現實的一種“理解”或者“觀點”。比較過分的是,爲了高效,或者裝逼,那些數學家硬生生把自然語言改成了代數公式,相當於把Python搞成了彙編,結果就是大部分人瘋了。周誥殷盤,佶屈聱牙。

好了回到統計。不知道有沒有人和我一樣,第一次接觸統計的時候會困惑爲啥要研究這麼個東西?後來學了經濟學和心理學,這個問題才慢慢有點模模糊糊的答案。

第一個答案是:窮。對某件事情的瞭解,最直白莫過於普查。想要知道中國人口的情況,做人口普查最準確、最直接了。爲啥不這麼幹呢?貴啊!老這麼幹GDP都拿去填人口普查的坑了。

第二個答案是:焦慮。人的本性就是好奇。越不知道越想知道,不知道的未來也非要加一個解釋。還要問,這個解釋靠不靠譜啊…

於是,窮且焦慮的人類,創造了統計。當然,我們這麼有想象力的、窮且焦慮的人類還創造了很多“統計”,比如星座配對啊,摸骨測字算命啊~開會報數,撒謊耍賴,互相死懟,等等等等~

窮怎麼解決呢?整體搞不定,那就劃個小圈子唄,劃圈子的動作就是“抽樣”。這個小圈子呢,就是“樣本”。對於這個樣本,我們就可以進行各種自己看感興趣的研究了。好了,研究來研究去,這個結果終究是樣本的情況。那麼樣本對於整體意味着什麼呢?這個就是統計解決的問題了,利用數學的邏輯,去“證明”整體的情況“類似於”樣本。雖然預算少,我們也可以認爲“基本”知道了整體情況。舉個例子,想要知道下大學生畢業平均薪水的情況。可以抽樣100個大學生畢業的薪水,計算這100個學生的平均薪水,然後再推論“所有符合條件”的大學生畢業薪水的平均數,就是“近似於”這100個樣本的平均薪水。

細心點的讀者馬上就會發現,這“抽樣”裏的花樣就多了。比如,你去知乎用戶裏抽樣這100個,可能結論就是平均畢業薪水50萬…呵呵,有沒有被平均的感覺?這就涉及到了“隨機抽樣”的問題,這裏不展開,留個#TODO。

除了經濟上的原因,有時候整體的情況在當代的科技水平下,是真的不可知。比如天文學和天體物理學都會研究宇宙的恆星數量和物質總量,但是這個真不知道確切的數字。只能通過“可觀測的宇宙”,再用統計的方式來推測整個宇宙的情況。

那麼,焦慮怎麼辦?答案是概率。相信大家直覺上都馬上就明白了,樣本的情況(或者專業點講:特徵集合)一定是能“在一定程度上”表述整體的情況的。不然,我們不太蠢了麼… 關鍵在於“多大程度上”。概率分佈可以用了表達對某個️事件(比如樣本平均數是否等於整體平均數)的可信程度(置信區間)。以前特別熱門的Six Sigma概念就是基於正態分佈的置信。

說起概率,大家一定會提到“拋硬幣”。拋的次數多了,正反面出現的概率就慢慢穩定在了50%。這個就是古典概率裏的頻率穩定的方式來描述概率。其實,還有貝葉斯學派對概率的解釋,認爲概率是對某個事件的信心表述。貝葉斯的概念是個非常重要的概念,有興趣的讀者可以自己“深度學習”一下。

這麼一想,統計的最淺層的存在意義就是:用加班和便當來描述詩和遠方,再問你信不信這碗雞湯。咳咳,用樣本的情況來描述整體,並且給出這個情況的可信程度。

那麼統計對你有啥意義?好吧,統計會改變你的思維模式。再舉例說明。用過導航app都知道路線確定後,程序會給出一個預計到達時間。請問這個時間是怎麼來的?我問過不少人,基本的回答就是距離除以(平均)速度。當然不是咯~ 現實中的方式是:假定“到達時間”是某些特徵向量的函數,這些特徵可以是“所在城市”、“路線現有擁擠指數”、“行駛方式”、“是否高峯期”等等,通過迴歸的方式來預測。

0、回到目錄

1、也說說平均數 -- 2019/02/23

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章