[數據挖掘與預測分析] 單變量統計分析思考問題

單變量統計分析思考問題

1. 解釋統計推理的含義

統計推理亦稱“統計概括”。由樣本具有某屬性推出總體具有某屬性的推理。

如爲了解全國住戶對電視機的需要量，就根據收入的多少等情況而把住戶分成若干類（若干層次），從每類中再隨機抽出一定數量的住戶作爲樣本進行調查，將所得需求量的結果，應用統計學中的計算方法而推出全國的需求量。

統計推理是由部分推出全部的推理，它的結論超出了前提所斷定的範圍，前提與結論間的聯繫是或然性的。統計推理是一種歸納推理，但不同於簡單枚舉歸納推理。

統計推理和簡單枚舉歸納兩者之間的主要區別在於：

簡單枚舉沒有經過選擇和試驗，只是以事例的不斷重複和數量的積累爲依據，而統計推理是在分層抽樣的基礎上進行的，有一定的選擇性。

統計推理較之簡單枚舉歸納推理要嚴密些，結論可靠性也高些。統計推理在調查研究中起着重要的作用，在調查森林、礦藏等資源、土壤情況以及民意測驗中都有廣泛的應用。

使用觀測到的樣本統計量估計未知的總體參數

	樣本統計	評估	總體參數
均值	$\overline{x}$	→	$\mu$
標準偏差		→	$\sigma$
比率		→	$\pi$

從樣本數據中觀測到的任意統計量均可以被用於估計總體中的類似參數。

2. 總體和樣本之間的區別是什麼？

總體——所要考察對象的全體叫做總體.
樣本——從總體中所抽取的一度部分個體叫做總體的一個樣本.
總體：問根據研究目的確定的同質觀察單位的全體。更確切地說，它是根據研究目的確答定的同質觀察單位某種變量值的集合。
樣本：回由總體中隨機抽取部分觀察單位的答變量值組成。樣本是總體中有代表性的一部分。

	總體	樣本
指代不同	包含所研究的全部個體（數據）的集合。	研究中實際觀測或調查的一部分個體稱爲樣來本。
規定不同	使樣本能夠正確反映總體情況，對總體要有明源確的規定；總體內所有觀察單位必須是同質的；在抽取樣本的過程中，必須遵守隨機化原則	樣本的觀察單位還要有足夠的數量。又稱“子樣”。百按照一定的抽樣規則從總體中取出的一部分個體。樣本中個體的數目稱爲“樣本容量”。
特點不同	大量性是指總體中包括的總體單位有足夠多的數量。總體是由許多個體在某一相同度性質基礎上結合起來的整體，個別或很少幾個單位不能構成總體。	總體中每個成員稱爲個體。例如知考察某廠生產的燈泡的使用壽命道，該廠生產的所有燈泡的使用壽命爲總體，每個燈泡的使用壽命爲一個個體。

幾個基本概念的簡單解釋：

總體（population）：包含所研究的全部個體（數據）的集合。

樣本（sample）：從總體中抽取的一部分元素的集合。

參數（parameter）：用來描述總體特徵的概括性數字度量。

統計量（statistic）：用來描述樣本的概括性數字度量。

置信區間（Confidence interval）以統計量的置信上限和置信下限爲上下界構成的區間

在做統計的時候，我們手裏有的就是樣本信息，在這裏要注意樣本的兩重性：樣本既可看成具體的數, 又可以看成隨機變量 (或隨機向量). 在完成抽樣後，它是具體的數；在實施抽樣前，它被看成隨機變量. 因爲在實施具體抽樣之前無法預料抽樣的結果, 只能預料它可能取值的範圍, 故可把它看成一個隨機變量，因此纔有概率分佈可言。

統計學的目的是試圖找到可能產生我們所觀測到的數據背後的概率分佈，而統計推斷是建立在這個分佈之上的。尋找一個模型一般有兩步：對一個模型（分佈）的初步猜想以及對未知模型參數的估計。可見統計學的三大要素：模型、策略、算法。

3. 描述參數和統計量之間的區別。

統計學中把總體的指標統稱爲參數。而由樣本算得的相應的總體指標稱爲統計量。

如研究某地成年男子的平均脈搏數（次/分），並從該地抽取1000名成年男子進行測量，所得的樣本平均數即稱爲統計量。

4. 統計推理不應該何時被使用？

樣本只是總體的一個子集，最好是總體的一個具有代表性的子集。

如果樣本在總體中不具有代表性，也就是說樣本特徵系統性地偏離了總體特徵，就不應該採用統計推理。

5. 點估計和置信區間估計之間的區別是什麼？

在數據分析中使用了兩種主要的統計方法：

描述性統計，使用諸如均值或標準偏差等指標對樣本中的數據進行彙總。描述性統計一般用來做探索性數據分析（EDA）
統計推理，從隨機變化的數據中得出結論（例如，觀察誤差，抽樣變異）。其意思就是用統計學的方法來推斷。統計推斷（區別於貝葉斯推斷，這裏主要基於頻率推斷）主要可以分爲兩大類：一類是參數估計問題；另一類是假設檢驗問題。其中假設檢驗又可分爲參數檢驗與非參數檢驗。

點估計和區間估計是抽樣推斷的兩種方法。

點估計是在抽樣推斷中不考慮抽樣誤差，直接以抽樣指標代替全體指標的一種推斷方法。因爲個別樣本的抽樣指標不等於全體指標，所以，用抽樣指標直接代替全體指標，不可避免的會有誤差。

區間估計是抽樣推斷中根據抽樣指標和抽樣誤差去估計全體指標的可能範圍的一種推斷方法。在從抽樣指標推斷全體指標時，用一定概率保證誤差不超出某一給定範圍。這個給定的誤差範圍，叫允許誤差，用 $\Delta$ 表示。如果用 $\mu$ 表示平均誤差，表示平均誤差的倍數，即概率度，則允許誤差與平均誤差的關係式就是： $\Delta =t\times \mu$ 。

如果推斷的可信程度用表示，則爲概率度t的函數。

數理統計證明：當t=1時，P=0.6827； t=2時，P=0.9545； t=3時，P=0.9973。t值愈大，P值愈趨近於1，即愈趨近於完全可信程度。實際工作中，可根據不同的t值，從概率表中查得相應的P值，也可根據預定的可信程度P值，查得相應的概率度t，以便於計算全及指標的可能範圍。

6. 討論置信區間的寬度和其置信水平之間的關係。

置信區間與置信水平、樣本量等因素均有關係，其中樣本量對置信區間的影響爲：在置信水平固定的情況下，樣本量越多，置信區間越窄。其次，在樣本量相同的情況下，置信水平越高，置信區間越寬。

實例分析如下：

（1）置信區間與樣本量關係分析

樣本量	置信區間	間隔	寬窄度
100	50%-70%	20	寬
800	56.2%－63.2%	7	較窄
1,600	57.5%-63%	5.5	較窄
3,200	58.5%-62%	3.5	更窄

由上表得出:

在置信水平相同的情況下，樣本量越多，置信區間越窄。
置信區間變窄的速度不像樣本量增加的速度那麼快，也就是說並不是樣本量增加一倍，置信區間也變窄一半（實踐證明，樣本量要增加4倍，置信區間才能變窄一半），所以當樣本量達到一個量時（通常是1,200），就不再增加樣本了。故：置信區間=點估計 ±（關鍵值 × 點估計的標準差）。在其他因素不變的情況下，樣本量越多（大），置信區間越窄（小）。

（2）置信區間與置信水平關係分析

美國做了一項對總統工作滿意度的調查。在調查抽取的1,200人中，有60%的人讚揚了總統的工作，抽樣誤差爲±3%，置信水平爲95%；如果將抽樣誤差減少爲±2.3%，置信水平降到爲90%。則兩組數字的情況比較如下：

抽樣誤差	置信水平	置信區間	間隔	寬窄度
±3%	95%	60%±3%=57%-63%	6	寬
±2.3%	90%	60%±2.3%=57.7%-62.3%	4.6	窄

由上表得出:

在樣本量相同的情況下（都是1,200人），置信水平越高(95%)，置信區間越寬。

7. 討論樣本容量和置信區間寬度之間的關係。寬區間和緊密區間，哪一個更好，爲什麼？

在置信水平固定的情況下，樣本量越多，置信區間越窄。其次，在樣本量相同的情況下，置信水平越高，置信區間越寬。

8. 解釋抽樣誤差的含義是什麼。

在抽樣檢查中，由於用樣本指標代替全及指標所產生的誤差可分爲兩種：一種是由於主觀因素破壞了隨機原則而產生的誤差，稱爲系統性誤差；另一種是由於抽樣的隨機性引起的偶然的代表性誤差。抽樣誤差僅僅是指後一種由於抽樣的隨機性而帶來的偶然的代表性誤差，而不是指前一種因不遵循隨機性原則而造成的系統性誤差。

總的說來，抽樣誤差是指樣本指標與全及總體指標之間的絕對誤差。在進行抽樣檢查時不可避免會產生抽樣誤差，因爲從總體中隨機抽取的樣本，其結構不可能和總體完全一致。

抽樣誤差也是衡量抽樣檢查準確程度的指標。抽樣誤差越大，表明抽樣總體對全及總體的代表性越小，抽樣檢查的結果越不可靠。反之，抽樣誤差越小，說明抽樣總體對全及總體的代表性越大，抽樣檢查的結果越準確可靠。在統計學中把抽樣誤差分爲抽樣平均誤差和抽樣極限誤差。

誤差 = 測定值或估計值 - 真值
（測定值或估計值——觀察值和樣本統計量）

總誤差可分解非抽樣誤差、偏差、抽樣誤差

非抽樣誤差
指不是由於抽樣或估計方法引起的誤差。它不是抽樣調查固有的，即使是全面調查也存在。
如：過失性錯誤，調查員錯測、錯記、被調查者無回答；測量誤差（又稱隨機誤差）。前者可通過調查人員培訓、教育、宣傳、檢查，後者無法避免只能通過儀器改進或樣本量增大來減小誤差。
（非抽樣誤差一般不記錄總誤差）

偏差
又稱系統誤差或恆定誤差，估計值的數學期望與總體參數實際值之差。偏差的性質與隨機誤差不同，它不隨樣本單元數的增加而減小，也不因測量次數增多而減小。
如:測量儀器，偏小尺子測量出的數據會偏大；抽樣過程；估計方法。

抽樣誤差
以樣本統計量（如:平均數、總體總量）估計總體參數會產生誤差，這種由於只測樣本單元而沒有觀測全部總體單元而產生的誤差稱爲抽樣誤差。

（總誤差）² = （抽樣誤差）² + （偏差）²

無偏估計: 總誤差 = 抽樣誤差

9. 誤差範圍的含義是什麼？

誤差 = 測定值或估計值 - 真值

抽樣誤差是指由於隨機抽樣的偶然因素使樣本各單位的結構不足以代表總體各單位的結構，而引起抽樣指標和全局指標的絕對離差。

影響抽樣誤差的因素有：

抽樣單位的數目。在其他條件不變的情況下，抽來樣單位的數目越多，抽樣誤差越小；抽樣單位數目越少，抽樣誤差越大。
總體被研究標誌的變異程度。在其他條件不變的情況下，總體標誌的變異程度越小，抽樣誤差越小。總體標誌的變異程度越大，抽樣誤差越大。
抽樣方法的選擇。重複抽樣和不源重複抽樣的抽樣誤差的大小不同。採用不重複抽樣比採用重複抽樣的抽樣誤差小。
抽樣組織方百式不同。採用不同的組織方式，會有不同的抽樣誤差，這是因爲不同的抽樣組織所抽中的樣本，對於總體的代表性也不同。通常，我們不常利用不同的抽樣誤差，做出判斷各種抽樣組織方式的比較標準。

10. 減小誤差範圍的兩種方法是什麼，通常推薦使用哪種方法？

對於總體均值 $\mu$ 的一個 95% 置信區間的誤差範圍 E爲 $E= t_{\alpha /2}\left ( s/\sqrt{n} \right )$ ，可以解釋如下：

我們有 95%的把握在 E 誤差範圍內估計 $\mu$ 。

誤差範圍越小，估計的精確度就越大。問題是，如何才能減小誤差範圍？現在誤差範圍E包含3中量，如下所示：

$t_{\alpha /2}$ 取決於置信水平和樣本容量
樣本標準偏差s，作爲數據的特徵，可能不會發生變化
n，樣本容量

因此，可以使用以下兩種方法來減小誤差範圍：

通過增大樣本容量。（推薦的做法）要想在減小誤差範圍的同時保持置信水平不變，增大樣本容量是唯一的方法。
通過減小置信水平，即減小 $t_{\alpha /2}$ 的取值，因此可以減小E。（不推薦的做法）

例如：我們獲取一個樣本包含5000個客戶，有相同的標準差 s=1.315，那麼99%的置信區間的誤差範圍爲：

$E = t_{\alpha /2}\times \frac{s}{\sqrt{n}} = 1.96\times \frac{1.315}{\sqrt{5000}} = 0.036$

由於E的計算公式中包含 $\sqrt{n}$ ，樣本容量中 n 的增加會導致 $\sqrt{n}$ 的誤差範圍的減小。

11. 一次政治民調的誤差範圍爲3%。如何解釋這個數字？

12. 什麼是假設檢驗？

假設檢驗(Hypothesis Testing)，又稱統計假設檢驗，是用來判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。顯著性檢驗是假設檢驗中最常用的一種方法，也是一種最基本的統計推斷形式，其基本原理是先對總體的特徵做出某種假設，然後通過抽樣研究的統計推理，對此假設應該被拒絕還是接受做出推斷。

假設檢驗的基本思想是“小概率事件”原理，其統計推斷方法是帶有某種概率性質的反證法。小概率思想是指小概率事件在一次試驗中基本上不會發生。反證法思想是先提出檢驗假設，再用適當的統計方法，利用小概率原理，確定假設是否成立。即爲了檢驗一個假設是否正確，首先假定該假設正確，然後根據樣本對假設做出接受或拒絕的決策。如果樣本觀察值導致了“小概率事件”發生，就應拒絕假設，否則應接受假設。

假設檢驗中所謂“小概率事件”，並非邏輯中的絕對矛盾，而是基於人們在實踐中廣泛採用的原則，即小概率事件在一次試驗中是幾乎不發生的，但概率小到什麼程度才能算作“小概率事件”，顯然，“小概率事件”的概率越小，否定原假設就越有說服力，常記這個概率值爲α(0<α<1)，稱爲檢驗的顯著性水平。對於不同的問題，檢驗的顯著性水平α不一定相同，一般認爲，事件發生的概率小於0.1、0.05或0.01等，即“小概率事件” 。

假設檢驗是指使用樣本的證據來斷言總體參數值得過程。針對參數值，精心設計了兩種矛盾的聲明或假設。

具體如下：

零假設 $H_{0}$ 是原假設，表示參數值已經假定的內容
另一種假設或研究假設 $H_{1}$ 表示參數值得另一個斷言

兩種可能的結論是：（1）拒絕 $H_{0}$ 和（2）不拒絕 $H_{0}$

		現實
		$H_{0}$ 成立	$H_{0}$ 不成立
決策	拒絕 $H_{0}$	類型I錯誤	正確決定
決策	不拒絕 $H_{0}$	正確決定	類型II錯誤

類型I錯誤的概率記爲 $\alpha$ ，而類型II錯誤的概率記爲 $\beta$ 。

對於一個固定樣本容量， $\alpha$ 減小與 $\beta$ 增大相關，反之亦然。在統計分析中， $\alpha$ 通常固定在某個較小值，例如：0.05，稱之爲顯著性水平。

均值假設檢驗的一般處理是將假設限定爲以下3種形式：

左-尾檢驗

$H_{0}$ ： $\mu \geq \mu _{0}$ ； $H_{1}$ ： $\mu < \mu _{0}$

右-尾檢驗

$H_{0}$ ： $\mu \leq \mu _{0}$ ； $H_{1}$ ： $\mu > \mu _{0}$

左-尾檢驗

$H_{0}$ ： $\mu = \mu _{0}$ ； $H_{1}$ ： $\mu \neq \mu _{0}$

其中 $\mu _{0}$ 表示 $\mu$ 的一個假設值。

13. 描述作出正確結論的兩種方法和作出錯誤結論的兩種方法。

14. 清楚地解釋爲什麼小的p-值會導致零假設的檢驗否定。

p-值是指：如果我們假定零假設爲真時，觀測樣本統計量（例如： $\overline{X}$ 和 $t_{data}$ ）至少與真實觀測的統計量一樣極端的概率。由於p-值（“概率值”）表示一個概率，因此其值必須總是位於0和1之間。

如何計算p-值？

假設檢驗的形式	P-值
左-尾檢驗 $H_{0}$ ： $\mu \geq \mu _{0}$ ； $H_{1}$ ： $\mu < \mu _{0}$	$P\left ( t< t_{data} \right )$
右-尾檢驗 $H_{0}$ ： $\mu \leq \mu _{0}$ ； $H_{1}$ ： $\mu > \mu _{0}$	$P\left ( t> t_{data} \right )$
左-尾檢驗 $H_{0}$ ： $\mu = \mu _{0}$ ； $H_{1}$ ： $\mu \neq \mu _{0}$	如果 $t_{data}< 0$ ，那麼 $p_{value}=2\times P\left ( t< t_{data} \right )$ 如果 $t_{data}> 0$ ，那麼 $p_{value}=2\times P\left ( t> t_{data} \right )$

假設檢驗的形式

P-值

左-尾檢驗

$H_{0}$ ： $\mu \geq \mu _{0}$ ； $H_{1}$ ： $\mu < \mu _{0}$

$P\left ( t< t_{data} \right )$

右-尾檢驗

$H_{0}$ ： $\mu \leq \mu _{0}$ ； $H_{1}$ ： $\mu > \mu _{0}$

$P\left ( t> t_{data} \right )$

左-尾檢驗

$H_{0}$ ： $\mu = \mu _{0}$ ； $H_{1}$ ： $\mu \neq \mu _{0}$

如果 $t_{data}< 0$ ，那麼 $p_{value}=2\times P\left ( t< t_{data} \right )$

如果 $t_{data}> 0$ ，那麼 $p_{value}=2\times P\left ( t> t_{data} \right )$

假設檢驗形式的名稱表明p-值將會在t分佈的哪尾或雙尾中發現。

一個較小p-值將表明數據與零假設之間的衝突。

因此，如果p-值較小，我們將拒絕 $H_{0}$

多小纔算小呢？因爲研究者設置顯著水平 $\alpha$ 爲某個較小的值（例如：0.05），因此，如果p-值小於 $\alpha$ ，我們則認爲 p-值較小。

這引導我們得出拒絕規則：

拒絕 $H_{0}$ ，如果 p-值小於 $\alpha$ 。

不同p-值下拒絕 $H_{0}$ 的證據力度：

P-值	$H_{0}$ 證據力度
p-值 0.001	極強的證據
0.001 p-值 $\leq$ 0.01	非常強的證據
0.01 p-值 $\leq$ 0.05	確切的證據
0.05 p-值 $\leq$ 0.10	較確切的證據
0.10 p-值 $\leq$ 0.15	不夠充分的證據
0.15 p-值	無證據

15. 我們如何使用置信區間來構造假設檢驗？

16. 參數估計與假設檢驗之間的聯繫與區別。

（1）主要聯繫：a.都是根據樣本信息推斷總體參數；b.都以抽樣分佈爲理論依據，建立在概率論基礎之上的推斷；c.二者可相互轉換，形成對偶性。

（2）主要區別： a.參數估計是以樣本資料估計總體參數的真值，假設檢驗是以樣本資料檢驗對總體參數的先驗假設是否成立;b.區間估計求得的是求以樣本估計值爲中心的雙側置信區間，假設檢驗既有雙側檢驗，也有單側檢驗；c.區間估計立足於大概率，假設檢驗立足於小概率。

[數據挖掘與預測分析] 單變量統計分析思考問題

單變量統計分析思考問題

京東面試：如何進行JVM調優？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

[機器學習筆記] 機器學習常見算法總結（更新中）

[統計學筆記] （四）數據分佈的數字特徵

[機器學習筆記] （轉載學習）完整機器學習項目的工作流程

[機器學習筆記] 常用的分類與預測算法

[機器學習筆記] 用Python分析 TED演講數據（更新中）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結