統計學筆記 一

一、信息圖形化

同樣的數據在圖表上顯示的時候,如果座標軸設置不一樣,其表現的結果可能差別很大。因此,圖表既可以證明結果,也可以用來說謊。

頻數
: “頻數”表示在一個特定組,或者說在一個特定敬意內的統計對象的數目,類似於數數。

餅圖
: 餅圖體現比例。

在設計以百分數爲表現內容的圖形時,請考慮這樣一條黃金定律:設法指定出頻數——或是將頻數標在圖形中間,或是標在圖形旁邊,均可。

條形圖有:
: 垂直條形圖;水平條形圖;堆積圖;分段條形圖(也叫堆疊條形圖)。
: 水平條形圖用於展現類別數據,尤其是在類別名稱太長的時候。
: 垂直條形圖用於展現數值型數據;若類別名稱不長,也用於體現類別數據。
: 條形圖標度可以是百分數,也可以是頻數。

  • 類別數據,又稱定性數據。
  • 數值型數據,又稱定量數據。

直方圖
: 用長方形表示一個範圍(面積)。

特點
: 每個長方形的面積與頻數成比例;
: 圖上的長方形之間沒有間隔。

長方形高度用於量度一個特定組的頻數的集中程序,是對頻數密集度的一種量度,是用於說明數字到底是“稠密”還是“稀薄”的一種方法。長廊形的高度稱爲==頻數密度==。

頻數密度
: ==頻數密度==指的是分組數據中的頻數的密度集。計算方法如下:
: 頻數密度 = 頻數 / 組距

直方圖
: ==直方圖==是一種專門用於體現分組數據的圖形。它看起來很像條形圖,但每條長方形的高度等於 頻數密度——而不是頻數。
: 繪製直言圖時,每個長方形的寬度與其分組寬度(“組距”)成正比例。長方形按照連續的數字標度繪製。
: 直方圖中的每個組的頻數通過長方形面積求出。
: 直方圖的長方形之間沒有間隔。

累積頻數
: 累加到某個數值爲止的總頻數。基本上是所有頻數的累計總和。

拆線圖
: 拆線圖能很好的體現數據趨勢。

==不要使用拆線圖顯示類別數據==——除非要顯示每一個類別的趨勢,例如基於時間的趨勢。如果要顯示每一個類別的趨勢,要爲每一個類別畫一條線。

二、集中趨勢的量度

均值、中位數、衆數。在統計幫裏,它們都叫作平均數。

推導公式
: sum = x1 + x2 + ... + xn . n表示數據的數量。

簡化公式
: Σx 表示所有x的各。Σ讀作“西格碼”。

均值的專用符號
: μ = Σx / n. μ 讀作“繆”。

均值與頻數
: μ = Σfx / Σf. 這裏的f表示頻數。fx 表示每個數據乘以其出現的次數。Σfx 表示每個數字人頻數,然後將全部乘積相加。Σf 表示頻數之和。

異常值
: 與其他數據格格不入的極高或極低的數值。

偏斜數據
: 當異常值將數據向械或向右“拉”時即產生偏斜數據。

當有偏斜數據存在的時候,均值會向偏斜數據的方向偏移。

中位數
: 中位數是另一種平均值。中位數永遠處於中間,它是個中間值。
: 如果一批數字的數目是偶數,則只要取兩個中間數的均值即可,結果就是中位數。

求中位數三步法
: 1. 按順序排列數字:從最小值排列到最大值。
: 2. 如果有奇數個數值,則中位數爲位於中間的數值。如果有n個數,則中間數的位置爲(n+1) / 2。
: 3. 如果有偶數個值,則將兩個中間數相加,然後除以2。中間位置的算法是:(n+1) / 2。兩個中間數分別痊於這個中間位置的兩側。

偏斜數據有一條“異常值”尾巴。若要知道數據的偏斜方向,可看看尾巴的指向。例如,右偏斜數據的尾巴指向右方。

衆數
: 衆數是一批數字中最常見的數值,即頻數最大的數值。衆數必須存在於數據集中。衆數是唯一能用於==類別數據==的平均數。

雙峯數據
: 如果一批數據有兩個衆數,則我們說這種數據是雙峯數據。

求衆數三步法
: 1. 把數據中的不同類別或數值全部找出來。
: 2. 寫出每個數值或類別的頻數。
: 3. 挑出具有最高頻數的一個或幾個數值,得出衆數。

三、分散性與變異性的量度

全距
: 全距也叫==極差==,是用於量度數據集分散程度的一種方法。其算法爲:==上界 - 下界==。其中上界爲最大值,下界爲最小值。

全距僅僅描述了數據的寬度,並沒有描述數據在上、下界之間的分佈形態。

使用迷你距擺脫異常值

四分位數
: 四分位數是這樣一些數值:它們將數據一分爲四。最小的四分位數稱爲下四分數數,最大的四分位數稱爲上四分位數。中間的四分位數即中位數。

有一些教材在提到四分位數時,指的是每一份四分之一數據塊中的所有數。蛤這裏用術語==四分位數==特指將數據一分爲四的幾個數值。

四分位距
: 即一個不易受異常值影響的“迷你距”。可能過下列方法進行計算:上四分位數 - 下四分位數。

求下四分位數的位置
: 1. 首先計算 n÷4 。
: 2. 如果結果爲整數,則下四分位數位於 n÷4 這個位置和下一個位置的中間,即這兩個位置的平均值,即得下四分位數。
: 3. 如果 n÷4 不是整數,則向上取整,所得結果即爲下四分位數的位置。

求上四分位數的位置
: 1. 首先計算 3n÷4 .
: 2. 如果結果爲整數,則上四分位數位於 3n÷4 這個位置和下一個位置的中間,將這兩個位置上的數加起來,然後除以2。
: 3. 如果 3n÷4 不是整數,則向上取整,所得到的新數字即爲上四位數的位置。

如果將一批數據按百分比進行分割,則起分割作用的數值被稱作爲==百分位數==。相就的距被稱爲==百分位距==

百分位數
: 第k百分位數即位於數據範圍k%處的數值,記爲:Pk.

下四分位數即P25, 上四分位數即P75,中位數即P50

求百分位數
: 1. 首先將所有數值按升序排序。
: 2. 爲了求出n個數字的第k百分位數的位置,先計算k(n/100).
: 3. 如果結果爲整數,則百分位數處於第k(n/100)位和下一位數之間。取這兩個位置上的數字的平均值,得出百分位數。
: 4. 如果k(n/100)不是整數,則將其向上即整,結果即百分位數的位置。

箱線圖
: 又叫箱形圖。它專門用來顯示各種各樣的==距==。
: 箱線圖顯示數據的==全距、四分位距以及中位數==。

箱線圖(或稱箱形圖)能在同一張圖上體現多個距和四分位數,是在這方面十分有用的一種方法。“箱”顯示出四分位數和四分位距的位置,“線”則顯示出上、下界。箱線圖能在同一張圖上體現多批數據,因此非常有利於比較。

各個數值與均值的距離正、負相抵。

方差
: 方差是量度數據分散性的一種方法,是數值與均值的距離的平方數的平均值。
: Σ(x-μ)2 / n

標準差
: 方差開根號的值。
: σ = √方差。σ是Σ的小寫形式。
: σ2 = 方差。
: 標準差是描述典型值與均值距離的一種方法,標準差越小,數值離均值越近。==標準差可能得到的最小數值爲0==.
: 標準差體現了數據的變異度。

方差速算法
: 方差 = Σx2 - μ2

標準分
: 標準分(或稱z分)是對不同數據集中的數值進行比較的一種方法,這些數據集的均值和標差互不相同。數值x的標準分的計算方法爲:z = (x - μ) / σ
: 標準分 = 距離均值的標準差個數。
: 標準分的作用是將幾個數據集轉換成一個理論上的新分佈,這個分佈的均值爲0,標準差爲1.

如果一個數值在距離均值1個標準差的範圍內,我們就知道,數值的標準分在-1到1之間。與引類似,如果一個數值在距離均值兩個標準差的範圍內,則數值的標準分在-2到2之間。

標準分爲我們提供了一種對不同數據集的數據進行比較的辦法,這些不同數據集的均值和標準差甚至都各不一樣。通過這種方法,我們可以把這些數值視爲來自同一個數據集或數據分佈,從而進行比較。

可以使用標準分比較不同數據集中的數值

四、概率計算

事件
: 有概率可言的一個結果或一件事。

概率的量度尺度是0-1.

對於事件A的概率
: P(A) = n(A) / n(S)
: S被稱爲概率空間,或稱樣本空間,是表示所有可能結果的一種簡便表示法。可能發生的事件都是S的子集。

維恩圖
: 畫一個方框表示樣本空間S,然後畫幾個圓圈代表各個相關事件,這種圖稱爲維恩圖

對立事件
: “A不發生”事件有一種簡便表示方法——A'。A'被稱爲A的對立事件。
: P(A) + P(A') = 1
: P(A') = 1 - P(A)

無論某事件多麼不可能發生,只要不是完全不可能發生,該事件就仍然可能發生。

  • 對立事件是一個互斥事件。
  • 如果兩個事件是互斥事件,則只有其中一個事件會發生。
  • 如果兩個事件相交,則這兩個事件有可能同時發生。

∩交集,∪並集,對應與或關係。

互斥與窮舉的差別
: 如果事件A與事件B爲互斥事件,則P(A∩B) = 0
: 如果事件A與事件B爲窮舉事件,則P(A∪B) = 1

P(A∪B)= P(A)+P(B)-P(A∩B)
: 對本公式的理解是,當事件A與事件B是相交關係時,計算兩個事件的和,則相交部分的事件被計算了兩次,因此要減掉一次交集,最終的結果就是A與B並的關係的概率。

所謂的窮舉事件,就是指某事件或某些事件之和,形成整個空間,即概率爲1.

條件概率
: 用它來量茺與其他事件的發生尾部有關的某個事件的概率。
: 如果要表示以另一個事件的發生爲條件的某個事件的發生概率,就用“|”符號表示“已經條件”,於是,“以事件B爲已知條件的事件A的概率”就可以簡寫爲:P(A|B).即已經在B已經發生的條件下A的概率。

一般用概率樹表示條件概率

將一個概率乘以下一級分支概率,就可以求出飲食相交情況的概率。

概率樹使用訣竅
: 1. 分出層級。努力分出需要計算的概率的不同層級。例如,如果給定的條件概率爲P(A|B),則可能需要在第一級中涵蓋B,在第二級中涵蓋A。
: 2. 填寫已經信息。如果書籍部分概率,則將這些概率寫入概率樹上的相應位置。
: 3. 記住:每一級分支的概率總和爲1。如果將從同一個點上衍生出來的所有分支的概率加起來,總和應該等於1.記住:P(A) = 1 - P(A')。
: 4. 記住公式。通過下列計算式可求出大多數其他概率:P(A|B) = P(A∩B) / P(B)。

如果A與B互斥,則P(A|B)=0且P(B|A)=0.

全概率公式
: 通過書籍概率計算未知概率,被稱作==全概率公式==。
: P(B) = P(A)*P(B|A)+P(A')*P(B|A')

貝葉斯定理
: P(A|B) = P(A∩B) / P(B)
: 逆向推導 ==P(A|B) = [P(A)*P(B|A)] / [P(A)*P(B|A)+P(A')*P(B|A')]==
: 全概率公式是貝葉斯定理的分母。

什麼情況下使用貝葉斯定理
: 在需要求出條件概率,且該條件概率與已知條件概率順序相反時使用。

相關事件
: 如果幾個事件相互影響,則爲相關事件。

獨立事件
: 如果幾個事件互不影響,則爲獨立事件。

如果A、B是互斥事件,則二者不會是獨立事件;如果A、B是獨立事件,則二者不會是互斥事件。

如果A和B是互斥事件,即如果事件A發生,則事件B不發生。這意味着,A的結果會影響B的結果,於是這二者相關。

與此相億,如果A和B是獨立事件,則二者不會互斥。

如果事件A和事件B互相獨立,則事件A的概率不受事件B的影響,換句話說,對於獨立事件來說:

P(A|B) = P(A)

獨立事件的其他概率也很容易計算,例如P(A|B).
我們已知道P(A|B) = P(A∩B) / P(B).
如果A和B是獨立事件,則P(A|B)與P(A)相同。即對於獨立事件來說:P(A) = P(A∩B) / P(B).
即:P(A∩B) = P(A) * P(B).

獨立性
: 如果A和B相獨立,則:
: P(A|B) = P(A)
: 如果上式對任何兩個事件成立,則這兩個事件必爲獨立事件。同時P(A∩B) = P(A) * P(B).

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章