統計學筆記一

一、信息圖形化

同樣的數據在圖表上顯示的時候，如果座標軸設置不一樣，其表現的結果可能差別很大。因此，圖表既可以證明結果，也可以用來說謊。

頻數
: “頻數”表示在一個特定組，或者說在一個特定敬意內的統計對象的數目，類似於數數。

餅圖
: 餅圖體現比例。

在設計以百分數爲表現內容的圖形時，請考慮這樣一條黃金定律：設法指定出頻數——或是將頻數標在圖形中間，或是標在圖形旁邊，均可。

條形圖有：
: 垂直條形圖；水平條形圖；堆積圖；分段條形圖（也叫堆疊條形圖）。
: 水平條形圖用於展現類別數據，尤其是在類別名稱太長的時候。
: 垂直條形圖用於展現數值型數據；若類別名稱不長，也用於體現類別數據。
: 條形圖標度可以是百分數，也可以是頻數。

類別數據，又稱定性數據。
數值型數據，又稱定量數據。

直方圖
: 用長方形表示一個範圍（面積）。

特點
: 每個長方形的面積與頻數成比例；
: 圖上的長方形之間沒有間隔。

長方形高度用於量度一個特定組的頻數的集中程序，是對頻數密集度的一種量度，是用於說明數字到底是“稠密”還是“稀薄”的一種方法。長廊形的高度稱爲==頻數密度==。

頻數密度
: ==頻數密度==指的是分組數據中的頻數的密度集。計算方法如下：
: 頻數密度＝頻數 / 組距

直方圖
: ==直方圖==是一種專門用於體現分組數據的圖形。它看起來很像條形圖，但每條長方形的高度等於頻數密度——而不是頻數。
: 繪製直言圖時，每個長方形的寬度與其分組寬度（“組距”）成正比例。長方形按照連續的數字標度繪製。
: 直方圖中的每個組的頻數通過長方形面積求出。
: 直方圖的長方形之間沒有間隔。

累積頻數
: 累加到某個數值爲止的總頻數。基本上是所有頻數的累計總和。

拆線圖
: 拆線圖能很好的體現數據趨勢。

==不要使用拆線圖顯示類別數據==——除非要顯示每一個類別的趨勢，例如基於時間的趨勢。如果要顯示每一個類別的趨勢，要爲每一個類別畫一條線。

二、集中趨勢的量度

均值、中位數、衆數。在統計幫裏，它們都叫作平均數。

推導公式
: sum = x₁ + x₂ + ... + x_n . n表示數據的數量。

簡化公式
: Σ_x 表示所有x的各。Σ讀作“西格碼”。

均值的專用符號
: μ = Σ_x / n. μ 讀作“繆”。

均值與頻數
: μ = Σ_fx / Σ_f. 這裏的f表示頻數。fx 表示每個數據乘以其出現的次數。Σ_fx 表示每個數字人頻數，然後將全部乘積相加。Σ_f 表示頻數之和。

異常值
: 與其他數據格格不入的極高或極低的數值。

偏斜數據
: 當異常值將數據向械或向右“拉”時即產生偏斜數據。

當有偏斜數據存在的時候，均值會向偏斜數據的方向偏移。

中位數
: 中位數是另一種平均值。中位數永遠處於中間，它是個中間值。
: 如果一批數字的數目是偶數，則只要取兩個中間數的均值即可，結果就是中位數。

求中位數三步法
: 1. 按順序排列數字：從最小值排列到最大值。
: 2. 如果有奇數個數值，則中位數爲位於中間的數值。如果有n個數，則中間數的位置爲(n+1) / 2。
: 3. 如果有偶數個值，則將兩個中間數相加，然後除以2。中間位置的算法是：(n+1) / 2。兩個中間數分別痊於這個中間位置的兩側。

偏斜數據有一條“異常值”尾巴。若要知道數據的偏斜方向，可看看尾巴的指向。例如，右偏斜數據的尾巴指向右方。

衆數
: 衆數是一批數字中最常見的數值，即頻數最大的數值。衆數必須存在於數據集中。衆數是唯一能用於==類別數據==的平均數。

雙峯數據
: 如果一批數據有兩個衆數，則我們說這種數據是雙峯數據。

求衆數三步法
: 1. 把數據中的不同類別或數值全部找出來。
: 2. 寫出每個數值或類別的頻數。
: 3. 挑出具有最高頻數的一個或幾個數值，得出衆數。

三、分散性與變異性的量度

全距
: 全距也叫==極差==，是用於量度數據集分散程度的一種方法。其算法爲：==上界 - 下界==。其中上界爲最大值，下界爲最小值。

全距僅僅描述了數據的寬度，並沒有描述數據在上、下界之間的分佈形態。

使用迷你距擺脫異常值。

四分位數
: 四分位數是這樣一些數值：它們將數據一分爲四。最小的四分位數稱爲下四分數數，最大的四分位數稱爲上四分位數。中間的四分位數即中位數。

有一些教材在提到四分位數時，指的是每一份四分之一數據塊中的所有數。蛤這裏用術語==四分位數==特指將數據一分爲四的幾個數值。

四分位距
: 即一個不易受異常值影響的“迷你距”。可能過下列方法進行計算：上四分位數 - 下四分位數。

求下四分位數的位置
: 1. 首先計算 n÷4 。
: 2. 如果結果爲整數，則下四分位數位於 n÷4 這個位置和下一個位置的中間，即這兩個位置的平均值，即得下四分位數。
: 3. 如果 n÷4 不是整數，則向上取整，所得結果即爲下四分位數的位置。

求上四分位數的位置
: 1. 首先計算 3n÷4 .
: 2. 如果結果爲整數，則上四分位數位於 3n÷4 這個位置和下一個位置的中間，將這兩個位置上的數加起來，然後除以2。
: 3. 如果 3n÷4 不是整數，則向上取整，所得到的新數字即爲上四位數的位置。

如果將一批數據按百分比進行分割，則起分割作用的數值被稱作爲==百分位數==。相就的距被稱爲==百分位距==。

百分位數
: 第k百分位數即位於數據範圍k%處的數值，記爲：P_k.

下四分位數即P₂₅, 上四分位數即P₇₅，中位數即P₅₀。

求百分位數
: 1. 首先將所有數值按升序排序。
: 2. 爲了求出n個數字的第k百分位數的位置，先計算k(n/100).
: 3. 如果結果爲整數，則百分位數處於第k(n/100)位和下一位數之間。取這兩個位置上的數字的平均值，得出百分位數。
: 4. 如果k(n/100)不是整數，則將其向上即整，結果即百分位數的位置。

箱線圖
: 又叫箱形圖。它專門用來顯示各種各樣的==距==。
: 箱線圖顯示數據的==全距、四分位距以及中位數==。

箱線圖（或稱箱形圖）能在同一張圖上體現多個距和四分位數，是在這方面十分有用的一種方法。“箱”顯示出四分位數和四分位距的位置，“線”則顯示出上、下界。箱線圖能在同一張圖上體現多批數據，因此非常有利於比較。

各個數值與均值的距離正、負相抵。

方差
: 方差是量度數據分散性的一種方法，是數值與均值的距離的平方數的平均值。
: Σ(x-μ)² / n

標準差
: 方差開根號的值。
: σ = √方差。σ是Σ的小寫形式。
: σ² = 方差。
: 標準差是描述典型值與均值距離的一種方法，標準差越小，數值離均值越近。==標準差可能得到的最小數值爲0==.
: 標準差體現了數據的變異度。

方差速算法
: 方差 = Σ_x² - μ²

標準分
: 標準分（或稱z分）是對不同數據集中的數值進行比較的一種方法，這些數據集的均值和標差互不相同。數值x的標準分的計算方法爲：z = (x - μ) / σ
: 標準分 = 距離均值的標準差個數。
: 標準分的作用是將幾個數據集轉換成一個理論上的新分佈，這個分佈的均值爲0，標準差爲1.

如果一個數值在距離均值1個標準差的範圍內，我們就知道，數值的標準分在-1到1之間。與引類似，如果一個數值在距離均值兩個標準差的範圍內，則數值的標準分在-2到2之間。

標準分爲我們提供了一種對不同數據集的數據進行比較的辦法，這些不同數據集的均值和標準差甚至都各不一樣。通過這種方法，我們可以把這些數值視爲來自同一個數據集或數據分佈，從而進行比較。

可以使用標準分比較不同數據集中的數值

四、概率計算

事件
: 有概率可言的一個結果或一件事。

概率的量度尺度是0-1.

對於事件A的概率
: P(A) = n(A) / n(S)
: S被稱爲概率空間，或稱樣本空間，是表示所有可能結果的一種簡便表示法。可能發生的事件都是S的子集。

維恩圖
: 畫一個方框表示樣本空間S，然後畫幾個圓圈代表各個相關事件，這種圖稱爲維恩圖。

對立事件
: “A不發生”事件有一種簡便表示方法——A'。A'被稱爲A的對立事件。
: P(A) + P(A') = 1
: P(A') = 1 - P(A)

無論某事件多麼不可能發生，只要不是完全不可能發生，該事件就仍然可能發生。

對立事件是一個互斥事件。
如果兩個事件是互斥事件，則只有其中一個事件會發生。
如果兩個事件相交，則這兩個事件有可能同時發生。

∩交集，∪並集，對應與或關係。

互斥與窮舉的差別
: 如果事件A與事件B爲互斥事件，則P(A∩B) = 0
: 如果事件A與事件B爲窮舉事件，則P(A∪B) = 1

P(A∪B)= P(A)+P(B)-P(A∩B)
: 對本公式的理解是，當事件A與事件B是相交關係時，計算兩個事件的和，則相交部分的事件被計算了兩次，因此要減掉一次交集，最終的結果就是A與B並的關係的概率。

所謂的窮舉事件，就是指某事件或某些事件之和,形成整個空間，即概率爲1.

條件概率
: 用它來量茺與其他事件的發生尾部有關的某個事件的概率。
: 如果要表示以另一個事件的發生爲條件的某個事件的發生概率，就用“|”符號表示“已經條件”，於是，“以事件B爲已知條件的事件A的概率”就可以簡寫爲：P(A|B).即已經在B已經發生的條件下A的概率。

一般用概率樹表示條件概率。

將一個概率乘以下一級分支概率，就可以求出飲食相交情況的概率。

概率樹使用訣竅
: 1. 分出層級。努力分出需要計算的概率的不同層級。例如，如果給定的條件概率爲P(A|B)，則可能需要在第一級中涵蓋B，在第二級中涵蓋A。
: 2. 填寫已經信息。如果書籍部分概率，則將這些概率寫入概率樹上的相應位置。
: 3. 記住：每一級分支的概率總和爲1。如果將從同一個點上衍生出來的所有分支的概率加起來，總和應該等於1.記住：P(A) = 1 - P(A')。
: 4. 記住公式。通過下列計算式可求出大多數其他概率：P(A|B) = P(A∩B) / P(B)。

如果A與B互斥，則P(A|B)=0且P(B|A)=0.

全概率公式
: 通過書籍概率計算未知概率，被稱作==全概率公式==。
: P(B) = P(A)*P(B|A)+P(A')*P(B|A')

什麼情況下使用貝葉斯定理
: 在需要求出條件概率，且該條件概率與已知條件概率順序相反時使用。

相關事件
: 如果幾個事件相互影響，則爲相關事件。

獨立事件
: 如果幾個事件互不影響，則爲獨立事件。

如果A、B是互斥事件，則二者不會是獨立事件；如果A、B是獨立事件，則二者不會是互斥事件。

如果A和B是互斥事件，即如果事件A發生，則事件B不發生。這意味着，A的結果會影響B的結果，於是這二者相關。

與此相億，如果A和B是獨立事件，則二者不會互斥。

如果事件A和事件B互相獨立，則事件A的概率不受事件B的影響，換句話說，對於獨立事件來說：

P(A|B) = P(A)

獨立事件的其他概率也很容易計算，例如P(A|B).
我們已知道P(A|B) = P(A∩B) / P(B).
如果A和B是獨立事件，則P(A|B)與P(A)相同。即對於獨立事件來說：P(A) = P(A∩B) / P(B).
即：P(A∩B) = P(A) * P(B).

獨立性
: 如果A和B相獨立，則：
: P(A|B) = P(A)
: 如果上式對任何兩個事件成立，則這兩個事件必爲獨立事件。同時P(A∩B) = P(A) * P(B).

統計學筆記一

一、信息圖形化

二、集中趨勢的量度

三、分散性與變異性的量度

四、概率計算

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

OpenTelemetry 實踐指南：歷史、架構與基本概念

需求管理祕籍：從混亂到有序，讓你的項目高效運轉

使用skopeo同步鏡像

用光線投射法渲染規則模型

序：改變——讓好事發生

序：快樂的來源

統計學筆記一

用指數戰勝指數，ETF二八輪動對衝模型

作爲一名小白，如何順利入門量化投資的大門？

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

統計學筆記 一

一、信息圖形化

二、集中趨勢的量度

三、分散性與變異性的量度

四、概率計算

統計學筆記一