數據分析

數據分析概率及統計學基礎
一.數據分析概述
1. 數據分析的概念
數據分析就是分析數據,從一大堆數據中提取你想要的信息。比較專業的回答:數據分析是有針對性的收集、加工、整理數據,並採用統計、挖掘技術分析和解釋數據的科學與藝術。比較客觀的回答:從行業的角度看,數據分析是基於某種行業目的,有目的地對數據進行收集、整理、加工和分析,提煉有價值信息的過程。
理解數據分析的三個方面:目標、方法、結果。
2. 數據挖掘的概念
   數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,包括機器學習、數理統計、神經網絡、數據庫、模式識別、粗糙集、模糊數學等相關技術。
3. 商業數據分析預測的本質
數據分析和業務是緊密聯合在一起的,其目的就是滿足商業決策的需求。預測未來發展情況,及早發現問題,對業務進行優化,制定最優的決策方案。
4. 數據分析的8個層次
常規報表
即席查詢
多維分析
警報
統計分析
預報
預測型建模
優化
5. 大數據對傳統小數據的拓展
(1)大數據與小數據,大量數據的區別與轉變就是,放棄對因果關係的渴求,而取而代之關注相關關係。也就是說只要知道“是什麼”,而不需要知道“爲什麼”。這就顛覆了千百年來人類的思維慣例,對人類的認知和與世界交流的方式提出了全新的挑戰。
(2).還有一個重要的區別是在用途上,過去的數據很大程度上停留在說明過去的狀態,拿數據說話,實際上是用過去的數據說明過去,而大數據的核心就是預測。大數據將爲人類的生活創造前所未有的可量化的維度。使數據從原來停留在說明過去變爲驅動現在,我以爲預測對企業的作用從兩個方向:
A.宏觀是對趨勢的預測,給企業做大勢分析,
B.微觀是對個體的精準分析,給企業做個性化精準營銷
(3).從結構上,大數據更多的體現在海量非結構化數據本身與處理方法的整合
大數據與小數據判斷原則:
A.數據的量
B.數據的種類、格式
C.數據的處理速度
D.數據複雜度
(4).分析基礎不同,大數據是只有在大規模數據的基礎上纔可以做的事情,而這需要有從量變到質變的過程,也正因爲科技的創新在方法上打下基礎,而利用互聯網展開的新的生活與工作方式,讓信息積累到可以引發變革的程度,而很多事情在小規模數據的基礎上是無法完成的
6. 明確數據分析目標的意義
數據分析的關鍵在於設定目標,專業上叫做“有針對性”。
數據分析的前提是有清晰的目標。對數據分析目的的把握,是數據分析成敗的關鍵。只有對數據分析的目的深刻理解,才能整理出完整的分析框架和思路,因爲根據不同的分析目標所選擇的分析方法是不同的。
7. 數據分析的過程
明確分析的目的和內容——>數據收集——>數據預處理——>數據分析——>數據展現——>撰寫報告
8. 統計分析和數據挖掘的區別和聯繫
聯繫:都來源於統計基礎理論,數據挖掘中也經常會用到統計分析方法,如主成分分析、迴歸分析
    區別:數據挖掘是統計分析方法的延伸和發展。統計分析常需要先做假設或判斷,然後利用數據分析技術來驗證假設是否成立。數據挖掘則不需要對數據內在的關係做任何假設和判斷,而是讓數據挖掘工具中的算法自動去尋找數據中隱藏的關係和規律。  統計分析在預測中的應用常表現爲一個或者一組函數關係式,而數據挖掘在預測中有時候不會從結果中生產明確的函數關係,不知道哪些變量起作用,缺乏解釋性,例如“神經網絡”。
實際應用中,統計分析和數據挖掘是不可分割開來。
9. CRISP-DM
CRISP-DM (cross-industry standard process for data mining), 即爲"跨行業數據挖掘標準流程". 
CRISP-DM 模型爲一個KDD工程提供了一個完整的過程描述.該模型將一個KDD工程分爲6個不同的,但順序並非完全不變的階段
是一種數據挖掘項目關係方法論。

10. SEMMA
SAS公司的數據挖掘項目實施方法論。對CRISP-DM方法中的數據準備和建模環節進行了拓展。
Sample  ─數據取樣
Explore ─數據特徵探索、分析和予處理
Modify  ─問題明確化、數據調整和技術選擇
Model   ─模型的研發、知識的發現
Assess  ─模型和知識的綜合解釋和評價 

11. 數據分析中不同人員的角色與職責
一個大型數據分析項目會涉及行業學術專家、業務專家、數據分析師和IT人員。其中,業務專家提供業務目標,業務理解,並提供目前的營銷和反饋信息;學術專家提供相關領域研究的最新進展,並進行維度分析;數據分析師進行數據理解、清洗和建模;IT人員提供數據支持和項目實施支持。


二、 描述性統計分析
1. 數據的計量尺度
定類尺度、定序尺度、定距尺度、定比尺度
分類變量:定類尺度  、定序尺度
連續性變量:定距尺度 、定尺度

2. 數據的集中趨勢
 集中趨勢在統計學中是指一組數據向某一中心值靠攏的程度,它反映了一組數據中心點的位置所在。集中趨勢測度就是尋找數據水平的代表值或中心值。
常用的指標:平均數、中位數(分位數)、衆數
平均值易受極端值影響,中位數和衆數不受極端值影響。
3. 數據的離中趨勢
離中趨勢在統計學中是指一組數據向某一中心值分散的程度,它反映了各個數據遠離中心點的程度。從側面說明了集中趨勢測度的代表程度。
常用指標:極差、四分位距、平均差、方差、標準差、離散係數
極差 =  最大值 - 最小值
四分位距 = (第三個四分位數 - 第一個四分位數) / 2
平均差 
方差 
·標準差(一般68%在一個標準差,95%在2個標準差,其餘5%遠離)
離散係數(比較兩組樣本離中程度大小:離散係數越小,平均值越具有代表性)
4. 數據分佈形態
一組或一系列數字,落在座標圖裏的形態特徵。比如:正態分佈。
數據分佈形態的測度主要以正態分佈爲標準進行衡量。
指標: 偏態、峯度
   (1)偏態(數據分佈的不對稱性)
正偏態:平均數 > 衆數>中位數     負偏態: 平均數< 衆數<中位數
偏態係數 :計算方法有多種,在Excel中的計算公式爲
SK=0 分佈爲對稱的
SK>0 正偏態,值越大,正偏程度越高
SK<0 負偏態,值越小,負偏程度越高
(2)峯度
峯度係數:在Excel中的計算公式爲
K=0  標準峯度
K<0 平頂峯度
K>0 尖頂峯度
(3)適度偏態時,中位數與平均數的距離,約等於衆數與平均數距離的三分之一  
  已知兩個,可以推導另一個。
5. 統計圖
常用: 條形圖 扇形圖 折線圖 箱線圖 莖葉圖 直方圖

散點圖:描述兩個變量之間的相關關係
氣泡圖:散點圖的一種延伸
6.分類變量和連續型變量的描述統計量
分類:頻數  百分比 累計頻數和累計百分比  衆數
連續型:均值  方差  偏度 峯度
三、 抽樣估計
1. 隨機試驗、隨機事件、隨機變量的概念
隨機試驗: 對隨機現象的觀測
隨機事件:由隨機現象的某些基本結果組成的集合
隨機變量:用來表示隨機現象結果的變量
2. 總體與樣本的概念
總體:把研究對象的全體稱爲總體
樣本:一般地,從研究的總體中按照一定規則抽取n個個體進行觀察或試驗,這n個個體稱爲總體的一個樣本
3. 抽樣估計的理論基礎
抽樣估計是利用抽樣調查所獲得的樣本信息,根據概率論所揭示的隨機變量的一般規律,對總體的某些數量特徵進行估計的一種統計分析方法。
抽樣估計是建立在大數定律和中心極限定理基礎上的。大數定律論證了抽樣平均數趨近於總體平均數的趨勢。中心極限定理論證了抽樣平均數和總體平均數的離差在一定範圍的概率問題。
4. 正態分佈及三大分佈
(1)正態分佈


正態分佈的特徵:
a. 正態分佈有兩個參數,即均數μ和標準差σ,可記作N(μ,σ2):均數μ決定正態曲線的中心位置;標準差σ決定正態曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
b. u變換:爲了便於描述和應用,常將正態變量作數據轉換。μ是正態分佈的位置參數,描述正態分佈的集中趨勢位置。正態分佈以X=μ爲對稱軸,左右完全對稱。正態分佈的均數中位數、衆數相同,均等於μ。
c. σ描述正態分佈資料數據分佈的離散程度,σ越大,數據分佈越分散,σ越小,數據分佈越集中。也稱爲是正態分佈的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
d. 3σ原則:P(μ-σ<X≤μ+σ)=68.3%P(μ-2σ<X≤μ+2σ)=95.4%P(μ-3σ<X≤μ+3σ)=99.7%
(2) 卡方分佈
卡方分佈是從正態分佈中衍生出的一種分佈。其定義是若干個隨機變量的平方和也服從一種分佈,即卡方分佈。


(3)t分佈

(3)F分佈

三大分佈的用途:
卡方分佈:常用於擬合優度檢驗
t分佈:       多用於比例的估計和檢驗,用於方差分析,協方差分佈和迴歸分析
t分佈:       在信息不足的情況下,只能用t分佈,比如在整體方差不知道的情況下,對總體均值的估計和檢驗常用t統計量
5. 抽樣的組織形式
簡單隨機抽樣
分層抽樣
等距抽樣
整羣抽樣
階段抽樣
6. 確定必要樣本容量的原因
必要樣本容量是指爲了使抽樣誤差不超過給定的允許誤差範圍,至少應該抽取的樣本個體數目。
如果抽樣數目過大,儘管誤差會減小,但是會增加調查的工作量,費時費力,體現不出抽樣的優越性;抽樣數目過少,誤差變大,失去了抽樣調查的意義。所以要選擇合適的樣本數量。
7. 必要樣本容量的影響因素
總體方差(標準差σ)
允許誤差範圍
置信度(1-α)
抽樣方法
抽樣組織形式
8. 抽樣平均誤差
抽樣平均誤差是抽樣平均數的標準差。反映了抽樣平均數與總體平均數的平均誤差程度。總體中多個樣本的平均數的標準差。


9. 點估計與區間估計的特點及優缺點
參數估計就是通過樣本來推斷總體分佈中的未知參數或者對未知參數的某些函數做出估計。
參數估計的兩種基本形式:點估計  、 區間估計
點估計:是一種以點代面的估計方法。
                特點 : 根據總體指標的結構形式設計樣本指標,並以樣本指標的實際數值直接作爲總體指標的估計值。
                優點: 簡便易行,原理直觀
缺點:沒有標明點估計的誤差,沒有指出在誤差在一定範圍內的概念保證程度
區間估計:區間估計必須同時具備估計值、抽樣誤差範圍、概率保證程度三個要素。
特點:不直接給出總體參數的被估計值,而是規定總體參數被估計值的上下限,即總體參數存在的區間範圍,並給予一定概率的保證。
優點:明確了精度和可靠性
缺點:精度和可靠性是相互矛盾的。求出參數的置信區間,先保證可靠性,再提高精度。
10. 總體平均數和成數的區間估計方法
總體平均數的區間估計:




總體成數的區間估計:

11. 中心極限定理的意義和應用

中心極限定理的核心內容是隻要n足夠大,便可以把獨立同分布的隨機變量和的標準化當作正態變量,所以可以利用它解決很多實際問題,同時這還有助於解釋爲什麼很多自然羣體的經驗頻率呈現出鐘形曲線這一值得注意的事實,從而正態分佈成爲概率論中最重要的分佈,這就奠定了中心極限定理的首要功績。其次,中心極限定理對於其他學科都有着重要作用。例如數理統計中的參數(區間)估計、假設檢驗、抽樣調查等;進一步,中心極限定理爲數理統計在統計學中的應用鋪平了道路,用樣本推斷總體的關鍵在於掌握樣本特徵值的抽樣分佈,而中心極限定理表明只要樣本容量足夠地大,得知未知總體的樣本特徵值就近似服從正態分佈。從而,只要採用大量觀察法獲得足夠多的隨機樣本數據,幾乎就可以把數理統計的全部處理問題的方法應用於統計學,這從另一個方面也間接地開闢了統計學的方法領域,其在現代推斷統計學方法論中居於主導地位。
12. 樣本可能數目
樣本可能數目是指從總體紅可能抽取的全部樣本數目。與抽取方法和樣本容量有關係。
重複抽樣
不重複抽樣

四、假設檢驗
1.假設檢驗的基本概念和基本思想
假設檢驗:從總體出發用樣本尺度去檢驗,實現對總體指標分析的過程。目的是爲了分析樣本指標和總體指標之間是否存在顯著性差異。
基本思想:(1)反證法 (2)小概率事件。
對總體指標進行某種假設,以小概率事件不發生爲基準,運用反證法思想,按照總體的假設,並根據所獲得的樣本的數據,通過樣本統計量的分佈,得出小概率事件在某一次抽樣中發生的錯誤現象,從而對總體指標的假設做出拒絕的判斷。
2. 假設檢驗在數據分析中的作用
在總體情況未知,以歷史經驗對總體進行推測,利用樣本的統計量對推測結果進行檢驗。假設檢驗的原理和方法是數據分析的基石之一。
3. 假設檢驗的基本步驟
(1)建立原假設
(2)選擇檢驗統計量
(3)尋找拒絕域
(4)計算樣本統計量的值,和臨界值做比較,做出判斷

4. 假設檢驗與區間估計的聯繫
假設檢驗是從對總體進行假設使用樣本數據進行檢驗,而區間估計是從樣本數據出發,估計總體的參數,但兩者本質上是一致的。
在相同的顯著性水平下,假設檢驗和區間估計得出的結果是一致的。
5. 假設檢驗中的兩類錯誤
(1)在原假設爲真得情況下,拒絕原假設
(2)在原假設爲不真的情況下,接受原假設
事先給定顯著性水平α,標明犯第一類錯誤的概率不超過α  。在樣本容量一定的情況下,兩類錯誤發生的概率是負相關。通常控制第一類錯誤發生的概率,一般情況下α取值爲0.01、0.05、0.1等。
6. 利用P值進行假設檢驗
(1)P值的含義
P值就是當原假設爲真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明原假設情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據P值的大小和實際問題來解決。
(2)P值的計算
一般地,用X 表示檢驗的統計量,當H0 爲真時,可由樣本數據計算出該統計量的值C ,根據檢驗統計量X 的具體分佈,可求出P 值。具體地說:
  左側檢驗的P 值爲檢驗統計量X 小於樣本統計值C 的概率,即:P = P{ X < C}
  右側檢驗的P 值爲檢驗統計量X 大於樣本統計值C 的概率:P = P{ X > C}
  雙側檢驗的P 值爲檢驗統計量X 落在樣本統計值C 爲端點的尾部區域內的概率的2 倍: P = 2P{ X > C} (當C位於分佈曲線的右端時) 或P = 2P{ X< C} (當C 位於分佈曲線的左端時) 。若X 服從正態分佈和t分佈,其分佈曲線是關於縱軸對稱的,故其P 值可表示爲P = P{| X| > C} 。
(3)使用P值進行判斷
  計算出P 值後,將給定的顯著性水平α與P 值比較,就可作出檢驗的結論:
  如果α > P 值,則在顯著性水平α下拒絕原假設。
  如果α ≤ P 值,則在顯著性水平α下接受原假設。
  在實踐中,當α = P 值時,也即統計量的值C 剛好等於臨界值,爲慎重起見,可增加樣本容量,重新進行抽樣檢驗。
7. Z檢驗統計量
z檢驗,也稱u檢驗。在原假設成立時,檢驗統計量服從標準正態分佈。一般用於大樣本(n>30)。
(1)單個正態總體平均數的檢驗
(2)兩個正態總體平均數之差的檢驗
適用條件:
(1) 已知總體均數;
  (2) 可得到樣本均數及該樣本標準誤;
  (3) 樣本來自正態或近似正態總體。  



8. T檢驗統計量
在原假設成立時,檢驗統計量服從t分佈。
(1)單樣本t檢驗 : 單個正態總體平均數的檢驗
(2)兩對立樣本t檢驗:兩個正態總體平均數之差的檢驗
(3)配對樣本t檢驗


兩獨立樣本t檢驗分兩種情況

???

9. 卡方檢驗統計量

10. F檢驗

11. 三種t檢驗
五、 方差分析
方差分析是分析多個總體的均值是否相等的檢驗方法。
1. 方差分析的概念
方差分析是通過檢驗各總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。
因子:試驗中會改變狀態的因素
因子水平:因子所處的狀態
單因子試驗:試驗中考察的因子只有一個
兩因子試驗、多因子試驗
方差分析的基本假定:
(1)在不同因子水平下,指標服從正態分佈
(2)在不同因子水平下,方差相等
(3)樣本數據相互獨立
方差分析的原理在於方差的可加性。
2. 單因素分析的計算公式


3. 單因素方差分析的基本步驟

  
4. 方差分析的應用
單因素方差分析用於預測數據分析,預測變量是一個分類變量,反應變量是聯繫變量。例如:會計人員是否比教師收入更多?新葯物的治療效果是否有提高?等等。
五、 簡單線性迴歸分析
1. 相關關係的概念和特點
當給定一個變量值後,另一個變量在一定範圍內變化,這種不確定關係叫做相關關係
特點:(1)兩者是相互說明的關係,不是唯一確定
(2)對大量數據觀察研究,發現許多變量之間存在一定客觀規律。
(3)散點圖中,觀測點分佈在直線或曲線周圍
2.相關關係與函數關係的聯繫區別
變量間的關係一般分爲確定性關係和非確定性關係。
函數關係式一種確定性關係。相關關係式一種非確定性關係。
函數關係:    (1)關係表現爲一種函數形式,給定自變量,有唯一的因變量對應。
(2)散點圖上,各觀測點落在一條直線或者曲線上。
相關關係:    (1)兩者是相互說明的關係,不是唯一確定
(2)對大量數據觀察研究,發現許多變量之間存在一定客觀規律。
(3)散點圖中,觀測點分佈在直線或曲線周圍
3. 相關關係的種類
(1)按照相關的方向不同分爲:正相關和負相關。
(2) 按照相關形式不同分爲:線性相關和非線性相關。
(3)按相關程度分爲:完全相關、不完全相關和不相關。
(4)按研究的變量(或因素)的多少分爲:單相關、複相關和偏相關。
4. 相關係數的意義及性質
相關分析是用相關係數(r)來表示兩個變量間相互的直線關係,並判斷其密切程度的統計方法。相關係數r沒有單位。在-1+1範圍內變動,其絕對值愈接近1,兩個變量間的直線相關愈密切,愈接近0,相關愈不密切。相關係數若爲正,說明一變量隨另一變量增減而增減,方向相同;若爲負,表示一變量增加、另一變量減少,即方向相反,但它不能表達直線以外(如各種曲線)的關係。
相關係數r=O~0.3表示相關程度低普通,相關係數r=0.3~0.5表示相關程度普通,相關係數r=0.5~0.8表示相關程度顯著,相關係數r=0.8~0.9表示相關程度高,相關係數r=0.9~1.0表示相關程度極高。
5. 相關係數的簡潔計算公式r

6.迴歸分析的概念
具有相關關係的變量間雖然不具有確定的函數關係,但是通過大量的觀測數據,可以發現它們之間存在一定的統計規律,數理統計中研究這些統計規律或者說研究變量之間相關關係的方法就是所謂的迴歸分析.它能幫助我們有效地從一個可以控制或可以精確觀察的變量取得的值去估計另一隨機變量所取的值.如用年齡估計血壓。
7.相關分析和迴歸分析的關係
在研究因變量時,一方面需要研究哪些變量與因變量相關以及關聯程度的強弱,這種研究可以稱爲相關分析。另一方面需要研究因變量與自變量之間是否具有某種數量關係,確定因變量與自變量之間的數學模型,這種研究稱爲迴歸分析。
相關分析與迴歸分析有着密切的聯繫,它們不僅具有共同的研究對象,而且基礎理論也具有一致性。在對變量研究時經常需要它們相互補充。相關分析要爲變量之間建立迴歸模型提供依據;迴歸分析揭示出變量相關的具體形式。只有當變量之間存在着高度相關時,進行迴歸分析纔可能是正確的。同理,只有通過迴歸模型掌握了變量之間關聯的具體形式,相關分析纔有意義。
雖然相關分析與迴歸分析經常同時使用,但是,它們在研究目的和方法上還是有着明顯區別的。首先,在研究目的上不同。進行相關分析是爲了得到變量間的關聯程度;二回歸分析是爲了得到因變量與自變量的關係模型。其次,在進行相關分析時,一般不需要區別因變量和自變量,且兩種變量都屬於隨機變量;而建立迴歸模型卻必須去邊因變量和自變量,並且因變量是隨機變量,自變量被看作是確定性變量。

8. 應用相關分析要注意的問題
分析的變量之間必須是有關聯的,有聯繫的,否則就算數據上有一致性,也毫無意義。
有相關關係不一定有因果關係。
9. 迴歸分析的內容和特點
   迴歸分析主要包括三方面內容:
     (1)提供建立有相關關係的變量之間的數學關係式(通常稱爲經驗公式)的一般方法;
     (2)判別所建立的經驗公式是否有效,並從影響隨機變量的諸變量中判別哪些變量的影響是顯著的,哪些是不顯著的;
     (3)利用所得的經驗公式進行預測和控制。
迴歸分析的特點:
  (1)兩個變量是不對等的  
 (2)必須區分自變量和因變量
 (3) 因變量是隨機的
  (4)自變量是可以控制的量  
10. 應用迴歸分析要注意的問題
第一,在定性分析的基礎上進行定量分析,是保證正確運用迴歸分析的必要條件。也就是說、在確定哪個變量作自變量,哪個變量作因變量之前,必須對所研究的問題有充分正確的認識。
  第二,在迴歸方程中,迴歸係數的絕對值只能表示自變量與因變量之間的聯繫程度,以及兩變量間的變動比例。因爲其值大小直接取決於變量所用計算單位的大小。
  第三,在進行迴歸分析時,爲了使推算和預測更準確,應將相關係數、迴歸方程和估計標準誤差結合使用。
  第四,要具體問題具體分析。迴歸方程是根據資料計算出來的,是一種經驗數據,如條件發生變化,則推算或預測會不準確。因此,不能機械照搬,以免造成失誤。
11.  建立一元線性迴歸模型的假設
理論模型 y=a+bx+ε  
X是解釋變量,又稱爲自變量,它是確定性變量,是可以控制的。是已知的。 
Y是被解釋變量,又稱因變量,它是一個隨機性變量。是已知的。
 a,b是待定的參數。是未知的。 
ε 是誤差項。
保證最小二乘估計是最佳無偏估計。
(1)正態性假設:要求總體誤差項服從正態分佈
(2)零均值性假設:在自變量取一定值得條件下,其總體各誤差項的條件平均值爲零。
(3)零方差性假設:在自變量取一定值得條件下,其總體各誤差項的條件方差爲一常數。
(4)獨立性假設:誤差項之間相互獨立,誤差項和自變量之間相互獨立。
12. 一元線性迴歸模型
如果我們要研究X與Y的關係,可以作線性擬合
           (2-1-1)
 我們稱(2-1-1)式爲迴歸方程,a與b是待定常數,稱爲迴歸係數。從理論上講,(2-1-1)式有無窮多組解,迴歸分析的任務是求出其最佳的線性擬合。
其中式中,Lxy稱爲xy的協方差之和,Lxx稱爲x的平方差之和

13.迴歸直線的擬合優度
擬合優度(Goodness of Fit)是指回歸直線對觀測值的擬合程度。顯然若觀測點離迴歸直線近,則擬合程度好;反之則擬合程度差。度量擬合優度的統計量是可決係數(亦稱確定係數)R ^2。
1.R^2是由自變量x1,x2,...,xk的線性迴歸等式解釋的因變量y的觀測值的變化佔總變化的比例。數值總是位於0到1之間的數。R^2越高,迴歸模型擬合的越好。(此規律也有例外。)
2.R^2的數值經常被用於測量回歸模型擬合數據的程度。然而,當能夠驗證一個迴歸模型能夠有效地用一個變量來預測另一個變量的數值時,模型本身並不能證明兩個變量之間存在因果關係。例如,考慮這樣一個例子。在冬季的幾個月裏,人們經常通過燃油取暖,因爲取暖用的燃油在冬季的銷售額比在夏天的銷售額要高。同樣,滑雪設備的銷售額在冬季也比夏天要高。事實上,如果我們打算運行一個以滑雪設備的銷售額作爲自變量x以及取暖用的燃油的銷售額作爲因變量y的迴歸模型,那麼產生的模型將是很好的模型,並具有很高的R^2數值。不過,我們知道滑雪設備的銷售額並沒有造成人們購買更多的家用取暖的燃油。
3.當迴歸直線是平行於x軸,並且與原始數據的散點圖擬合度也非常高,但R^2=0.說明一個低的R平方數值,並不一定意味着迴歸模型缺乏可信度。
4.一個高的R平方數值經常被解釋爲擬合得很好的標誌。但這也並不總是正確的。例如,R平方數值仍會很高,但原始數據的散點圖表明因變量y的觀測值用一條曲線擬合比用一條直線擬合的效果可能會更好。
結論:R平方數值有時會給出有關線性迴歸模型對數據擬合程度好的誤導信息。一般說來,較高的R平方數值比較低的R平方數值要好。接受迴歸模型足夠好的R平方數值的決定因素主要取決於這個模型的應用目的以及經驗和良好的管理知識。
14. 迴歸估計標準誤差
一元線性迴歸標準誤差公式

標準誤差越大,迴歸係數的估計值越不可靠。


15 . 線性迴歸的檢驗



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章