基於SPSS的中國消費者信心指數影響因素分析-----相關性分析

說明：本案例基於spss數據分析與挖掘實戰案例精粹----第10章

案例背景：對受訪者的背景資料對消費者信心指數的影響加以研究，並進一步考察其內部的詳細作用方式；

分析方法：使用方差分析對自變量進行篩選，然後建議多元迴歸方差，進一步考察變量的影響，在此基礎上，有利用最優尺度迴歸深入探討自變量可能的各種複雜作用趨勢，並利用多水平模型深入分析了信心指數變異在時間水平上的情況；

消費信心指數計算主要變量：

1、與一年前相比，您的家庭現在的經濟狀況怎麼樣？

2、與現在相比，一年後您的家庭經濟狀況將會如何變化？

3、與現在相比，您認爲1年以後本地區的經濟發展狀況將會如何？

4、與現在相比，您認爲5年後本地區的經濟將會出現怎樣的變化？

5、對於大宗耐用消費品的購買，比如家用電器，電腦以及高檔傢俱，您認爲當前是購買的好時機嗎？

分析思路與商業理解：

1、考慮建立一個標準的一般線性模型(因變量暫無)，由於候選因變量較多，因此擬合方差分析模型是比較常見的做法：

2、由於信心指數會隨着時間而發生變化，因此也要考慮時間的影響，（個人認爲時間或許有一定的相關關係，但是沒有因果關係），其次不同的地域也會有影響；

3、信心指數的研究比較特殊，一般而言，在對多道題目進行信息彙總時，最佳的方式是進行主成分提取，但信心指數的計算方式是固定的相加算式；

4、分目標中需要考慮各影響因素的作用能否細分至5個分項指標，可以首先利用總信心指數的模型篩選出影響因素。然後將各題目作爲因變量，建立相應的分析模型；可能存在某個因素對分項指標有影響，但是對總指標沒有影響的情況，但是本案例並不考慮；

數據探索：

1）考察時間，地域對信心指數的影響；

“圖形”----“構建圖形程序”；選擇“直方圖”並拖入畫布；將變量“index1”放入橫座標；在“元素屬性”的對話框中選擇“顯示正態曲線”---應用；切換至“組/點ID”----“行嵌板變量”；將“s0”拖入“嵌板”中；“選項”---“換行嵌板”；

“圖形”----“構建圖形程序”；選擇“多重線圖”---“time”橫座標，“index1”縱座標，“城市s0”“顏色”；雙擊“顏色”----分組區域改爲“圖案”，確定；在繪製的圖形中，雙擊圖形進行編輯，更改y軸刻度值

從分佈圖來看，均成正態分佈，且分佈無明顯差異；3個地區的信心指數變化規律不一，廣州相對而言變化比較平緩，上海則跌漲幅最大；2008年以前，三地去信心指數差異較大，但2009年年末，指數差異縮小，城市與月份可能存在交互作用，後續建模分析中應加以注意；

2）考察性別，職業，婚姻狀況等對信心指數的影響；

建立條形圖；圖表完成後對圖形進行編輯（選中類別分類軸，“類別”---“排序依據”---“統計”--“降序”）

根據圖表可看出：信心指數在男女之間無明顯差異；在大專，本科學歷範圍時平均水平達到更高；未婚人羣信心指數最高；家庭月收入在2000以下時，信心指數隨收入的上升而上升，隨後保持穩定

3）考察年齡對信心指數的影響；

簡單散點圖---S3橫座標，index1縱座標---確定；

編輯圖形----元素----總計擬合線----Loess---應用

結論：1）隨着年齡的上升，信心指數有下降的趨勢；線性模型也呈現這樣的趨勢；2）存在信心指數異常點（0），可以回影響建模質量；

標準GLM框架下的建模分析：

“分析”----“一般線性模型”----“單變量”；

“因變量”----“index1”；“固定因子”----“time”，“城市s0”，“性別S2”，“學歷S4”，“職業S5”，“婚姻狀況S7”，“家庭月收入S9”；“協變量”----“年齡S3”；"模型“-----將各因子的主效應選入模型框；“保存”----“未標準化的預測值”，“標準化殘差”；“選項”----“缺乏擬合優度檢驗”；確定

主要查看sig項，看變量是否存在統計學意義；

上表檢驗的是當前模型用於擬合樣本數據是否具有足夠的擬合優度或者說與納入的全部主效應和交互效應的模型（全模型）相比當前模型對樣本信息的解釋程度是否充分，兩者的差異是否具有統計學意義；若有差異，則意味着還有交互項需要納入；

在一般線性模型中加入兩兩比較：

在前面的基礎上：“選項”----“time，s0，s4”等----“顯示均值”----選中“比較主效應”---置信區間選選擇“Bonferroni”

上圖的兩個表中：第一個表，檢驗統一分類變量的不同屬性之間是否存在顯著差異；第二表，檢驗的是這一分類變量對因變量（信心指數）是否有有影響（0.025）；

多元方差分析模型的結果：

目的與問題：1）信心指數是由5個分項指標構成的，可以考慮將5個指標作爲因變量進行考察？2）5個變量之間存在關聯，那麼將5個指標作爲因變量進行建模分析，那麼相應的變量篩選結果會有差異嗎？

多元方差分析回答問題：1）自變量的變化是否對因變量有顯着影響？2）因變量之間的關係是什麼？3）自變量之間有什麼關係？

使用條件：1）各因變量服從多元正態分佈（可以降低爲每個反應變量服從正態分佈---多元正態分佈的必要條件）2）相互獨立，且各組觀察對象反應變量的方差協方差矩陣相等；

擬合優度檢驗：卡方統計量進行統計顯著性檢驗的重要內容之一。它是依據總體分佈狀況，計算出分類變量中各類別的期望頻數，與分佈的觀察頻數進行對比，判斷期望頻數與觀察頻數是否有顯著差異，從而達到從分類變量進行分析的目的。

spss操作：分析----一般線性模型----多變量；將5個指標放入“因變量";將”月份，城市，職業，家庭月收入“選入”固定因子";將“年齡"放入”協變量"；“模型”----“將各因素的主效應選入模型對話框”；“選項”----“缺乏擬合優度檢驗”；“確定”；

部分結果如下：

兩兩比較：在前面操作基礎上------“選項”-----將“time，s0，s5，s9”選入“顯示均值”----選中“比較主效應”----“置信區間調節----Bonferroini”

最優尺度迴歸：統計建模時對分類變量進行量化的問題；

操作步驟：分析----迴歸----最佳尺度；“因變量”----“index1”；“定義變量”----“數字”；將其他自變量選入“自變量框”---“定義度量”----“名義”；“離散化”---所有變量“秩”；“缺失”----所有變量“爲缺失值歸因（附加類別）”；“繪製”---所有變量“轉換圖”；--確定

相關分析（Correlations）：自變量對因變量的相關性分析，

影響重要性：自變量在模型中的重要性百分比，負數說明重要性很低；

容差：該變量對因變量的影響中不能被其他自變量所解釋的比例，容差越大越好；

總結：什麼時候選擇簡單模型，什麼時候選擇複雜模型？

1、當對數據不清楚時，儘量採用簡單的模型，快速、清晰的抓住數據間的主要關聯

2、如果已知模型在方法學上有某些缺陷，從而擔心相應的問題可能影響分析結果，可以在已有結果的基礎上，採用其他方法進行探索；

3、隨着分析的深入，可能出現所使用的簡單模型無法滿足的分析需求，在此基礎上構建較爲複雜的模型

基於SPSS的中國消費者信心指數影響因素分析-----相關性分析

Spring Cloud 部署時如何使用 Kubernetes 作爲註冊中心和配置中心

生鮮電商行業以及APP體驗分析

第六章-酸奶飲料新產品口味測試研究案例

基於集成算法GBDT和RandomForest的投票組合模型的異常檢測----python數據分析與數據運營

基於SPSS的中國消費者信心指數影響因素分析-----相關性分析

利用SPSS實現邏輯迴歸，樹模型，以及廣義線性模型

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結