數據分析(一)----- 基本概念及分析軟件安裝

一、什麼是數據分析

        專業的解釋:有針對性的收集、加工、整理數據,並採用統計、挖掘技術分析和解釋數據的科學與藝術。

        從行業的角度:數據分析是基於某種行業目的,有目的地進行收集、整理、加工和分析數據,提煉有價值信息的一個過程。

        數據分析立足於三點:一是目的,要有針對性;二是方法,統計基礎和數據挖掘;三是結果,要達到最初的目的並有較好的應用。

二、數據分析六部曲

       數據分析的過程主要包括:明確分析目的和內容、數據收集、數據處理、數據分析、數據展現和報告撰寫等六個步驟。

2.1 明確分析目的和內容

       在進行數據分析之前,數據分析師應對需要分析的項目進行一個詳細的瞭解,或者自己本身就對此分析項目所涉及的行業有比較深刻的瞭解,對其內部的運行規律即使做不到瞭如指掌,至少也要有一個整體框架上的瞭解。數據分析的對象是誰?數據分析的商業目的是什麼?最後的結果要解決什麼樣的業務問題?數據分析師對這些都要瞭然於心。對數據分析目的的把握,是數據分析項目成敗的關鍵。只有對數據分析的目的有深刻的理解,才能整理出完整的分析框架和分析思路,因爲根據不同的數據分析目的所選擇的數據分析方法是不同的。

2.2 數據收集

       當我們根據分析的目的,選定了相應的設計框架之後,一個重要的問題就出現了,如何能準確有效地收集數據,從而客觀全面地反映所要研究的問題的真實狀況。數據收集是一個按照確定的數據分析和框架內容,有目的地收集、整合相關數據的過程,它是數據分析的基礎。通常數據收集的方法包括觀察法、訪談法、問卷法、測驗法等。

2.3 數據預處理

       數據預處理是指對收集到的數據進行加工、整理,以便開展數據分析,它是數據分析前必不可少的階段。概括起來,統計數據預處理的過程包括數據審查、數據清理、數據轉換和數據驗證四個步驟。
第一步:數據審查
        該步驟檢查數據的數量(記錄數)是否滿足分析的最低要求,字段值的內容是否與研究目的要求一致,是否全面,包括利用描述性統計分析,檢查各個字段的字段類型,字段值的最大值、最小值、平均數、中位數等,記錄個數、缺失值或空值個數等。
第二步:數據清理
       該步驟針對數據審查過程中發現的明顯錯誤值、缺失值、異常值、可疑數據,選用適當的方法進行“清理”,使“髒”數據變爲“乾淨”數據,使得後續的數據分析得出可靠的結論。當然,數據清理還包括對重複記錄進行刪除。
第三步:數據轉換
       數據分析強調分析對象的可比性,但不同字段值由於計量單位等不同,往往造成數據不可比。對一些統計指標進行綜合評價時,如果統計指標的性質、計量單位不同,那麼容易引起評價結果出現較大誤差,再加上分析過程中的其他一些要求,需要在分析前對數據進行變換,包括無量綱化處理、線性變換、彙總和聚集、適度概化、規範化,以及屬性構造等。
第四步:數據驗證
       該步驟的目的是初步評估和判斷數據是否滿足統計分析的需要,從而決定是否需要增加或減少數據量。利用簡單的線性模型及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關分析、一致性檢驗等方法對數據的準確性進行驗證,確保不把錯誤和偏差的數據帶入到數據分析中。上述四個步驟是一個逐步深入、由表及裏的過程。先是從表面上查找容易發現的問題(如數據記錄個數、最大值、最小值、缺失值或空值個數等),接着對發現的問題進行處理,即數據清理;再就是提高數據的可比性,對數據進行一些變換,使數據形式上滿足分析的需要;最後則是進一步檢測數據內容是否滿足分析需要,診斷數據的真實性及數據之間的協調性等,確保優質的數據進入分析階段。

2.4 數據分析

       數據分析是指通過分析手段、方法和技巧對準備好的數據進行探索、分析,從中發現因果關係、內部聯繫和業務規律,爲商業目的提供決策參考。到了這個階段,要能駕馭數據、開展數據分析,就要涉及工具和方法的使用。其一要熟悉常規數據分析方法,最基本的是要了解例如方差、迴歸、因子、聚類、分類、時間序列等數據分析方法的原理、使用範圍、優缺點和結果的釋;其二要熟悉 1+1 種數據分析工具,Excel 是最常見的數據分析工具,一般的數據分析我們可以通過 Excel 完成,而後要熟悉一個專業的分析軟件便於進行一些專業的統計分析、數據建模等。專業的數據分析工具主要包括:SPSS、R、python、MATLAB、SAS 等。

2.5 數據展現

       一般情況下,數據分析的結果都是通過圖、表的方式來呈現的,俗話說“字不如表,表不如圖”。藉助數據展現手段,能更直觀地讓數據分析師表述想要呈現的信息、觀點和建議。常用的圖表包括餅形圖、折線圖、柱形圖/條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕雷託圖等。

2.6 報告撰寫

       最後階段,就是撰寫數據分析報告,這是對整個數據分析成果的一個呈現。通過分析報告,把數據分析的目的、過程、結果及方案完整呈現出來,以爲達成商業目的提供參考。
       一份好的數據分析報告,首先需要有一個好的分析框架,並且圖文並茂,層次明晰,能夠讓讀者一目瞭然。結構清晰、主次分明可以使閱讀者正確理解報告內容。圖文並茂可以令數據更加生動活潑,提高視覺衝擊力,有助於讀者更形象、直觀地看清楚問題和結論,從而產生思考。
        另外,數據分析報告需要有明確的結論、建議和解決方案,不僅僅是找出問題,更重要的是解決問題,否則稱不上是好的數據分析,同時也失去了報告的意義,數據分析的初衷就是爲了滿足商業目的而進行的。

三、數據分析方法簡介

      數據分析方法的選擇很重要,有時候不同的數據分析方法會得到不同的分析結果。

3.1 統計分析方法簡介

1.描述性統計分析 
       描述性統計分析(Description Statistics)是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分佈狀態、數字特徵和隨機變量之間的關係進行估計和描述的方法。描述性統計分析分爲集中趨勢分析和離中趨勢分析和相關分析三大部分。

       集中趨勢分析主要靠平均數、中數、衆數等統計指標來表示數據的集中趨勢。例如測試班級的平均成績是多少?是正偏分佈還是負偏分佈?

       離中趨勢分析主要靠全距、四分差、平均差、方差、標準差等統計指標來研究數據的離中趨勢。例如,當我們想知道兩個教學班的語文成績,哪個班級的成績分佈更分散時,就可以用兩個班級的四分差或百分點來比較。
       相關分析是研究現象之間是否存在某種依存關係,並對具體有依存關係的現象進行其相關方向及相關程度的研究。這種關係既包括兩個數據之間的單一相關關係——如年齡與個人領域空間之間的關係,也包括多個數據之間的多重相關關係——如年齡、抑鬱症發生率和個人領域空間之間的關係;既包括 A 大 B 就大(小),A 小 B 就小(大)的直線相關關係,也可以是複雜相關關係(A=YB·X);既可以是 A、B 變量同時增大的正相關關係,也可以是 A 變量增大時 B 變量減小的負相關關係,還包括兩變量共同變化的緊密程度——相關係數。實際上,相關關係唯一不研究的數據關係,就是數據協同變化的內在根據——因果系。獲得相關係數有什麼用呢?簡而言之,有了相關係數,就可以根據迴歸方程,進行 A 變量到 B 變量的估算,這就是所謂的迴歸分析。因此相關分析是一種完整的統計研究方法,它貫穿於提出假設、數據分析、數據研究的始終。

2.迴歸分析 
       迴歸分析(Regression)是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,它主要研究一個隨機變量 Y 對另一個變量(X)或一組(X1,X2,…,Xk)變量的相依關係,迴歸分析按照涉及的自變量的多少,可分爲一元迴歸分析和多元迴歸分析。按照自變量和因變量之間的關係類型,可分爲線性迴歸分析和非線性迴歸分析。此外所講的迴歸分析是指一元線性迴歸,區別於數據挖掘方法裏的多元線性迴歸和邏輯斯蒂迴歸。

3.對應分析 
       對應分析(Correspondence Analysis)又稱“關聯分析”、“R-Q 型因子分析”,通過分析由定性變量構成的交互彙總表來揭示變量間的聯繫。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關係。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。

4.因子分析 
        因子分析(Factor Analysis)是指研究從變量羣中提取共性因子的統計技術。因子分析就是從大量的數據中尋找內在的聯繫,減輕決策困難的分析方法。因子分析的方法有 10 多種,如重心法、影像分析法,最大似然解法、最小平方法、阿爾發抽因法、拉奧典型抽因法等。這些方法本質上大都屬近似方法,是以相關係數矩陣爲基礎的,所不同的是相關係數矩陣對角線上的值,採用不同的共同性估值。在社會學研究中,因子分析常採用以主成分分析爲基礎的反覆法。

5.方差分析 
        方差分析(Analysis of Variance,簡稱 ANOVA)又稱“變異數分析”、“F 檢驗”,是 R.A.Fisher發明的分析方法,用於兩個及兩個以上樣本均數差別的顯著性檢驗。由於各種因素的影響,研究所得的數據呈現波動狀。造成波動的原因可分成兩類,一個是不可控的隨機因素,另一個是研究中施加的對結果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。

3.2 數據挖掘方法簡介

1. 聚類分析

2. 分類分析

      決策樹、貝葉斯、支持向量機、隨機森林、人工神經網絡。

3. 關聯規則

4. 迴歸分析

3.3 統計分析和數據挖掘的區別和聯繫

 聯繫:

        兩者的理論都是統計基礎理論,因此很多情況下兩者是同根同源的。比如概率論和隨機事件在統計分析中常用,而在數據挖掘上樸素貝葉斯分類也是這個理論。

區別:

       數據挖掘是統計分析技術的延伸和發展;統計分析時需要進行假設,然後根據假設得到的結果來驗證假設的合理性;而數據挖掘中不需要進行假設,它的算法幫你解決了這些問題。統計分析常常研究的是一個或一組函數關係,變量和結果都較明確,而數據挖掘研究的變量及其因素較多,裏面的關係較複雜。這兩者的研究思維會有一些區別。

四、數據分析工具的安裝

 1. Excel2016上安裝分析工具

  點擊文件:

點擊選項:

點擊加載項:

選擇excel加載項後點擊轉到:

選擇分析工具庫後確定即可:

最後點擊數據,下面出現數據分析工具項表明成功,之後可以直接使用。

4.2 數據分析軟件SPSS的安裝

        軟件的下載及安裝步驟有很多,隨意網上找一下即可,但是注意安裝後需要註冊;如果安裝過程中出現讓你填註冊碼的地方可以去網上找一個可用的填上即可,如果安裝過程中沒有出現讓你填註冊碼但是報錯:could not create java virtual machine,這時候只需要找一個包含註冊序號的lservrc文件放到安裝目錄下即可。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章