高級數據分析師都是怎樣操作Excel的?

網站分析中專業的工具除了Google Analytics, Adobe Sitecatalyst, Webtrends, 騰訊分析和百度統計等外,我想最常用的數據處理工具就是Excel了,Excel裏頭最基礎的就是運算和圖表的製作,稍微高級一點就是函數和數據透視表的使用了,當然你可能還會想到VBA和宏,但估計很少高手會使用這些高級的功能。

那對於高級的數據分析而言,也就是涉及統計學的專業分析方法和原理的時候,是不是就一定得求助於SPSS,SAS這類專業的分析工具呢?數據分析從低級到高級層次的跳躍過程中有沒有可以起承接作用的工具呢?

其實是有的,這就是Excel的數據分析功能。高級的數據分析會涉及迴歸分析、方差分析和T檢驗等方法,不要看這些內容貌似跟日常工作毫無關係,其實往高處走,MBA的課程也是包含這些內容的,所以早學晚學都得學,乾脆就提前瞭解吧,請查看以下內容。

在使用之前,首先得安裝Excel的數據分析功能,默認情況下,Excel是沒有安裝這個擴展功能的,安裝如下所示:

1. 鼠標懸浮在Office按鈕上,然後點擊【Excel選項】

2. 找到【加載項】,在管理板塊選擇【Excel加載項】,然後點擊【轉到】

3. 選擇【分析工具庫】,點擊【確定】

4. 安裝完後,就可以【數據】板塊看到【數據分析】功能,如下所示

安裝完後,首先來了解一下迴歸分析的內容。

迴歸分析

在詳細進行迴歸分析之前,首先要理解什麼叫回歸?實際上,迴歸這種現象最早由英國生物統計學家高爾頓在研究父母親和子女的遺傳特性時所發現的一種有趣的現象:

身高這種遺傳特性表現出”高個子父母,其後代身高也高於平均身高;但不見得比其父母更高,到一定程度後會往平均身高方向發生’迴歸’”。這種效應被稱爲”趨中迴歸”。現在的迴歸分析則多半指源於高爾頓工作的那樣一整套建立變量間的數量關係模型的方法和程序。這裏的自變量是父母的身高,因變量是子女的身高。

百度百科對於迴歸分析的定義是: 迴歸分析(regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。運用十分廣泛:

  • 迴歸分析按照涉及的自變量的多少,可分爲一元迴歸分析和多元迴歸分析

  • 按照自變量和因變量之間的關係類型,可分爲線性迴歸分析和非線性迴歸分析

應用案例

這裏舉個電商的例子:電子商務的轉換率是一定的,網站訪問數一般正比對應於銷售收入,現在要建立不同訪問數情況下對應銷售的標準曲線,用來預測搞活動時的銷售收入,如下所示:

1. 首先,利用散點圖描繪圖形


2. 添加趨勢線,並且顯示迴歸分析的公式和R平方值

從圖得知,R平方值=0.9995,趨勢線趨同於一條直線,公式是:y=0.01028x-27.424


R 平方值是介於 0 和 1 之間的數字,當趨勢線的 R 平方值爲 1 或者接近 1 時,趨勢線最可靠。因爲R2 >0.99,所以這是一個線性特徵非常明顯的數值,說明擬合直線能夠以大於99.99%地解釋、涵蓋了實際數據,
具有很好的一般性, 能夠起到很好的預測作用。


3. 使用Excel的數據分析功能


(1)點擊【數據分析】,在彈出的選擇框中選擇【迴歸】,然後點擊【確定】

(2)【X值輸入區域】選擇訪問數的單元格,【Y值輸入區域】選擇銷售額的單元格,同時勾選如下所示的選項,包括殘差、標準殘差、殘差圖、線性擬合圖和正態概率圖

(3)以下內容是殘差和標準殘差

(4以下是殘差圖

殘差圖是有關於實際值與預測值之間差距的圖表,如果殘差圖中的散點在中軸上下兩側分佈,那麼擬合直線就是合理的,說明預測有時多些,有時少些,總體來說是符合趨勢的,但如果都在上側或者下側就不行了,這樣有傾向性,需要重新處理。


(5)以下是線性擬合圖

在線性擬合圖中可以看到,除了實際的數據點,還有經過擬和處理的預測數據點,這些參數在以上的表格中也有顯示。


(6)以下是正態概率圖

正態概率圖一般用於檢查一組數據是否服從正態分佈,是實際數值和正態分佈數據之間的函數關係散點圖,如果這組數值服從正態分佈,正態概率圖將是一條直線。迴歸分析不一定得符合正態分佈,這裏只是僅僅把它描繪出來而已。


以上數據表格和圖表都說明公式y=0.01028x-27.424是一個值得信賴的預測曲線,假設搞活動時流量有50萬訪問數的話,那麼預測銷售將是51373,如下圖所示:

End.

來源:大數據分析與人工智能

本文爲轉載分享,如有侵權請聯繫後臺刪除

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章