手把手教你開始第一次的可視化數據分析(多圖預警)- 1

這是一篇給朋友的數據分析入門隨筆,也同時分享給你,希望對你有用。這次打算帶着你開始第一次有意思的可視化數據分析,從芝加哥紅綠燈和速度攝像頭的公共數據中發掘各種隱藏的信息。Realy hope you joy in it.

首先要準備兩樣東西,Tableau和數據

Tableau

這裏可以下載最新的桌面版Tableau,https://www.tableau.com/zh-cn/products/trial

這東西很好用,行業內很多公司都在使用Tableau(Server版)做爲內部BI的主要基礎或補充。如果你希望在數據分析上深入一些,可以去淘寶上買個序列號,一年的桌面版tableau大概在100塊左右;如果你只是想先玩玩,14天的桌面版試用,應該也可以感受到熱情是否存在。

數據源

先列一些你可能你能夠輕鬆拿到的數據源,他們可以幫助你快速上手,跳過獨立採集數據的過程,直接從陌生的數據中去發現一些未知的東西。我覺得這能更快更好地幫助你就建立正反饋循環。

- Kaggle:https://www.kaggle.com/datasets

- 一個美國數據導航:https://datausa.io/

- 美國政府開放數據平臺(可能需要科學上網):https://www.data.gov/

- 國內的一些政府開放數據平臺,自己百度吧

這次用到的數據是:https://www.kaggle.com/chicago/chicago-red-light-and-speed-camera-data#red-light-camera-locations.csv 如下圖(我相信你能找得到Google的網頁翻譯,也能找得到下載按鈕,就不細說了)

需要單獨提一句的是,你可能不知道這些字段到底代表什麼,他們是怎麼採集來的,balabala……很多數據源會有標註,比如下圖,他們通常能解決你的大部分疑惑(通常我們會管它叫做“元數據”,metadata,意爲描述數據的數據)

ok,準備工作到此已經做完了,下面就要開始手把手教你了。

(什麼?要我教你如何安裝Tableau?朋友,聽說過百度嗎?)

先點擊左側的連接到“文本文件”,找到你解壓出的數據文件“speed-camera-violations.csv”,這是芝加哥各測速攝像頭從2014年至今按日計算的違規數

打開之後大概是如下的樣子,從左到右分別是地址,攝像頭ID,違規日期,違規次數,balabala……

有時間,有對應的數據量,我們會很直接的想按時間看看違規量的變化,看看交通狀況的變化趨勢是好是壞。我們先點左下角的標籤,進入工作表開始探索,如果你想改表名,雙擊標籤就能修改。

一般來講,我們會習慣把自變量放在橫軸,因變量放在縱軸上。那麼這次我們先試着把時間放到橫軸,違規量放到縱軸上,大概如下圖。

是不是覺得只按年看數據,有點不能滿足自己的好奇心?點擊藍色的“時間”標籤,能調整時間的粒度。

這次我們就稍進一步,按xx年第x季度的順序來查看,是不是發現了什麼?整體呈現非常明顯的下降趨勢,我們可以簡單地假設,芝加哥的交通環境在不斷變好。但是有沒有可能是其他情況造成了這樣的數據變化呢?會不會是城市交通太過擁擠,導致給你超速的機會少了呢?所以想想看,如果你想證明這是交通好轉而不是惡化,還需要什麼數據做支撐呢?

再仔細看下去,是不是發現了點規律性的波動?似乎每年的第2季度都是一年中違規量總和最高的時候,那這代表什麼呢?通常情況下,我們看到季度波動會直接聯想到天氣,那是不是可以關聯上芝加哥的天氣數據來做進一步的分析?

時序性的分析就點到爲止,爲你提供幾個方向,供你去探索一下:

- 月度、周度會不會有週期性的波動呢

- 如果不止看違規總量,看看各攝像頭的違規中位數、平均數,會不會發現更多呢

下面我們來試試更有意思的,攝像頭都會有地理座標,那麼我們把數據放到地圖上來看,是不是會更有趣?把經度、維度放到橫縱軸上,把違規量當作圓大小的變量,一張地理可視化數據圖就做出來了。

那麼我們可不可以探索更多,比如工作日和週末會不會影響各個攝像頭的違規量?這裏要先寫點函數,讓我們獲取到今天是工作日還是休息日。(國外通常以週日爲一週第一天,這點要注意一下)

```

IF DATEPART('weekday', [VIOLATION DATE])=1 OR DATEPART('weekday', [VIOLATION DATE])=7

THEN "休息日"

ELSE "工作日"

END

```

成圖就是如下這樣,橙色的正方形指的是休息日,藍色的菱形是工作日,圖標的大小受14年-18年該攝像頭記錄的違規數量的日中位數影響

那麼,你能不能發現些什麼呢?

如果你,對這篇隨筆感興趣,或者發現了什麼,歡迎留言。

如果你感興趣,我會續着,寫寫Tableau上聚類應用,看Tableau的分類結果,跟你對這幅圖的解讀是否相同。


就像開頭說的,這起初是一篇給朋友的數據分析入門隨筆,可能會有些囉嗦,可能寫的深度忽淺忽深,總之,讀到這裏不容易,感謝閱讀。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章