手把手教你开始第一次的可视化数据分析(多图预警)- 1

这是一篇给朋友的数据分析入门随笔,也同时分享给你,希望对你有用。这次打算带着你开始第一次有意思的可视化数据分析,从芝加哥红绿灯和速度摄像头的公共数据中发掘各种隐藏的信息。Realy hope you joy in it.

首先要准备两样东西,Tableau和数据

Tableau

这里可以下载最新的桌面版Tableau,https://www.tableau.com/zh-cn/products/trial

这东西很好用,行业内很多公司都在使用Tableau(Server版)做为内部BI的主要基础或补充。如果你希望在数据分析上深入一些,可以去淘宝上买个序列号,一年的桌面版tableau大概在100块左右;如果你只是想先玩玩,14天的桌面版试用,应该也可以感受到热情是否存在。

数据源

先列一些你可能你能够轻松拿到的数据源,他们可以帮助你快速上手,跳过独立采集数据的过程,直接从陌生的数据中去发现一些未知的东西。我觉得这能更快更好地帮助你就建立正反馈循环。

- Kaggle:https://www.kaggle.com/datasets

- 一个美国数据导航:https://datausa.io/

- 美国政府开放数据平台(可能需要科学上网):https://www.data.gov/

- 国内的一些政府开放数据平台,自己百度吧

这次用到的数据是:https://www.kaggle.com/chicago/chicago-red-light-and-speed-camera-data#red-light-camera-locations.csv 如下图(我相信你能找得到Google的网页翻译,也能找得到下载按钮,就不细说了)

需要单独提一句的是,你可能不知道这些字段到底代表什么,他们是怎么采集来的,balabala……很多数据源会有标注,比如下图,他们通常能解决你的大部分疑惑(通常我们会管它叫做“元数据”,metadata,意为描述数据的数据)

ok,准备工作到此已经做完了,下面就要开始手把手教你了。

(什么?要我教你如何安装Tableau?朋友,听说过百度吗?)

先点击左侧的连接到“文本文件”,找到你解压出的数据文件“speed-camera-violations.csv”,这是芝加哥各测速摄像头从2014年至今按日计算的违规数

打开之后大概是如下的样子,从左到右分别是地址,摄像头ID,违规日期,违规次数,balabala……

有时间,有对应的数据量,我们会很直接的想按时间看看违规量的变化,看看交通状况的变化趋势是好是坏。我们先点左下角的标签,进入工作表开始探索,如果你想改表名,双击标签就能修改。

一般来讲,我们会习惯把自变量放在横轴,因变量放在纵轴上。那么这次我们先试着把时间放到横轴,违规量放到纵轴上,大概如下图。

是不是觉得只按年看数据,有点不能满足自己的好奇心?点击蓝色的“时间”标签,能调整时间的粒度。

这次我们就稍进一步,按xx年第x季度的顺序来查看,是不是发现了什么?整体呈现非常明显的下降趋势,我们可以简单地假设,芝加哥的交通环境在不断变好。但是有没有可能是其他情况造成了这样的数据变化呢?会不会是城市交通太过拥挤,导致给你超速的机会少了呢?所以想想看,如果你想证明这是交通好转而不是恶化,还需要什么数据做支撑呢?

再仔细看下去,是不是发现了点规律性的波动?似乎每年的第2季度都是一年中违规量总和最高的时候,那这代表什么呢?通常情况下,我们看到季度波动会直接联想到天气,那是不是可以关联上芝加哥的天气数据来做进一步的分析?

时序性的分析就点到为止,为你提供几个方向,供你去探索一下:

- 月度、周度会不会有周期性的波动呢

- 如果不止看违规总量,看看各摄像头的违规中位数、平均数,会不会发现更多呢

下面我们来试试更有意思的,摄像头都会有地理座标,那么我们把数据放到地图上来看,是不是会更有趣?把经度、维度放到横纵轴上,把违规量当作圆大小的变量,一张地理可视化数据图就做出来了。

那么我们可不可以探索更多,比如工作日和周末会不会影响各个摄像头的违规量?这里要先写点函数,让我们获取到今天是工作日还是休息日。(国外通常以周日为一周第一天,这点要注意一下)

```

IF DATEPART('weekday', [VIOLATION DATE])=1 OR DATEPART('weekday', [VIOLATION DATE])=7

THEN "休息日"

ELSE "工作日"

END

```

成图就是如下这样,橙色的正方形指的是休息日,蓝色的菱形是工作日,图标的大小受14年-18年该摄像头记录的违规数量的日中位数影响

那么,你能不能发现些什么呢?

如果你,对这篇随笔感兴趣,或者发现了什么,欢迎留言。

如果你感兴趣,我会续着,写写Tableau上聚类应用,看Tableau的分类结果,跟你对这幅图的解读是否相同。


就像开头说的,这起初是一篇给朋友的数据分析入门随笔,可能会有些啰嗦,可能写的深度忽浅忽深,总之,读到这里不容易,感谢阅读。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章