本文旨在探索紐約城市市民的打車出行習慣,通過對145萬餘條數據的定量分析,針對提出的問題相應地得出了些許結論。並在文末分析了日後可以進一步拓展的探索方向。
數據來自於kaggle,選用train.csv中的數據記錄進行相關數據分析,使用Python作爲分析工具。
數據來源:Kaggle|New York City Taxi Trip Duration
也可參考紐約市出租車和轎車委員會發布的歷史數據集: NYC|(TLC Trip Record Data
過程設計:
- 提出問題
- 理解數據
- 數據清理
- 數據分析
- 得出結論
一、提出問題
根據已有數據分析:
1、何時爲打車需求高發期?
2、居民夜生活活躍情況?
3、城市一天的什麼時候最爲擁堵?
4、什麼時間容易接到長途單?
二、瞭解數據
表單說明:
id - 每次行程的唯一ID
vendor_id - 行程提供者的ID
pickup_datetime - 上車的日期和時間
dropoff_datetime - 停表的日期和時間
passenger_count - 車輛中的乘客數量(駕駛員輸入值)
pickup_longitude - 上車的經度
pickup_latitude - 上車的緯度
dropoff_longitude - 下車經度
dropoff_latitude - 下車的緯度
store_and_fwd_flag - 行程記錄是否爲存儲轉發(或是直接發送)– Y =存儲和轉發 N =沒有存儲
trip_duration - 行程持續時間(秒)
四、 數據分析與可視化
分析一:何時爲打車需求高發期
在2016年1月至6月這段時期裏,月行程單數最多的月份是3/4/5月份,日均訂單最多的月份是4/3/2月份。
差異性說明了在分析月份相關的數據時要考慮到每月天數的影響。由於每個月的天數不一樣,分析時應以日爲維度。
1、1月份和5月末出現了異常低值,需要找到其原因。
2、通過觀察可以看出,訂單數量隨日期的變換呈規律性的波動(不考慮異常值),但是根據右圖可以看出與日期爲幾號相關性不大,據此推測訂單數量可能與星期幾有關。
“1、1月份和5月末出現了異常低值,分析其原因。”
—- 調查結果:
(1)美遭暴風雪襲擊 紐約時報廣場飛雪飄零_網易新聞
2016-1-24 · 當地時間2016年1月23日,美國紐約,美國遭遇暴雪天氣,暴雪中的時報廣場。
(2)突發!紐約地鐵一日接連發生兩起死亡事故 –國際–人民網
29日,紐約地鐵接連發生了兩起死亡事故,分別造成一名男性和一名女性死亡。
(3)陣亡將士紀念日 (5月的最後一個星期一)
中新網5月30日電 據美媒報道,美國迎來“國殤日”長週末,標誌着夏季的正式開始。
(4)紐約將迎“曼哈頓懸日”奇觀 夕陽餘暉盡染
與此同時,每年僅出現2次的盛景“曼哈頓懸日”(Manhattanhenge)也將光臨紐約。
接下來研究星期對乘車的影響:
上圖圖一展示了在2016年1月1日至2016年6月30日這半年內,每日訂單總量、每日乘客數隨日期的波動。
上圖圖二展示的是單均乘客數隨日期的波動。這說明在週期的某一階段,不僅訂單數量增多,而且人們偏向於結伴出行。
“2、推測訂單數量可能與星期幾有關”—- 分析結果:
圖一是星期一到星期日,訂單總數、乘客總數的變化趨勢,從中可以看出從週一到週六,訂單數量和乘客人數呈線性增長,週日回落至與週二同等水平,這說明市民在週五、週六打車出行的頻次最高。這可能來自兩種原因:一種可能是人們在週五週六更願意出門,第二種可能是人們在週五週六更願意選擇打車。
圖二是星期一到星期日,單均乘客數的變換趨勢,從中可以看出週六、週日爲多人拼車高發期,據合理推測,應該是週末放假而導致的結伴出行的機率升高的緣故。
從圖中可以看出:
(1)早高峯表現不顯著,從早5點開始,訂單量由谷底回升,到達約早8點後訂單量開始趨於穩定,在一段時間內波動不明顯。
原因推測:1、市民上班的出行需求被公共交通、私家車等分擔,不會偏好於出租車出行;2、市民的上班時段不集中
(2)晚高峯表現顯著,從晚5點半開始訂單量有小規模增長,約晚7點進入打車最高峯,且在23點之前的平均打車量要高於白天時段。
原因推測:1、相比於早間,市民在晚間外出活動時更偏向於出租車出行。
(3)下午時段,16:40左右出現訂單量回落。
原因推測:1、司機交班;2、道路擁堵。
分析二:居民夜生活活躍情況?
紐約市民夜生活活躍情況:從23點開始,訂單量顯著下降,這一下降持續到約早5點,早5點是一天內訂單量最低的時刻。
分析三: 城市的一天什麼時候最爲擁堵?
問題轉化爲:行駛速度最高/低的時刻
由圖可以看出,行駛速度在一天內可以大致分爲三個階段:
階段一:08:00-20:00
這段時間的車輛行駛速度是三個階段中最低的,這也是白天人們活動比較活躍的時段,速度基本穩定在同一水平,不存在明顯的極值。
階段二:20:00-03:00
這一階段開始,車輛的行駛速度有微弱的上升趨勢,階段的平均速度相較於階段一來說高出大概1/3的水平。
階段三:03:00-08:00
在這段時間,車輛的行駛速度先是明顯上升,在約5點的時刻顯著回落。這告訴我們清晨五點是紐約這座城市的甦醒時刻。
分析四:什麼時間容易接到長途單
時間和訂單路程距離是否有關係呢?接下來進入分析
分析結果:在凌晨時段最容易接到長途單,在5點左右最爲明顯。
另外,看到圖形時有種似曾相識的感覺,原來與行駛速度的圖形十分相似。是相關關係還是因果關係呢?
總結
分析到此告一段落,其實這個數據還有值得分析的地方,比如,結合地理位置的數據,可以根據區域劃分出不同行政區的乘客行爲特點。對城市有更爲細緻的詮釋。
還可以分析哪些時段的哪些區域更容易發生訂單,這對出租調度來說是個有效數據。
從暴雪帶來的異常值可以推測,天氣與訂單量是有密切關係的,根據日期對應天氣數據,可以進一步分析天氣與訂單量的影響。結合位置數據,還可以分析哪些區域受天氣的影響較大,等等。
另外機場、車站,作爲比較有特點的地理位置,也可以單獨作爲一類來研究。
另外如果進一步獲取更多時間軸上的數據,也可探索更多例如同比分析、環比分析的方法,並且可以進一步提升結論的可靠性。
預留問題:
–上車位置最多的地方,下車位置最多的地方?人都去哪了?
–行旅出差人士行爲偏好?