如何迅速成爲一名數據分析師?

數據分析最重要的可能並不是你熟悉的編程工具、分析軟件,或者統計學知識,而是清楚你所使用的統計知識(統計學、計量、時間序列、非參數等等)背後的原理、假設及其侷限性,知道各種數據分析工具(例如數據挖掘)能帶來什麼,不能帶來什麼,看到一組統計檢驗的結果你能言說什麼,不能言說什麼。

這一切的背後,需要一套完整的「科學」邏輯框架,讓你瞭解自己手中的工具的本質,你才能從數據中「正確地」發現有效的信息,而不是胡亂地使用一大堆自己都搞不清楚的工具來堆砌分析結果,這樣得到分析結果不僅無用,而且有害。

知道了這些後,希望成長爲「數據分析師」,就需要着手訓練自己的能力和洞察力。既然是「數據分析師」,那就分別從「數據」和「分析」兩方面入手。

「數據」當然包含了數據收集、處理、可視化等內容,每個環節對於最後的結果都有關鍵性的影響。其中涉及的技術性內容只是一部分而已,更重要的是你要理解數據收集(是否存在採樣偏差?如何糾正或者改進?)、處理(是否有漏洞或異常情況沒有考慮?)背後的邏輯。

例如:如果分析股票數據用於設計交易策略,那麼你不僅需要明白數據處理本身的問題,還要清楚金融市場的基本知識。例如,使用股票價格時,到底要用收盤價,還是復權價;復權價的話要用前復權價還是後復權價。這些選擇與數據分析沒有太大的關係,純粹決定於你分析的目的是什麼。因此你要充分了解這些概念背後的邏輯、動機是什麼,才能正確地根據自己的目的作出選擇。

數據可視化更多的是一門藝術:如何把信息以最恰當的方式呈現給希望獲得這些信息的人。首先,你要充分理解這些信息究竟是什麼,有什麼特點,你才能較爲恰當的選擇採用的可視化工具。

另外一部分就是「分析」。當然就是各種分析模型,還是需要了解這些模型背後的邏輯,要放到整個項目的上下文中去看,而不是單純地在模型中看。

總而言之,「理解」數據以及其中的信息是非常重要的,這決定了你的分析和呈現的方法是否合適,決定了最後的結論是否可靠。

現在可以回答題主的問題了:成長爲一個數據分析師,要注意「理解」你的知識,形成一個系統,而不是像機器人一樣機械地胡亂套用模型。在這個理念下訓練你的編程能力,瞭解你所分析對象的原理和儘可能多的細節。在這個基礎上,才能談數據分析。

想從事大數據工作,如何自學打基礎

本文將介紹幾本書籍,供各位想從事大數據、海量數據處理相關的工作的同學學習。

大數據

海量數據分成兩塊,一是系統建設技術,二,海量數據應用。

先說系統建設,現在主流的技術是HADOOP,主要基於mapreduce的分佈式框架。目前可以先學習這個。但是我的觀點,在分佈式系統出來之前,主要是集中式架構,如DB2,oracle。爲什麼現在用分佈式架構,那是因爲現在集中式架構受限於IO性能,出來速度慢,如果又一種硬件技術,可以很快地處理海量數據,性能上能滿足需求,那麼集中式架構優於分佈式架構,因爲集中式架構穩定,運維壓力小。現在的集中式架構要麼性能達不到要求,要麼就是過於昂貴。我期待一種技術出現,可以非常快地傳輸和處理數據,那麼集中式架構將再次進入人們眼球。再說海量數據應用。海量數據應用主要是數據挖掘和機器算法。具體有不同的應用場景,如個性化搜索和推薦,社交網絡發現,精準營銷,精準廣告,實時最優路徑,人工智能等等。看你想做系統支撐技術還是與業務結合的應用技術。

如果現在學系統建設技術,可以讀下如下書籍:

系統建設技術書籍

如果學數據挖掘和機器算法,推薦先看數據挖掘導論,統計分析原理,Mahout,R,MATLAB



發佈了11 篇原創文章 · 獲贊 13 · 訪問量 17萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章