沒有食材,數據分析師如何做飯?

↑ 關注 + 星標 ~ 有趣的不像個技術號

每晚九點,我們準時相約  


大家好,我是朱小五

做飯,不論色香味,最基本得有合適的“食材”,而對於數據分析師,兩大支撐之一的“數據”,就如同做飯的食材。豐富食材可以爲美味佳餚打下良好的基礎,而多維度、立體化分析就需要多樣的數據來源。

那有哪些獲取數據的渠道呢?

下面看看唐府少帥的整理:

一、埋點/日誌

商業公司,是數據分析師最大的聚集地之一,而數據分析師在其中扮演的主要角色整合商業數據,從中獲得能夠推動企業發展前進的方法,尤其是在互聯網公司,更是存儲了大量用戶行爲數據。

其中數據埋點則是最常用的網站分析的數據採集方法,主要是在公司官網、公開發布APP等的一些關鍵位置設置如點擊、曝光、頁面停留等事件,用以記錄用戶的行爲操作,形成日誌,記錄在企業數據庫中(如Orcal、SQL Server、MySQL等)。

對合理設置的埋點數據進行分析,促使我們理清用戶的行爲操作軌跡,明確用戶的行爲特徵,可以幫助我們在設計用戶畫像時維度更加立體化;也能幫助我們構建準確的客戶轉化模型,從開始引流至最終成單,構建完整銷售閉環。

而這些數據一般不對外開放,如非該公司員工,一般無法獲得查閱使用這些數據庫的權限。對於目標從事互聯網行業數據分析師的朋友,可以多瞭解關於埋點相關的知識,有助於快速搭建出準確適用的客戶模型。

二、政府網站

1、中國國家統計局

http://www.stats.gov.cn/

作爲國家統計局官方網站,不僅有國家統計局的新聞公告,也包括了大量國家層面的數據,如土地數據、人口普查數據、行政區數據、國民經濟數據等等政府官方數據,如果在做數據分析時需要類似數據,國家統計局的數據準確度最高,信息也更全面。

2、國家數據網

http://data.stats.gov.cn/

國家數據網,是國家統計局網站的一個二級網站,這裏對數據的聚集度更高,包括了國家層面方方面面的數據,如資產類數據、農業類數據、房地產類數據、社會消費類數據等等,不僅如此,還製作了很多漂亮的可視化圖表,也不失爲一個學習數據可視化的好網站。

這裏數據的豐富程度只有一個詞可以形容,那就是:只有你想不到,沒有國家做不到。

國家的政府網站會定期或不定期公開大量數據,如國家統計局、國家數據、NASA、中國產業信息等國家網站會公開大量數據。這些數據都是站在國家層面花費大量人力物力財力完成調查整理的,其數據量之龐大,維度之豐富,信息準確,遠超想象。

其中,國家統計局主要是發佈一些人口普查、經濟普查等與國民生活息息相關的數據,網站上也公開了大量數據解讀,準確幫你理解數據維度。國家數據則包含了大量產業數據,如能源產業、房地產產業、商品零售等方面的數據。NASA(美國國家航空航天局),在其網站上公佈了大量宇宙探測傳回的圖片及數據,是獲取航天信息不可多得的地方之一。

三、諮詢類公司數據報告

國內外大量數據諮詢公司定期都會發布大量報告,在報告中便會直接體現出許多數據。而且數據已經完成整理,可以拿來直接引用。經常逛逛這些公司的官網,不僅可以豐富數據獲取來源,更可以學習大公司整理數據分析報告的思路,對我們完成數據分析具有指導性意義。

下面向大家列出了一些著名的諮詢公司,每個網站都有大量可免費下載的報告。

國外:

  • 麥肯錫諮詢公司:https://www.mckinsey.com

  • 貝恩諮詢公司:http://www.bain.cn/

  • 波士頓諮詢公司:https://www.bcg.com

  • 埃森哲諮詢公司:https://www.accenture.com

國內:

  • 萬得資訊(wind):https://www.wind.com.cn/

  • 零點有數:http://www.horizon-china.com/

  • 艾瑞諮詢:http://www.iresearch.cn/

  • 易觀:https://www.analysys.cn/

  • 企鵝智酷:https://re.qq.com/

不論是國內外,都還有大量諮詢公司,上面只是列舉了一部分公司,大家也可以多搜搜諮詢公司,不僅可以獲得需要的數據,也可以多學習學習數據分析經驗以及報告展現。

四、數據競賽網站

國內外都有許多著名的數據競賽網站,在這裏聚集了大量數據分析師,甚至是數據科學家。這些網站不僅提供了大量數據,也由於專業性的比賽,也是學習數據分析的好地方,甚至贏得比賽,也能獲得不菲的佣金。在這裏向大家列舉幾個著名的數據競賽網站。

1、Kaggle(https://www.kaggle.com)

kaggle主要是爲開發商和數據科學家提供舉辦機器學習競賽、託管數據庫、編寫和分享代碼的平臺,已經吸引了許多科學家和開發者的關注甚至入駐的平臺。不過由於Kaggle的服務器不在國內,需要學會科學上網。

2、阿里天池(https://tianchi.aliyun.com)

阿里天池是國內互聯網三大巨頭BAT之一的阿里組建的數據競賽平臺,這裏也聚集了大量國內數據愛好者,尤其是高校老師和在校生參與衆多。平臺上也公開了大量數據,甚至是淘寶、天貓的用戶行爲數據,也是比賽的數據之一。

3、科賽(https://www.kesci.com)

科賽的名氣雖稍遜於前兩個平臺,但是作爲國內著名的開放數據科學社區之一,也聚集了大量數據科學方面的人才,在這裏可以學習前輩們的經驗、與大家相互交流,共同成長,同時,這裏也發佈了大量任務,通過完成任務也可以獲得相應的佣金,促進能力金錢雙豐收。

五、開放API接口

國內外,都有一些公司/機構/博客開放一些數據API給用戶使用,只要會一些編程語言,按照索命文檔進行操作,就可以直接使用這些數據,下面向大家展示一些開放的API。

1、百度數據開放平臺(https://open.baidu.com)

2、聚合數據(https://www.juhe.cn/)

3、高德地圖(https://lbs.amap.com/)

4、百度地圖(http://lbsyun.baidu.com/)

高德地圖、百度地圖等一些公司,也開放了大量可直接調用的地圖數據,尤其是在做數據展現的時候,可以直接使用,能夠在第一時間帶給人空間上的感受。

5、數據包

(TensorFlow中文社區)

在安裝R語言、SPSS、SAS、Tableau、TensorFlow等一些數據處理軟件或工具時,會有一些可以直接使用的數據,如常用的IRIS(鳶尾花數據集),Titanic(泰坦尼克生存數據集)WINE(葡萄酒數據集)等。

六、網絡爬蟲

如果上述辦法還是沒有幫到你找到合適的數據,那麼最終通過網絡爬蟲也可以獲得你最想要的數據。而常使用的網絡爬蟲工具有以下這麼多,總有一款適合你:

1、Python(https://www.python.org/)

作爲當前最接近人類的語言,Python有着衆多優勢,首當其衝是便是簡潔。站在前輩的肩膀上,甚至只需要短短兩行代碼,就可以從網絡上爬取到數據。

2、JAVA(https://www.java.com/zh_CN/)

當今最熱的話題之一便是JAVA與Python的較量,有些朋友熱衷Python,有些朋友熱衷Java,但不論選擇二者中的哪一個,都能從網絡上爬取到需要的數據。

3、PHP(https://www.php.net/)

作爲國內這兩年最熱的後端開發語言,其實PHP也能作爲爬蟲語言,這或許好多朋友沒聽說過吧。

4、Excel與Power BI

(Excel)

Power BI

作爲微軟家出的工具,如今都是大名鼎鼎。

Excel不必多說,是當今最常用的辦公軟件之一,想想多少人在簡歷上寫了熟悉Excel,可是,實話說,使用的功能還打不到其功能的十分之一。更多人不知道這兩款工具能夠直接從網絡上下載工具。

其實,從Excel 2016開始,包括Excel 2019,Excel 365就已經內置了Power Query模塊,打開這個模塊,只需要收入網址,就能智能匹配出想要下載的數據,是不是相當貼心?而Power BI則相當於Excel的升級版,其功能的強大,更是遠超想象。自2017年起,Power BI就已經超過Tableau成爲最強悍的智能數據分析工具。

5、八爪魚(https://www.bazhuayu.com/)

八爪魚作爲一款集成程度最高的一款數據採集工具,深受大量不會編程的朋友喜愛。相比於Excel而言,八爪魚更是可以採集網頁各式各樣的數據,使用起來也是相當順手,如果不想學習編程的朋友想要採集一些非常規的數據,八爪魚是個不錯的選擇呢。

以上就是爲大家整理的所有最常用的數據獲取渠道,歡迎大家分享。

如果你還有自己常用的數據獲取渠道,也歡迎留言分享~~

後臺回覆「進羣」,加入讀者交流羣~

昨日留言的所有同學,已統一+20積分

未激活的同學後臺回覆“積分”激活功能

點擊積分,瞭解積分規則~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章