【R語言或PYTHON語言入門必讀】大數據分析師到底需要懂什麼(二)

算法


在統計分析和數據挖掘,我們經常用的算法有二元分類器、數值預測器、迴歸、貝葉斯網絡、Logistics迴歸、判別式、兩步、序列、時間序列、QUEST、C&R樹、CHAID、GRI、Apriori、異常、特徵選擇、C5.0、神經網絡、決策列表、K-Means、Kohonen、主成分分析因子、SLRM、SYM、GenLin、Cox、Cama

常用的數據分析工具


用戶級、部門級】PPT、Swiff、ColorWheel、NetDraw、SQL、MYSQL、TABLEAU

企業級、BI級】Yed、Flex、Xcelsius、SAS、SPSS、Clementine、ORACLE、IBM、DB2

總結】ORACLE、DB2(IBM)數據庫{本身帶有統計分析的包,裏面也有標準的過程可做數據分析的工作,但總的來說不專業,缺乏在統計過程中的標準函數,比如,做一個線性迴歸模型,需要寫一個很長的SQL或者PLSQL的程序才能完成,而專業的只需要寫一個函數就可以做出來}

排名前三的巨頭專業的統計軟件


R語言:開源統計包軟件

SAS:商業、歷史最久、美國的醫學雜誌接受的文章要求裏面的統計結果必須是由SAS軟件統計出來,其他一概不認可

SPSS:歷史悠久的仿真軟件後被IBM收購,是數據挖掘的工具。在社會學研究用的比較多,市場排行第三位

Xcelsius:水晶報表在做BI和報表方面非常擅長

UCINET:社會學研究常用軟件,主要擅長畫社交關係圖

數據挖掘方面

  • 數據挖掘是以查找隱藏在數據中的信息爲目標的技術,是應用算法從大型數據庫中提取知識的過程,這些算法確定信息項之間的隱性關聯,並且向用戶顯示這些關聯。
  • 數據挖掘思想來源:假設檢驗,模式識別,人工智能,機器學習
  • 常見數據挖掘任務:關聯分析、聚類分析、孤立點分析等等
  • 例如:啤酒與尿布的故事
  • 例如:《SCIENCE》的文章《科學家探索出大型數據集內的趨勢》

展現層

其實在數據分析中有非常重要的作用,數據分析的軟件-讀數據-算數據,結果算出來之後,數據分析沒有結束,還需要展現結果,展現結果花的時間可能比數據分析還要久。下面是個非常老的報表。人對數字感覺不敏感,但對圖形感覺敏感。以下這個不能拿給老闆看。


R語言等及其他統計軟件園都支持餅圖、柱形圖、曲線圖等大部分的圖。

其實,按照我多年的經驗和數據分析彙總後的結果表示

a.如果要表達數據整體的部分的信息,主要採用餅狀圖或垂直柱

b.如果想要表達不同數據之間的對比,主要採用水平柱或者水泡

c.如果想要表達時間序列或者頻率,主要採用垂直柱或線圖

d.如果想要表達兩組數據的相關性,主要採用水平柱或水泡

e.如果想要表達和多重數據或標準相比較,主要採用維度圖


R本身也有地圖包,可以在地圖上展現數據,可以展示出如下的圖


下面這個是用R語言進行數據分析之後可視化呈現的社交網絡圖,大概描述了信息在微博中擴散的路徑情況,其中,點代表是人,發亮的地方表示信息在傳播。有一條微博可能被很多人轉發,信息擴散的圖,到了一定程度轉發越來越低,陷入低潮,突然,又被某人轉發,掀起局部的信息轉發小高潮,傳播的範圍越來越廣。這個圖對於現在的社交網絡的信息傳播,是一個很真實而又很有意思的展現。

下圖也是數據分析的結果展現。信息圖,也是數據展現工作的重要組成部分,也會給決策帶來好處,現在有一種職位叫做數據可視化工程師。這個圖反應的是使用安卓的人的特徵。


下面一張利用R語言分析得出的網頁點擊的熱力圖以及作爲大數據分析師應該分析出來的用戶在觀看網頁的時候的行爲動態和規律,進而可以分析出來廣告位的放置和廣告位的價格區域的劃分。

顏色越紅點擊越高,點擊呈現F的形狀。用戶先是橫着掃,然後越來越低,關注度也就越來越低。如果你想發佈的信息被用戶關注到,最好安排在三角區域之中


R是S語言的一種實現。S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、作圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟件,它基於S語言,並由MathSoft公司的統計科學部進一步完善。後來Auckland大學的Robert Gentleman和Ross Ihaka及其他志願人員開發了一個R系統。R的使用與S-PLUS有很多類似之處,兩個軟件有一定的兼容性。
S語言只是標準,實現可以有多種形式。Robert 主要是做生物的。LINUX也是GNU執照的東西。R也有數組、變量、條件語句、控制流以及進行專業數據分析的函數(獨有的比起C語言)、開放性很好,在包這個體系,可以自己開發。R總共有5000多個包,現在學習R最大的困擾在於,這些包我怎麼知道是做什麼的?

R is free
R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用於統計計算和統計製圖的優秀工具。
R是一套完整的數據處理、計算和製圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡單而強大的編程語言;可操縱數據的輸入和輸出,可實現分支、循環,用戶自定義功能。
R是一個免費的自由軟件,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免費下載和使用的,在那兒可以下載到R的安裝程序、各種外掛程序和文檔。在R的安裝程序中只包含了8個基礎模塊,其他外在模塊可以通過CRAN獲得。
R官方網站地址如下:
http://www.r-project.org
R的特點
1.有效的數據處理和保存機制
2.擁有一套整數組和矩陣的操作運算符
3.一系列連貫而又完整的數據分析中間工具
4.圖形統計可以對數據直接進行分析和顯示,可用於多種圖形設備。
5.一種相當完善、簡潔和高效的程序設計語言。它包括條件語句、循環語句、用戶自定義的遞歸函數以及輸入輸出接口。
6.R語言是徹底面向對象的統計編程語言
7.R語言和其他編程語言、數據庫之間有很好的接口
8.R語言是自由軟件,可以放心大膽地使用,但其功能卻不比任何其它同類軟件差。
9.R語言具有豐富的網上資源

商業版本的R
Revolution R(官網:http://www.revolutionanalytics.com/)
很多大型廠商也在開始推出自己的R或兼容R的產品,例如Oracle、IBM、Sybase。一般免費申請是可以成功。R的軟件包非常短小精悍。SAS一般是10G








發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章