大數據時代,聽阿里P8爲你解讀20個大數據熱詞,助你盡情徜徉大數據時代

前言

架構師按照專注領域不同,可分爲企業架構師、基礎結構架構師、特定技術架構和解決方案架構師等,專職架構師往往偏向基礎結構架構師和特定技術架構師,專職架構師不負責具體的業務系統,而又對所有的系統負責,很少直接負責項目,但對項目要有提前把控,面對的是更大的團隊和更大的問題域。

想要成爲專職架構師,就要明確專職架構師的職責,以下是專職架構師常見職責:

職責一:全局的技術規劃

全局技術規劃是專職架構師必須要做的工作,全局技術規劃要能非常明確的指引整個團隊在同一時間向同一個方向前進,這對架構師的心力和體力都是有很大的考驗,全局規劃不僅要與業務緊密溝通,還必須有對應的技術深度和廣度,應採取正確的方法論,勇敢做出判斷和決策!

職責二:統一的方法&規範&機制

專職架構師不僅要能夠做出全局技術規劃,還要能提供統一的方法、規範和機制以保障全局技術規劃的順利有序進行,這是一項相對複雜且繁瑣的過程,需進行全方位的拆解,直到權責清晰對等。

職責三:完備的基礎構建

基礎構建的完備程度對全局技術規劃來說是十分重要的,爲全局技術規劃得以順利實施提供了強大的武器庫,因此,專職架構師要制定完備的基礎構建。

職責四:落地的規劃纔是架構

這是對專職架構師最大的挑戰,專職架構師應實時關注全局技術規劃實施的進度,把控發展的方向,以確保與規劃預期結果保持一致!

以上是專職架構師的四大職能,想要成爲一名優秀的專職架構師要從這幾個方面着手,有針對性的分解學習,才能取得事半功倍的效果!

下面讓我們來聽聽阿里P8架構師爲我們解讀的20個大數據熱詞,看你掌握了多少,距離成爲架構師還有多少距離。

1.人工智能

 

人工智能是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。

人工智能是計算機科學的一個分支,它企圖瞭解智能的實質,並生產出一種新的能與人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。人工智能從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智能帶來的科技產品,將會是人類智慧的“容器”。

人工智能是一門極富挑戰性的科學,從事這項工作的人必須懂得計算機知識,心理學和哲學。人工智能是包括十分廣泛的科學,它由不同的領域組成,如機器學習,計算機視覺等等,總的說來,人工智能研究的一個主要目標是使機器能夠勝任一些通常需要人類智能才能完成的複雜工作。但不同的時代、不同的人對這種“複雜工作”的理解是不同的。2017年12月,人工智能入選“2017年度中國媒體十大流行語”。

2.區塊鏈

 

狹義來講,區塊鏈是一種按照時間順序將數據區塊以順序相連的方式組合成的一種鏈式數據結構, 並以密碼學方式保證的不可篡改和不可僞造的分佈式賬本。廣義來講,區塊鏈技術是利用塊鏈式數據結構來驗證與存儲數據、利用分佈式節點共識算法來生成和更新數據、利用密碼學的方式保證數據傳輸和訪問的安全、利用由自動化腳本代碼組成的智能合約來編程和操作數據的一種全新的分佈式基礎架構與計算範式。

3.迴歸分析

 

迴歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。運用十分廣泛,迴歸分析按照涉及的變量的多少,分爲一元迴歸和多元迴歸分析;按照因變量的多少,可分爲簡單迴歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分爲線性迴歸分析和非線性迴歸分析。如果在迴歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種迴歸分析稱爲一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關,則稱爲多重線性迴歸分析。

4..貪心算法

 

貪心算法(又稱貪婪算法)是指,在對問題求解時,總是做出在當前看來是最好的選擇。也就是說,不從整體最優上加以考慮,他所做出的是在某種意義上的局部最優解。

貪心算法不是對所有問題都能得到整體最優解,關鍵是貪心策略的選擇,選擇的貪心策略必須具備無後效性,即某個狀態以前的過程不會影響以後的狀態,只與當前狀態有關。

貪心算法的基本思路是從問題的某一個初始解出發一步一步地進行,根據某個優化測度,每一步都要確保能獲得局部最優解。每一步只考慮一個數據,他的選取應該滿足局部優化的條件。若下一個數據和部分最優解連在一起不再是可行解時,就不把該數據添加到部分解中,直到把所有數據枚舉完,或者不能再添加算法停止 。

5.數據挖掘

 

數據挖掘(Data mining),又譯爲資料探勘、數據採礦。它是數據庫知識發現(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘一般是指從大量的數據中通過算法搜索隱藏於其中信息的過程。數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

6.數據可視化

 

數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義爲,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量。

它是一個處於不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較爲高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。與立體建模之類的特殊技術方法相比,數據可視化所涵蓋的技術方法要廣泛得多。

7.分佈式計算

 

在計算機科學中,分佈式計算(Distributed computing,又譯爲分散式計算)這個研究領域,主要研究分散系統(Distributed system)如何進行計算。分散系統是一組電子計算機(computer),通過計算機網絡相互鏈接與通信後形成的系統。把需要進行大量計算的工程數據分區成小塊,由多臺計算機分別計算,在上傳運算結果後,將結果統一合併得出數據結論的科學。

8.分佈式架構

 

分佈式架構是分佈式計算技術的應用和工具,目前成熟的技術包括J2EE, CORBA和.NET(DCOM),這些技術牽扯的內容非常廣,相關的書籍也非常多,本文不介紹這些技術的內容,也沒有涉及這些技術的細節,只是從各種分佈式系統平臺產生的背景和在軟件開發中應用的情況來探討它們的主要異同。

9.Hadoop

 

Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。

Hadoop實現了一個分佈式文件系統,簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有着超大數據集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統中的數據。

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,則MapReduce爲海量的數據提供了計算。

10.結構化數據

 

結構化數據,簡單來說就是數據庫。結合到典型場景中更容易理解,比如企業ERP、財務系統;醫療HIS數據庫;教育一卡通;政府行政審批;其他核心數據庫等。

基本包括高速存儲應用需求、數據備份需求、數據共享需求以及數據容災需求。

11.非結構化數據

 

非結構化數據庫是指其字段長度可變,並且每個字段的記錄又可以由可重複或不可重複的子字段構成的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)。

12.數據清洗

 

 

數據清洗從名字上也看的出就是把“髒”的“洗掉”,指發現並糾正數據文件中可識別的錯誤的最後一道程序,包括檢查數據一致性,處理無效值和缺失值等。因爲數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有衝突,這些錯誤的或有衝突的數據顯然是我們不想要的,稱爲“髒數據”。我們要按照一定的規則把“髒數據”“洗掉”,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之後再進行抽取。數據清洗與問卷審覈不同,錄入後的數據清理一般是由計算機而不是人工完成。

13.算法

 

算法(Algorithm)是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,算法代表着用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規範的輸入,在有限時間內獲得所要求的輸出。如果一個算法有缺陷,或不適合於某個問題,執行這個算法將不會解決這個問題。不同的算法可能用不同的時間、空間或效率來完成同樣的任務。一個算法的優劣可以用空間複雜度與時間複雜度來衡量。

14.深度學習

 

深度學習的概念源於人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現數據的分佈式特徵表示。

深度學習概念於2006年提出。基於深信度網(DBN)提出非監督貪心逐層訓練算法,爲解決深層結構相關的優化難題帶來希望,隨後提出多層自動編碼器深層結構。此外,卷積神經網絡是第一個真正多層結構學習算法,它利用空間相對關係減少參數數目以提高訓練性能。

深度學習是機器學習研究中的一個新的領域,其動機在於建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像,聲音和文本。

15.人工神經網絡

 

人工神經網絡(Artificial Neural Networks,簡寫爲ANNs)也簡稱爲神經網絡(NNs)或連接模型(Connection Model),它是一種模仿動物神經網絡行爲特徵,進行分佈式並行信息處理的算法數學模型。這種網絡依靠系統的複雜程度,通過調整內部大量節點之間相互連接的關係,從而達到處理信息的目的。

16.隨機森林

 

在機器學習中,隨機森林是一個包含多個決策樹的分類器, 並且其輸出的類別是由個別樹輸出的類別的衆數而定。 這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decision forests)而來。這個方法則是結合 “Bootstrap aggregating” 想法和 ”random subspace method” 以建造決策樹的集合。

17.支持向量機

 

在機器學習領域,支持向量機SVM(Support Vector Machine)是一個有監督的學習模型,通常用來進行模式識別、分類、以及迴歸分析。

SVM的主要思想可以概括爲兩點:⑴它是針對線性可分情況進行分析,對於線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化爲高維特徵空間使其線性可分,從而使得高維特徵空間採用線性算法對樣本的非線性特徵進行線性分析成爲可能。

18.辛普森悖論

 

辛普森悖論又譯爲辛普森詭論,爲英國統計學家E.H.辛普森(E.H.Simpson)於1951年提出的悖論,即在某個條件下的兩組數據,分別討論時都會滿足某種性質,可是一旦合併考慮,卻可能導致相反的結論。

當人們嘗試探究兩種變量是否具有相關性的時候,比如新生錄取率與性別,報酬與性別等,會分別對之進行分組研究。辛普森悖論是在這種研究中,在某些前提下有時會產生的一種現象。即在分組比較中都佔優勢的一方,會在總評中反而是失勢的一方。該現象於20世紀初就有人討論,但一直到1951年E.H.辛普森在他發表的論文中,該現象纔算正式被描述解釋。後來就以他的名字命名該悖論。

爲了避免辛普森悖論的出現,就需要斟酌各分組的權重,並乘以一定的係數去消除以分組數據基數差異而造成的影響。同時必需瞭解清楚情況,是否存在潛在因素,綜合考慮。

19.數據科學家

 

數據科學家是指能採用科學方法、運用數據挖掘工具對複雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,並能尋找新的數據洞察的工程師或專家(不同於統計學家或分析師)。一個優秀的數據科學家需要具備的素質有:懂數據採集、懂數學算法、懂數學軟件、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。

20.雲計算

 

雲計算(cloud computing)是基於互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。雲是網絡、互聯網的一種比喻說法。過去在圖中往往用雲來表示電信網,後來也用來表示互聯網和底層基礎設施的抽象。因此,雲計算甚至可以讓你體驗每秒10萬億次的運算能力,擁有這麼強大的計算能力可以模擬核爆炸、預測氣候變化和市場發展趨勢。用戶通過電腦、筆記本、手機等方式接入數據中心,按自己的需求進行運算。

看完之後,是不是對大數據這20個熱詞有更多的瞭解了呢?是不是心裏面有一個明確的路線了呢?

下面爲大家準備了學習大數據需要學習的知識技術文檔,也希望大家能夠喜歡,包括:spark、Hadoop、大數據算法、離線和實時大數據開發實戰、機器學習算法大集結等等。

 

 

 

有需要的小夥伴可以關注小編,並私信回覆【大數據】來免費領取吧

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章