原创 spark core之RDD編程(五)

  spark提供了對數據的核心抽象——彈性分佈式數據集(Resilient Distributed Dataset,簡稱RDD)。RDD是一個分佈式的數據集合,數據可以跨越集羣中的多個機器節點,被分區並行執行。   在spark中,對

原创 spark快速入門(四)

  spark框架是用scala寫的,運行在Java虛擬機(JVM)上。支持Python、Java、Scala或R多種語言編寫客戶端應用。 下載Spark   訪問http://spark.apache.org/downloads.htm

原创 spark sql之讀寫數據(十二)

簡介   Spark SQL支持多種結構化數據源,輕鬆從各種數據源中讀取Row對象。這些數據源包括Parquet、JSON、Hive表及關係型數據庫等。   當只使用一部分字段時,Spark SQL可以智能地只掃描這些字段,而不會像had

原创 spark簡介(一)

spark是一個用於大規模數據處理的統一計算引擎。適用於各種各樣原先需要多種不同的分佈式平臺處理的場景,包括批處理、迭代計算、交互式查詢、流處理。通過統一的框架將各種處理流程整合到一起。 spark特性 快速性 spark通過使用先進

原创 spark core之讀寫數據(八)

  spark支持多種數據源,從總體來分分爲兩大部分:文件系統和數據庫。 文件系統   文件系統主要有本地文件系統、Amazon S3、HDFS等。   文件系統中存儲的文件有多種存儲格式。spark支持的一些常見格式有: 格式名稱

原创 spark sql之快速入門(十)

前世今生 Hive&Shark   隨着大數據時代的來臨,Hadoop風靡一時。爲了使熟悉RDBMS但又不理解MapReduce的技術人員快速進行大數據開發,Hive應運而生。Hive是當時唯一運行在Hadoop上的SQL-on-Hado

原创 spark core之共享變量(九)

簡介   spark執行操作時,可以使用驅動器程序Driver中定義的變量,但有時這種默認的使用方式卻並不理想。 集羣中運行的每個任務都會連接驅動器獲取變量。如果獲取的變量比較大,執行效率會非常低下。 每個任務都會得到這些變量的一份新的

原创 spark運行模式(三)

spark支持的運行模式:本地模式、本地集羣模式、standalone模式、yarn模式及mesos模式。 本地模式 local、local[N]或local[N,maxRetries]。主要用於代碼調試和跟蹤。不具備容錯能力,不適用於

原创 spark sql之RDD轉換DataSet(十一)

簡介   Spark SQL提供了兩種方式用於將RDD轉換爲Dataset。 使用反射機制推斷RDD的數據結構   當spark應用可以推斷RDD數據結構時,可使用這種方式。這種基於反射的方法可以使代碼更簡潔有效。 通過編程接口構造

原创 kafka官方Introduction翻譯

kafka是一個分佈式流系統 我們認爲流系統有三個關鍵因素: 可以像消息隊列或者企業消息系統一樣發佈訂閱數據流; 以容錯的方式存儲數據流; 數據流產生的同時就可以處理。 kafka主要有兩大應用場景: 用於系統或應用之間可

原创 spark core之鍵值對操作(六)

  鍵值對RDD(pair RDD)是spark中許多操作所需要的常見數據類型,通常用來進行聚合計算。 創建Pair RDD   spark有多種方式可以創建pair RDD。比如:很多存儲鍵值對的數據格式在讀取時直接返回pair RDD