原创 系統的學習大數據分佈式計算spark技術

我們在學習一門技術的時候一定要以系統的思維去學習,這樣的話,不僅對你的提高有很大的幫助,也可以讓你高效的使用這個技術。對於學習spark,當然也是要以系統的思維去全面的學習。這篇博客是我係統的學習spark的點點滴滴,寫這篇博客的目的有兩:

原创 spark2.x由淺入深深到底系列七之py4j在spark中python api的使用

學習spark的任何技術前請先正確理解spark,可以參考: 正確理解Spark我們知道spark的RDD支持scala api、java api以及python api,我們分別對scala api與java api做了詳細的介紹,本文我

原创 spark2.x由淺入深深到底系列七之RDD python api詳解二

學習spark任何技術之前請先正確理解spark,可以參考:正確理解Spark本文詳細介紹RDD python api的action操作。先創建一個RDD:conf = SparkConf().setAppName("appName").s

原创 spark2.x由淺入深深到底系列七之python開發spark環境配置

學習spark任何的技術前,請先正確理解spark,可以參考: 正確理解spark以下是在mac操作系統上配置用python開發spark的環境一、安裝pythonspark2.2.0需要python的版本是Python2.6+ 或者 Py

原创 系統的學習大數據分佈式計算spark技術

我們在學習一門技術的時候一定要以系統的思維去學習,這樣的話,不僅對你的提高有很大的幫助,也可以讓你高效的使用這個技術。對於學習spark,當然也是要以系統的思維去全面的學習。這篇博客是我係統的學習spark的點點滴滴,寫這篇博客的目的有兩:

原创 spark2.x由淺入深深到底系列六之RDD java api詳解三

學習任何spark知識點之前請先正確理解spark,可以參考:正確理解spark本文詳細介紹了spark key-value類型的rdd java api一、key-value類型的RDD的創建方式1、sparkContext.parall

原创 spark2.x由淺入深深到底系列七之RDD python api詳解一

學習spark任何技術之前,請先正確理解spark,可以參考:正確理解spark以下對RDD的三種創建方式、單類型RDD基本的transformation api、採樣Api以及pipe操作進行了python api方面的闡述一、RDD的三

原创 spark2.x由淺入深深到底系列六之RDD 支持java8 lambda表達式

學習spark任何技術之前,請正確理解spark,可以參考:正確理解spark我們在 http://7639240.blog.51cto.com/7629240/1966131 中已經知道了,一個scala函數其實就是java中的一個接口,

原创 spark2.x由淺入深深到底系列六之RDD java api詳解二

在學習Spark前,建議先正確理解spark,可以參考:正確理解spark本篇對JavaRDD基本的action api進行了詳細的描述先定義兩個Comparator實現,一個是實現升序,一個是實現降序//升序排序比較器 private s

原创 spark2.x由淺入深深到底系列六之RDD java api用JdbcRDD讀取關係型數據庫

學習任何的spark技術之前,請先正確理解spark,可以參考:正確理解spark以下是用spark RDD java api實現從關係型數據庫中讀取數據,這裏使用的是derby本地數據庫,當然可以是mysql或者oracle等關係型數據庫

原创 spark2.x由淺入深深到底系列六之RDD java api詳解一

學習spark任何技術之前,請先正確理解spark,可以參考:正確理解spark以下對RDD的三種創建方式、單類型RDD基本的transformation api、採樣Api以及pipe操作進行了java api方面的闡述一、RDD的三種創

原创 spark2.x由淺入深深到底系列六之RDD java api詳解四

學習spark任何的知識點之前,先對spark要有一個正確的理解,可以參考:正確理解spark本文對join相關的api做了一個解釋SparkConf conf = new SparkConf().setAppName("appName")

原创 spark2.x由淺入深深到底系列六之RDD java api調用scala api的原理

學習spark任何的技術之前,請正確理解spark,可以參考:正確理解sparkRDD java api其實底層是調用了scala的api來實現的,所以我們有必要對java api是怎麼樣去調用scala api,我們先自己簡單的實現一個s

原创 spark2.x由淺入深深到底系列六之RDD api reduceByKey與foldByKey對比

學習spark任何知識點之前,最好先正確理解spark,可以參考:正確理解spark一、序言    對於key-value類型RDD的兩個api, reduceByKey與foldByKey,我們往往只是簡單的知道它們不同的點就是foldB