原创 快速入門kafka① Kafka介紹

一、消息隊列 消息(Message):是指在應用之間傳送的數據,消息可以非常簡單,比如只包含文本字符串,也可以更復雜,可能包含嵌入對象。        消息隊列(Message Queue):是一種應用間的通信方式,消息發送後可以立即返回

原创 Spark環境搭建② standalone集羣模式

集羣規劃 node01:master node02:slave/worker node03:slave/worker 上傳並加壓 修改配置文件 cd /export/servers/spark-2.2.0-bin-2.6.0-c

原创 快速入門Scala⑤ 對數組的操作

數組 Scala中,有兩種數組,一種是定長數數組,另一種是變長數組 定長數組 ·定長數組指的是數組的長度不允許改變的 數據的元素是可以改的 語法: // 通過制定長度定義數組 var/val 變量名 = new Array[元素類型](

原创 Spark向Mysql讀寫數據

初始操作 1.創建數據庫 bigdata0407 2.創建表 CREATE TABLE `user` ( `id` int(11) NOT NULL AUTO_INCREMENT, `username` varchar(32)

原创 快速入門Scala⑧ 對Set與Map操作

Set(集)是代表沒有重複元素的集合 元素不重複 不保證插入順序 不可變Set集 語法 創建一個空的不可變的集 var/val 變量名 = Set[類型]() 給定元素來創建一個不可變集 var/val 變量名 = Set(元素1,元

原创 SparkSQL 自定義函數UDF與UDAF

自定義函數分類 UDF 輸入一行,輸出一行 UDAF 輸入多行,輸出一行 UDTF 輸入一樣,輸出多行 UDF //導包 import org.apache.spark.sql.SparkSession //編寫代碼 // 1.實

原创 SparkSQL介紹並實現開窗函數

1.開窗函數 聚合函數和開窗函數 聚合函數是將多行變成一行 開窗函數是將一行變成多行 開窗函數分類 聚合開窗函數 : 聚合函數over 這裏的選擇可以是partition by 子句,但不可以是order by子句 排序開

原创 SparkSQL介紹及快速入門

1.什麼是SparkSQL? 用於處理構造化數據的spark模塊 可以通過DataFrame和DataSet處理數據 2.SparpSQL特點 易整合 可以使用java、scala、python、R 等語言的API操作 統一數據

原创 SparkSQL查詢風格SQL與DSL介紹及使用

1.兩種查詢風格 1.1 準備工作 // 1.讀取文件 並將文件按照空格切分 var lineRDD=sc.textFile("file:///opt/person.txt").map(_.split(" ")) // 2.定義

原创 Spark向Hbase讀寫操作

初始化操作 create 'student', 'message' 向Hbase寫入數據 import java.util.UUID import org.apache.hadoop.hbase.HBaseConfiguration i

原创 SparkSQL快速入門DataFrame與DataSet

2.1 DataFrame 2.1.1讀取txt文件並輸出 1.在本地創建一個文件,有id、name、age三列,用空格分隔,然後上傳到hdfs上 vim /opt/person.txt 1 zhangsan 20 2 lisi

原创 Spark環境搭建④ on yarn集羣模式

前提:  hadoop 安裝部署好 安裝 on yarn 上傳並加壓 tar zxvf spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz  -C ../servers/ 修改配置文件 spark-env.sh cd

原创 SparkSQL使用IDEA快速入門DataFrame與DataSet

1.使用IDEA開發Spark SQL 1.1創建DataFrame/DataSet 1、指定列名添加Schema 2、通過StrucType指定Schema 3、編寫樣例類,利用反射機制推斷Schema 1.1.1指定列名添加S

原创 SparkSQL實現wordCount與資源轉換

Spark SQL完成WrodCount //導包 import org.apache.spark.sql.SparkSession //編寫代碼 //1.定義SparkSession val spark = SparkS

原创 SparkCore快速入門及介紹

什麼是RDD 彈性、分佈式、數據集(數據存儲在內存) 彈性的,RDD中的數據可以保存在內存中或磁盤裏面 分佈式存儲,可以用於分佈式計算 集合,可以存放很多元素 一個不可變,可分區,裏面的元素可並行計算的集合 RDD的主要屬性 數據集的基本