原创 Spark任務執行流程隨筆

  當使用spark-submit提交一個作業之後,這個作業就會啓動一個對應的driver進程。       根據你使用的部署模式(deploy-mode)不同,driver進程可能在本地啓動,也可能在集羣中某個工作節點上啓動。  

原创 Spark核心RDD:Sort排序詳解

1.sortByKey 無可非議sortByKey是Spark的最常用的排序,簡單的案例暫且跳過,下面給一個非簡單的案例,進入排序之旅 對下面簡單元祖,要求先按元素1升序,若元素1相同,則再按元素3升序 (1, 6, 3),

原创 idea 2017.3 安裝破解

最新的IDEA激活方式 使用網上傳統的那種輸入網址的方式激活不了,使用http://idea.lanyus.com/這個網站提供的工具進行 1、進入hosts文件中:C:\Windows\System32\drivers\etc\h

原创 datastax集羣cassnadra數據擴容

大數據集羣使用centos7.0下基於docker的DatastaxEnterprise系統,datastax版本5.0.4,spark1.6.2,cassandra3.0.10。 隨着任務的進行,數據量不斷增多,當集羣容量不滿足數據增長

原创 spark xml 明確的指定schema

package com.vivo.study.xml import org.apache.spark.sql.SparkSession import org.apache.spark.sql.catalyst.expressions.G

原创 mac idea 中下載插件以及更改maven路徑

新工作用mac開發,idea2017中找不到setting 原來在 最好重新下載maven,我用的3.5.0版本,下載好放到一個文件夾中,指定setting.xml 點贊 收藏 分享 文章舉報

原创 cassandra怎麼獲取所有表的字段名?

cassandra怎麼獲取所有表的字段名? example:做通用WEB查詢方便查詢線上數據庫。 select * from system_schema.columns; 點贊 1 收藏 分享 文

原创 cassandra hints文件出錯

重啓節點之後容器起不來 原因: ERROR 05:44:44,212 HintsDispatchExecutor.java:227 - Failed to dispatch hints file d166c779-c4fc-4cb9

原创 在docker中啓動mysql容器

查看dockerhub中是否有mysql的鏡像: docker search mysql 拉取tag爲5.6的mysql鏡像到本地: docker pull mysql:5.6 創建掛載到外部的目錄文件: mkdir /opt/webM

原创 【轉】Spark Streaming消費Kafka Direct保存offset到Redis,實現數據零丟失和exactly once

原文鏈接:https://www.cnblogs.com/ChouYarn/p/9512102.html 轉自:https://www.cnblogs.com/ChouYarn/p/951210

原创 Rdd轉換成SparkSQL的DataSet如何指定schema

與RDD進行相互操作 SparkSQL支持兩種不同方法將現有RDD轉換成DataSets。 第一種方法使用反射來推斷包含特定類型對象的RDD的schema。 這種基於反射的方法會導致更簡潔的代碼,並且在編寫Spark應用程序時已經知道sc

原创 scala 中 下劃線與星號(_*)

1.變長參數  例如定義一個變長參數的方法sum,然後計算1-5的和,可以寫爲 scala> def sum(args: Int*) = { | var result = 0 | for (arg <- args)

原创 安裝基於hadoop集羣的高可用完全分佈式的spark高可用集羣

高可用集羣規劃:hadoop.xiaoxun.com.cn01   JournalNode   QuorumPeerMain   NameNode   DFSZKFailoverController   D

原创 spark 讀取redis

package com.test.log.makefriends import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} imp

原创 spark讀取redis,連接池配置

package com.test.log.makefriends import redis.clients.jedis.{JedisPool, JedisPoolConfig} import scala.collection.mutab