原创 kylin入門到實戰

1.概述 kylin是一款開源的分佈式數據分析工具,基於hadoop之上的sql查詢接口,能支持超大規模的數據分析。響應時間在亞秒級別,其核心是預計算,計算結果存放在hbase中。   2.特性 可擴展超快OLAP引擎: Kylin是

原创 Spark自定義維護kafka的offset到zk 轉

import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder i

原创 Apache Zeppelin 中 Spark解釋器 轉

概述 Apache Spark是一種快速和通用的集羣計算系統。它提供Java,Scala,Python和R中的高級API,以及支持一般執行圖的優化引擎。Zeppelin支持Apache Spark,Spark解釋器組由5個解釋器組成。

原创 Spark createDirectStream 維護 Kafka offset(Scala) 轉

createDirectStream方式需要自己維護offset,使程序可以實現中斷後從中斷處繼續消費數據。 KafkaManager.scala 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

原创 spark-streaming-kafka之createDirectStream模式 轉

最近一直在用directstream方式消費kafka中的數據,特此總結,整個代碼工程分爲三個部分 一. 完整工程代碼如下(某些地方特意做了說明, 這個代碼的部分函數直接用的是spark-streaming-kafka-0.8_2.11)

原创 YARN調度 轉

理想情況下,應用對YARN發起的資源請求應該立刻得到滿足,但現實情況資源往往是有限的,特別是在一個很繁忙的集羣,一個應用對資源的請求經常需要等待一段時間才能獲取到相應的資源。在YARN中,Scheduler的職責就是根據定義的策略給應用分配

原创 Spark Streaming整合kafka實戰 轉

kafka作爲一個實時的分佈式消息隊列,實時的生產和消費消息,這裏我們可以利用SparkStreaming實時計算框架實時地讀取kafka中的數據然後進行計算。在spark1.3版本後,kafkaUtils裏面提供了兩個創建dstream的

原创 Spark+Kafka的Direct方式將偏移量發送到Zookeeper實現 轉

 Apache Spark 1.3.0引入了Direct API,利用Kafka的低層次API從Kafka集羣中讀取數據,並且在SparkStreaming系統裏面維護偏移量相關的信息,並且通過這種方式去實現零數據丟失(zero data

原创 YARN的Memory和CPU調優配置詳解 轉

Hadoop YARN同時支持內存和CPU兩種資源的調度,本文介紹如何配置YARN對內存和CPU的使用。 YARN作爲一個資源調度器,應該考慮到集羣裏面每一臺機子的計算資源,然後根據application申請的資源進行分配Container

原创 flume1.8taildirSource 轉

flume使用(一):入門demo  flume使用(二):採集遠程日誌數據到MySql數據庫  flume使用(三):實時log4j日誌通過flume輸出到MySql數據庫  flume使用(四):taildirSource多文件監控實時

原创 spark2.x 的坑 轉

Spark 1.6升級2.x防踩坑指南 Spark 2.x自2.0.0發佈到目前的2.2.0已經有一年多的時間了,2.x宣稱有諸多的性能改進,相信不少使用Spark的同學還停留在1.6.x或者更低的版本上,沒有升級到2.x或許是由於1.6

原创 spark中的動態executor分配 轉

動態分配executor的實例初始化部分 如果spark.executor.instances配置項設置爲0或者沒有設置,這個默認情況下是一個未設置的值,yarn的運行模式時,這個配置通過--num-executors來得到. 同時spar

原创 Kafka+Spark Streaming+Redis實時計算整合實踐 轉

基於Spark通用計算平臺,可以很好地擴展各種計算類型的應用,尤其是Spark提供了內建的計算庫支持,像Spark Streaming、Spark SQL、MLlib、GraphX,這些內建庫都提供了高級抽象,可以用非常簡潔的代碼實現複雜的

原创 Spark配置&啓動腳本分析 轉

今天想停止spark集羣,發現執行stop-all.sh的時候spark的相關進程都無法停止。提示: no org.apache.spark.deploy.master.Master to stop no org.apache.spark.

原创 Kafka集成SparkStreaming 轉

Kafka項目在版本0.8和0.10之間引入了一個新的消費者API,因此有兩個獨立的相應Spark Streaming包可用。請選擇正確的包, 請注意,0.8集成與後來的0.9和0.10代理兼容,但0.10集成與早期的代理不兼容。 注意: