原创 SparkSession寫入mysql出現的數據庫死鎖問題?

最近工作中模型出現的死鎖問題 azkaban spark任務報錯信息 代碼: 代碼上看都是正常的DataFrame寫入mysql操作,並且是update操作 來看看數據庫結構: 這次看到,數據庫時由聯合主鍵構成的,查看了源數據,發

原创 Spark調優詳解

本文參考中華石杉老師的課程總結。後面一部分是總結了一下當spark必須要按列處理時的調優方式。 1、spark調優之分配更多資源 /usr/local/spark/bin/spark-submit \ --class cn.

原创 Redis介紹

Redis是一種面向“key-value”類型數據的分佈式NoSQL數據庫系統,具有高性能、持久存儲、適應高併發應用場景等優勢。它雖然起步較晚,但發展卻十分迅速。 一、Redis持久化是如何工作的?  什麼是持久化?簡單來講就是將數據放

原创 Spark中shuffle的文件尋址

點贊 收藏 分享 文章舉報 數據小二 發佈了87 篇原創文章 · 獲贊 124 · 訪問量 2萬+ 私信 關注

原创 kafka讀寫速度快的原因

傳統IO|緩存IO 傳統IO也就是緩存IO。數據先從磁盤複製到內核空間緩衝區,然後從內核空間緩衝區複製到應用程序的地址空間。這裏的內核緩衝區也就是頁緩存-PageCache,是虛擬內存空間 讀操作:操作系統檢查內核的緩衝區有

原创 Spark內存管理

點贊 收藏 分享 文章舉報 數據小二 發佈了87 篇原創文章 · 獲贊 124 · 訪問量 2萬+ 私信 關注

原创 JVM監控工具

        1.jvmstat         jvmstat是圖形版的jstat,由Java 官方提供,目前最新版本爲3.0。         下載地址:http://www.oracle.com/technetwork/j

原创 SparkStreaming如何解決小文件問題

使用sparkstreaming時,如果實時計算結果要寫入到HDFS,那麼不可避免的會遇到一個問題,那就是在默認情況下會產生非常多的小文件,這是由sparkstreaming的微批處理模式和DStream(RDD)的分佈式(partit

原创 大數據生態組件常見端口

Hadoop:         50070:HDFS WEB UI端口     8020 : 高可用的HDFS RPC端口     9000 : 非高可用的HDFS RPC端口     8088 : Yarn 的WEB UI 接口    

原创 kafka事務

爲了使用事務生產者和相關的APIs,必須要設置transactional.id屬性.如果設置了transactional.id冪等性會自動被啓用。支持事務的topic必須要進行容錯配置。特別的replication.factor應該設置爲

原创 zookeeper的選舉機制

zookeeper是一個分佈式的協調系統協調系統。zookeeper保證了數據在ZK之間數據的事務性的一致性。其中zookeeper提供了分佈式的鎖服務,用於協調分佈式應用程序。zookeeper的應用主要有儲存元數據信息和選舉機制。例如

原创 常見算法的時間複雜度

點贊 收藏 分享 文章舉報 數據小二 發佈了87 篇原創文章 · 獲贊 124 · 訪問量 2萬+ 私信 關注

原创 Sql join

User表 CREATE TABLE `user` ( `id` varchar(255) NOT NULL DEFAULT '', `name` varchar(255) DEFAULT NULL, PRIMARY KEY

原创 flume採集數據到hdfs上產生的問題解決

解決Flume採集數據時在HDFS上產生大量小文件的問題 flume指定HDFS類型的Sink時,採集數據至HDFS指定目錄,會產生大量小文件。 解決方案: 去掉round時間系列參數,並將rollSize和rollCount置0, 表示

原创 HBase Regoin的切分策略

ConstantSizeRegionSplitPolicy:0.94版本前默認切分策略 並不是regoin大小達到某個閾值時開始切分,這個策略是針對storefile來說的,當regoin中最大的storefile達到一定的閾值時,才