台部落数据小二

最近工作中模型出現的死鎖問題 azkaban spark任務報錯信息代碼：代碼上看都是正常的DataFrame寫入mysql操作，並且是update操作來看看數據庫結構：這次看到，數據庫時由聯合主鍵構成的，查看了源數據，發

2020-02-29 17:50:54

本文參考中華石杉老師的課程總結。後面一部分是總結了一下當spark必須要按列處理時的調優方式。 1、spark調優之分配更多資源 /usr/local/spark/bin/spark-submit \ --class cn.

2020-02-22 13:00:03

Redis是一種面向“key-value”類型數據的分佈式NoSQL數據庫系統，具有高性能、持久存儲、適應高併發應用場景等優勢。它雖然起步較晚，但發展卻十分迅速。一、Redis持久化是如何工作的？什麼是持久化？簡單來講就是將數據放

2020-02-22 13:00:03

點贊收藏分享文章舉報數據小二發佈了87 篇原創文章 · 獲贊 124 · 訪問量 2萬+ 私信關注

2020-02-22 13:00:03

傳統IO|緩存IO 傳統IO也就是緩存IO。數據先從磁盤複製到內核空間緩衝區，然後從內核空間緩衝區複製到應用程序的地址空間。這裏的內核緩衝區也就是頁緩存-PageCache，是虛擬內存空間讀操作：操作系統檢查內核的緩衝區有

2020-02-22 13:00:03

點贊收藏分享文章舉報數據小二發佈了87 篇原創文章 · 獲贊 124 · 訪問量 2萬+ 私信關注

2020-02-22 13:00:03

1.jvmstat jvmstat是圖形版的jstat，由Java 官方提供，目前最新版本爲3.0。下載地址：http://www.oracle.com/technetwork/j

2020-02-22 13:00:03

使用sparkstreaming時，如果實時計算結果要寫入到HDFS，那麼不可避免的會遇到一個問題，那就是在默認情況下會產生非常多的小文件，這是由sparkstreaming的微批處理模式和DStream(RDD)的分佈式(partit

2020-02-22 13:00:03

Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口

2020-02-22 13:00:03

爲了使用事務生產者和相關的APIs，必須要設置transactional.id屬性.如果設置了transactional.id冪等性會自動被啓用。支持事務的topic必須要進行容錯配置。特別的replication.factor應該設置爲

2020-02-22 13:00:03

zookeeper是一個分佈式的協調系統協調系統。zookeeper保證了數據在ZK之間數據的事務性的一致性。其中zookeeper提供了分佈式的鎖服務，用於協調分佈式應用程序。zookeeper的應用主要有儲存元數據信息和選舉機制。例如

2020-02-22 13:00:03

點贊收藏分享文章舉報數據小二發佈了87 篇原創文章 · 獲贊 124 · 訪問量 2萬+ 私信關注

2020-02-22 13:00:02

User表 CREATE TABLE `user` ( `id` varchar(255) NOT NULL DEFAULT '', `name` varchar(255) DEFAULT NULL, PRIMARY KEY

2020-02-22 13:00:02

解決Flume採集數據時在HDFS上產生大量小文件的問題 flume指定HDFS類型的Sink時，採集數據至HDFS指定目錄，會產生大量小文件。解決方案：去掉round時間系列參數，並將rollSize和rollCount置0，表示

2020-02-22 13:00:02

ConstantSizeRegionSplitPolicy：0.94版本前默認切分策略並不是regoin大小達到某個閾值時開始切分，這個策略是針對storefile來說的，當regoin中最大的storefile達到一定的閾值時，才

2020-02-22 13:00:02