台部落adu

spark調優系列（一）開發調優 spark調優系列（二）資源調優 spark調優系列（三）數據傾斜調優 spark調優系列（四）shuffle調優 -----------------------------------------

2020-06-07 20:34:34

Impala是基於Hive的大數據實時分析查詢引擎，直接使用Hive的元數據庫Metadata,意味着impala元數據都存儲在Hive的metastore中。並且impala兼容Hive的sql解析，實現了Hive的SQ

2020-02-21 06:00:42

套話之分桶的定義：　　分桶表是對列值取哈希值的方式，將不同數據放到不同文件中存儲。對於 hive 中每一個表、分區都可以進一步進行分桶。列的哈希值除以桶的個數來決定每條數據劃分在哪個桶中。（網上其它定義更詳細，有點繞，結合後面實例）

2020-02-21 06:00:42

當我們在插入數據的時候指定分區，其實就是新建一個目錄或者子目錄，或者在原有的目錄上添加數據文件。 Hive分區的創建 Hive分區是在創建表的時候用Partitioned by 關鍵字定義的，但要注意，Partitioned by

2020-02-21 06:00:42

對於kafka的架構原理我們先提出幾個問題? 1.Kafka的topic和分區內部是如何存儲的，有什麼特點？ 2.與傳統的消息系統相比,Kafka的消費模型有什麼優點? 3.Kafka如何實現分佈式的數據存儲與數據讀取? 一、Kafka架

2020-02-21 06:00:42

原文鏈接：https://www.cnblogs.com/cc11001100/p/9471859.html 目錄 UDF介紹 UDAF簡介關於UDAF的一個誤區使用UDF 在SQL語句中使

2019-09-15 17:16:06

原文鏈接：https://www.cnblogs.com/duanxz/p/9567127.html 目錄一、初識Currying柯里化二、從案例角度學習scala柯里化三、總結柯里化的作

2019-09-15 17:16:05

原文鏈接：https://www.cnblogs.com/yy3b2007com/p/10613035.html 目錄爲什麼要使用廣播(broadcast)變量？ Spark中Broadcas

2019-09-07 17:12:28

原文鏈接：https://www.cnblogs.com/sirkevin/p/8283110.html 目錄命令式編程聲明式編程函數式編程參考地址主要的編程範式有三種：命令式編程

2019-09-04 17:17:29

原文鏈接：https://blog.csdn.net/devin07/article/details/49946665 目錄 1.修改元數據 2.刪除當前分區重建 3.更新指定分區的元數據

2019-09-02 17:01:43

原文鏈接：https://www.cnblogs.com/shimingjie/p/10374451.html /** class、object、case class、case object區

2019-08-28 17:45:52

原文鏈接：https://blog.csdn.net/xianpanjia4616/article/details/84930779 Scala 列表類似於數組，它們所有元素的類型

2019-08-28 17:45:52

原文鏈接：https://www.cnblogs.com/jiangxiaoxian/p/9539760.html 目錄一.spark 分區 partition的理解二.coalesce 與

2019-08-28 17:45:52

原文鏈接：https://www.cnblogs.com/ibelieve618/p/6410910.html 一、抽象（abstract）的使用　　當父類的某些方法不確定時，可以用abstr

2019-08-28 17:45:52

目錄 1.原始數據 2.order by 3.distribute by、sort by 4.cluster by 1.原始數據假設原始數據如下，分別是每名學生的成績單 name coarse score 小紅

2019-08-28 17:45:52