原创 spark調優之數據傾斜調優

  spark調優系列(一)開發調優 spark調優系列(二) 資源調優 spark調優系列(三)數據傾斜調優 spark調優系列(四)shuffle調優 -----------------------------------------

原创 Impala和Hive的關係

        Impala是基於Hive的大數據實時分析查詢引擎,直接使用Hive的元數據庫Metadata,意味着impala元數據都存儲在Hive的metastore中。並且impala兼容Hive的sql解析,實現了Hive的SQ

原创 Hive 分桶的原理

套話之分桶的定義:   分桶表是對列值取哈希值的方式,將不同數據放到不同文件中存儲。對於 hive 中每一個表、分區都可以進一步進行分桶。 列的哈希值除以桶的個數來決定每條數據劃分在哪個桶中。(網上其它定義更詳細,有點繞,結合後面實例)

原创 Hive的動態分區和靜態分區

當我們在插入數據的時候指定分區,其實就是新建一個目錄或者子目錄,或者在原有的目錄上添加數據文件。   Hive分區的創建   Hive分區是在創建表的時候用Partitioned by 關鍵字定義的,但要注意,Partitioned by

原创 Kafka架構原理

對於kafka的架構原理我們先提出幾個問題? 1.Kafka的topic和分區內部是如何存儲的,有什麼特點? 2.與傳統的消息系統相比,Kafka的消費模型有什麼優點? 3.Kafka如何實現分佈式的數據存儲與數據讀取? 一、Kafka架

原创 UDAF和UDF的介紹

原文鏈接:https://www.cnblogs.com/cc11001100/p/9471859.html 目錄 UDF介紹 UDAF簡介 關於UDAF的一個誤區 使用UDF 在SQL語句中使

原创 Scala中的柯里化

原文鏈接:https://www.cnblogs.com/duanxz/p/9567127.html 目錄 一、初識Currying柯里化 二、從案例角度學習scala柯里化 三、總結柯里化的作

原创 Spark Broadcast(廣播變量)總結

原文鏈接:https://www.cnblogs.com/yy3b2007com/p/10613035.html 目錄 爲什麼要使用廣播(broadcast)變量? Spark中Broadcas

原创 編程範式:命令式編程(Imperative)、聲明式編程(Declarative)和函數式編程(Functional)

原文鏈接:https://www.cnblogs.com/sirkevin/p/8283110.html 目錄 命令式編程 聲明式編程 函數式編程 參考地址   主要的編程範式有三種:命令式編程

原创 hive分區表增加字段新增字段值爲空的bug

原文鏈接:https://blog.csdn.net/devin07/article/details/49946665 目錄 1.修改元數據 2.刪除當前分區重建 3.更新指定分區的元數據  

原创 Scala中class、object、case class、case object區別

原文鏈接:https://www.cnblogs.com/shimingjie/p/10374451.html /** class、object、case class、case object區

原创 scala之list用法史上最全

原文鏈接:https://blog.csdn.net/xianpanjia4616/article/details/84930779        Scala 列表類似於數組,它們所有元素的類型

原创 coalesce 與 repartition的區別

原文鏈接:https://www.cnblogs.com/jiangxiaoxian/p/9539760.html 目錄 一.spark 分區 partition的理解 二.coalesce 與

原创 JAVA抽象類和抽象方法(abstract)

原文鏈接:https://www.cnblogs.com/ibelieve618/p/6410910.html 一、抽象(abstract)的使用   當父類的某些方法不確定時,可以用abstr

原创 Hive中的排序order by、sort by、distribute by、cluster by的區別

目錄 1.原始數據 2.order by 3.distribute by、sort by 4.cluster by 1.原始數據   假設原始數據如下,分別是每名學生的成績單 name coarse score 小紅