原创 superset連接hive源出現的問題

superset連接hive源出現的問題 解決辦法:pip3 install PyHive-0.6.2.tar.gz 解決辦法:pip install thrift 解決辦法:pip install sasl 解決辦法:

原创 --形成表空列語句,形成sql語句以後再執行,可以獲取列爲null字段

–形成表空列語句,形成sql語句以後再執行,可以獲取列爲null字段 select ‘select field from (select field,null_count from (select ’ ||wm_concat(’(

原创 sql語句經驗總結

一個程序員寫出的sql性能是否優化往往是衡量公司程序員的技術水平的標準 總結: 1.不論一個sql中涉及到多個表,每次都用兩個表(結果集)操作,得到新的結果後,再和下一個表(結果集)操作。 2. 避免在select f1,(selec

原创 SparkRDD

算子分類 一、 Transformation 概念:字面意思就是進行轉換,將rdd有一個形態轉化成另一個形態 常見Transformation算子 flatmap:將行拆分爲單詞 map:最常用的算子,將原rdd的形態轉化爲另一種形態

原创 SparkCore執行方式核心知識

一、Spark作業調度方式 1、Local 測試或實驗性質的本地運行模式 Local[N]是用單機的多個線程來模擬Spark分佈式計算,通常用來驗證開發出來的應用程序邏輯上有沒有問題。 其中N代表可以使用N個線程,每個線程擁有一個co

原创 SparkSql優化

1、避免用in和not in 解決方案: - 用exists和not exists代替 - 用join代替 效率: not in 慢是因爲not in 不走索引 2、in 會導致數據傾斜 3、大表join小表 策略:將小表廣播(bro

原创 Scala的過程、Lazy值和異常

過程 在Scala中,定義函數時,如果函數體直接包裹在了花括號裏面,而沒有使用=連接,則函數的返回值類型就是Unit。這樣的函數就被稱之爲過程。過程通常用於不需要返回值的函數。 過程還有一種寫法,就是將函數的返回值類型定義爲Unit。

原创 spark術語及理解

1.Application 基於spark的用戶程序,包含了一個driver program 和集羣中多個 executor,一定是通過一個有main方法的類執行的。 2.Driver Program 運行application的ma

原创 hbase的讀寫數據流程、設計原則以及時間戳反轉

1.1、HBase的讀數據過程 1、客戶端通過 zookeeper 以及-root-表和.meta.表找到目標數據所在的 regionserver(就是數據所在的 region 的主機地址) (0.98版本以前,0.98及以後沒有-R

原创 SparkStreaming的運行流程

1、客戶端提交作業後,啓動Driver,Driver是Spark作業的Master(也就是通過Driver來啓動Receiver,定時去啓動任務的處理,注意的是,驅動啓動任務會受前一個任務執行的影響。也就是前一個任務沒有執行完成後,是

原创 HBASE中list命令報錯問題

HBASE中list命令報錯問題 1、報錯如下:ERROR: Can’t get master address from ZooKeeper; znode data == null 2、master is initializing 解

原创 QGis連接oracle

ORACLE 數據在QGis中展示 1.將ORACLE數據轉換成csv格式導出 2.在QGis中添加圖層-添加文本數據圖層 3.選擇剛纔導出的csv格式的數據,選擇橫縱座標(選擇爲LNG/LAT) 4.幾何座標參照系選擇 WGS-84

原创 兩種找頻繁項集的方法

兩種找頻繁項集的方法 Apariori算法:主要通過限制候選產生髮現頻繁項集 使用的是頻繁項集的先驗原理 是一種稱爲逐層搜索的迭代方法,其中k項集用於搜索(k+1)項集 使用步驟: 1、掃描數據庫,累計每個項的計數,並收集滿足最小支持

原创 SPARK的時間函數

SPARK的時間函數 package test import java.util.Date import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSess

原创 oracle中timestamp轉成date類型

oracle中timestamp轉成date類型 由於要利用數據量比較大,利用spark在集羣中進行表關聯並創建,並且需要進行時間的加減,所以創建出的表類型是TIMESTAMP類型(2017-10-03 09:40:06:000000