原创 doris 部署總結

最近調研doris 吧一些安裝和部署的細節做一下記錄吧 以後可以用: 首先是安裝 建議用docker 11的版本在Linus安裝一直都有問題 在docker就可以成功安裝: 具體步驟: 1. pull doris dev dock

原创 安裝pyspark

pip install pyspark 太慢 切換鏡像源 pypi 鏡像使用幫助 pypi 鏡像每 5 分鐘同步一次。 臨時使用 pip install -i https://pypi.tuna.tsinghua.edu.c

原创 數據倉庫之拉鍊表,流水錶,全量表,增量表

全量表:每天的所有的最新狀態的數據, 增量表:每天的新增數據,增量數據是上次導出之後的新數據。 拉鍊表:維護歷史狀態,以及最新狀態數據的一種表,拉鍊表根據拉鍊粒度的不同,實際上相當於快照,只不過做了優化,去除了一部分不變的記錄而

原创 學習怎麼Hive表導出成csv文件

命令 hive -e " set hive.cli.print.header=true; -- 將表頭輸出 select * from data_table where some_query_conditions " | se

原创 hive拆分json數組取出各個值的第二層

select id, secondLevel item, indexValue score from ( select id, split(regexp_replace(regexp_extract(detail,'^\\[(

原创 hive小文件處理方法

hive方法處理 set hive.merge.mapfiles=true; -- map only job 結束是合併小文件 set hive.merge.mapredfiles=true; -- 合併reduce輸出的小文件

原创 稍微整理一下 scala中的:: , +:, :+, :::, +++, 等操作

面試老是會問一些簡單的操作 總是不會 總結一下 package test /** * scala中的:: , +:, :+, :::, +++, 等操作; */ object listTest { def main(

原创 用hive命令行動態往分區表裏插入數據

set hive.exec.dynamic.partition=true; -- 打開動態分區 sethive.exec.max.dynamic.partitions.pernode=1000; set hive.exec.dyn

原创 spark設置日誌輸出級別

Spark 通過 spark-submit 設置日誌級別(對我好像沒有起作用但是記錄一下吧) 這裏的log4j配置可以是 log4j.properties 或者 log4j.xml ,沒有限制 spark-submit --c

原创 Hive 開窗函數 彙總

開窗函數 普通的聚合函數聚合的行集是組,開窗函數聚合的行集是窗口。因此,普通的聚合函數每組(Group by)只返回一個值,而開窗函數則可爲窗口中的每行都返回一個值。簡單理解,就是對查詢的結果多出一列,這一列可以是聚合值,也可以

原创 Hive Hive性能調優總結

一、Fetch抓取 1、理論分析 Fetch抓取是指,Hive中對某些情況的查詢可以不必使用MapReduce計算。例如:SELECT * FROM employees;在這種情況下,Hive可以簡單地讀取employee對

原创 Impala中的invalidate metadata和refresh

前言 Impala採用了比較奇葩的多個impalad同時提供服務的方式,並且它會由catalogd緩存全部元數據,再通過statestored完成每一次的元數據的更新到impalad節點上,Impala集羣會緩存全部的元數據,這種緩

原创 HDFS文件誤刪除之恢復

啓動HDFS的垃圾回收站爲了防止誤刪,一般默認是關閉的,需要我們自己配置文件打開。 修改core-site.xml <property> <name>fs.trash.interval</na

原创 python環境安裝 hive支持步驟

sudo yum install gcc gcc-c++ python-virtualenv cyrus-sasl-devel pip install pyhive pip install thrift pip install sas

原创 linux查找文件中含某字符串的行數

查看某個文件中包含某個字符串的行數 sudo find analytics_2019-02-13.csv.51 | xargs cat | grep .*bookorder.* |wc -l 例子說明:統計含"bookorde