原创 clickhouse之SQL語法--Functions

clickhouse之SQL語法–Functions 介紹 Clickhouse 中至少有2中類型的函數 -正常函數(被稱爲 functions)和聚合函數. 這兩個函數完全不同。正常函數被應用到每行(對於每行,函數的結果不依賴與

原创 clickhouse簡單使用+函數整理

一、DDL 如果想按集羣操作,需要藉助zookeeper,在config.xml中添加配置 <distributed_ddl> /clickhouse/task_queue/ddl </distributed_ddl> 一個節點創建表

原创 python--Python腳本執行SQL

說明:在Linux寫python腳本執行SQL,廢話不多說,直接貼代碼解釋。 #!/usr/bin/env python ##python腳本格式,這裏有一點要說明的是:#!/usr/bin/env python與#!/usr/bi

原创 MR優化總結

優化前 1.熟知業務要求 2.熟知數據分佈狀態(是否傾斜、是否是多個小文件等),可以使用採樣來了解數據 通用型優化策略 1.文件存儲格式 使用更加優化的格式的文件,例如Parquet、ORC,綜合來說,ORC最優。 2.文件壓縮 可以

原创 7種進程名稱及作用

namenode : 主要是用來保存HDFS的元數據信息,比如命名空間信息,塊信息等。2臺,一臺active,一臺standby.會與zkfc通信,一旦某臺namenode當掉,zkfc會與zookeeper進行通信,立即啓動st

原创 MR大體流程圖

此MR程序以wordcount爲例 1、數據準備:如圖所示,在HDFS中有一個1G的文件,HDFS中的的默認分塊的大小爲256M,分別存儲在HDFS中的四個塊中。在文件被分成塊之後,不會直接被mapreduce處理。而是先由FileI

原创 HIVE優化

Hive優化總結 1、整體架構優化 現在hive的整體框架如下,計算引擎不僅僅支持Map/Reduce,並且還支持Tez、Spark等。根據不同的計算引擎又可以使用不同的資源調度和存儲系統。 整體架構優化點: 1、根據不同業務需求進行

原创 YARN

YARN概念 Yet Another Resource Negotiator(好吧,另一種資源協調者),作業調度和集羣資源管理的框架 HDFS&YARN進程通訊模型 YARN程序執行流程 ResourceManager有兩個主要組件