原创 ES5.6.4源碼解析--聚合查詢流程

es的聚合查詢會涉及到很多概念,比如fielddata,DocValue,也會引出很多問題,比如聚合查詢導致的內存溢出。在沒有真正瞭解聚合查詢的情況下,我們往往對這些概念,問題都是雲山霧繞的。本文我們分析一下ES聚合查詢的源碼,理

原创 impala的基本操作------持續更新中

設置資源隊列 set request_pool=devalopment impala創建kudu內部表 create table test_impala_kudu(name string, id int, PRIMARY KEY

原创 ES 7.X安全功能的開啓配置

1、配置安全功能參考如下鏈接: Elasticsearch 安全功能入門 2、添加普通用戶 第一步完成之後我們可以用超級管理員用戶 elastic 登錄。要想創建普通用戶,需要調用添加用戶的api,如下所示: curl -XPOST -

原创 Kyuubi介紹

Kyuubi 是對spark thrift server的加強版,它彌補了spark thrift server缺少的多租戶,授權,負載均衡,高可用特性。 統一接口 Kyuubi使用的協議與HiveServer保持一致,因此它能

原创 Spark基本操作----持續更新中

通過spark-submit 提交任務到spark on yarn上 ./spark-submit --class WordCount --master yarn --executor-memory 512M --total-ex

原创 postgres 基本操作---------持續更新中

登錄pg命令 psql -U username -d dbname -h hostip -p port 列出所有數據庫 \l 切換數據庫 \c dbname 列出當前數據庫的所有表 \d 查看指定表的所有字段 \d ta

原创 Linux 某個進程中佔用CPU高的線程

https://www.cnblogs.com/wghzzu/p/8682309.html

原创 HBase GC的前生今世 – 身世篇

在之前的HBase BlockCache系列文章中已經簡單提到:使用LRUBlockCache緩存機制會因爲CMS GC策略導致內存碎片過多,從而可能引發臭名昭著的Full GC,觸發可怕的’stop-the-world’暫停,嚴

原创 spark sql 源碼分析

入口 SQLContext // 用spark執行sql,返回一個DataFrame最爲結果 def sql(sqlText: String): DataFrame = sparkSession.sql(sqlText) Dat

原创 linux 中gcc 與 g++版本不一致

問題 由於服務器上安裝過很多版本的gcc,導致版本管理混亂,gcc 與 g++的版本不一致。最終導致編譯的時候報錯如下: gcc: error trying to exec 'cc1plus': execvp: No such f

原创 ES內存持續增長問題分析

環境介紹 es版本:5.6.4 -Xms31g -Xmx31g -XX:MaxDirectMemorySize=10g 問題說明 用top命令觀察ES使用的物理內存不斷增加到54.6G 已知堆內存31G,堆外內存MaxDirec

原创 從es中恢復不存儲的字段內容的方法

原理分析 es中有個隱藏的字段_source,這個字段中存了其他字段的內容,我們直接查詢es返回的結果中展示的各個字段的值其實就是從_source字段中讀取的。如果想要對一個字段只建索引,不做存儲。就是不把這個字段的值存在_sou

原创 scala-面向對象編程之繼承

extends scala中,讓子類繼承父類,與java一樣,也是使用extends關鍵字。 繼承就代表子類可以從父類繼承父類的field和method;然後子類可以在自己內部放入父類所沒有,子類特有的field和method;使

原创 scala-面向對象編程之Trait

將trait作爲接口使用 scala中Trait是一種特殊的概念。首先我們可以將trait作爲接口使用,此時的trait就與java中的接口非常類似。trait中可以定義抽象方法,就與抽象類中的抽象方法一樣,只要不給出方法的具體實

原创 Shark爲何被拋棄?

Shark的來歷 Shark是由Reynold Xin從2011年開始主導開發的。當時Hive幾乎是唯一的SQL-Hadoop的選擇方案,然而hive的性能受限於MapReduce,無法使用spark的計算模型。Shark的提出就