原创 OLAP分析引擎Druid配置文件詳解(一):文件組織形式

摘要:   本文和接下來的幾篇博文旨在介紹OLAP分析引擎Druid的配置文件,幫助使用的Druid的新手對Druid集羣進行配置以滿足基本需求,當然本系列博文也會對已經使用了Druid一段時間的用戶有一些幫助,幫助這些用戶根據自

原创 MarkDown使用中的問題和解決方案,持續更新

摘要:   本人是一個MarkDown的使用新手,本文記錄使用MarkDown遇到的一些問題和解決方案,方便自己查閱,也希望給別人提供幫助。持續更新中,如有錯誤或者更好的解決方案歡迎指正~ 1.段落前縮進   or

原创 OLAP分析引擎Druid配置文件詳解(二):公共配置文件common.runtime.properties

摘要:   本文是Druid配置文件系列博文的第二篇,在前一篇中介紹了Druid配置文件的組織結構,這一篇開始詳細介紹各個配置文件中參數、意義、候選值等相關說明。本文主要介紹公共配置文件common.runtime.propert

原创 OLAP分析引擎Druid配置文件詳解(四):Overlord配置文件

摘要:   本文是Druid配置文件系列博文的第四篇,我們將繼續逐個介紹Druid的五大組件,前文已經介紹了Coordinator組件的配置文件,本文是第二個組件Overlord的介紹。 以下配置都在overlord/runti

原创 OLAP分析引擎Druid配置文件詳解(三):coordinator配置文件

摘要:   本文是Druid配置文件系列博文的第三篇,之前的文章已經介紹了Druid配置文件整體的組織結構以及公共配置文件,接下來將逐個介紹Druid的五大組件,本文是第一個組件Coordinator的介紹。 以下配置都在coo

原创 MapReduce過程

MapReduce由兩個階段組成,map階段和reduce階段: map階段: 1.從hdfs上讀取文件,將文件的每一行解析成一個<K,V>對。 2.對解析後的<K,V>對執行用戶實現的map函數。 3.對2所得結果進行分區。分區過程將在

原创 Druid源碼分析之send metrics

基本介紹: 什麼是Metric? metric就是Druid運行過程中產生的一些指標,如查詢時間、查詢成功數量、JVM參數、任務成功數等。 Metric有什麼用? 對Druid進行異常監控報警,對指標數據進行分析等。 Metric發送到哪

原创 MapReduce之shuffle過程

shuffle的主要職責是將map任務產生的輸出,按照partitioner組件制定的規則,分發給reduce任務。 主要分爲3個過程,map端的spill過程,reduce端的copy和sort過程。 1.spill過程 map任務不斷

原创 Spark的ShuffleManager

ShuffleManager的主要職責是shuffle過程的執行、計算和處理。包括HashShuffleManager和SortShuffleManager。1.2版本以前的Spark使用HashShuffleManager,1.2版本以

原创 機器學習方法簡介(4)--主成分分析(PCA)

顧名思義,主成分分析方法是找出原始數據中的主要成分,用原始數據的主要成分代替原始數據達到降維的效果。 那麼我們如果尋找主成分呢?我們可以試圖在樣本空間中找到一個超平面,使得樣本點到這個超平面的距離足夠近,或者說樣本點在這個超平面上的投影能

原创 sql使用技巧--排名函數、日期類型處理、LAG、LEAD

1.排名函數 ROW_NUMBER 他會爲查詢出來的每一行記錄生成一個序號,依次排序且不會重複。示例代碼如下: select ROW_NUMBER() OVER(order by [price] desc) as row_num,* f

原创 Spark MLlib學習(1)--基本統計

Correlation 支持的方法有Pearson相關係數和spearman相關係數。 Pearson相關係數 皮爾遜相關係數用來衡量定距變量的線性關係,取值範圍是-1到1,接近0的變量相關性小,接近1或-1的變量相關性大。 sp

原创 Spark SQL使用簡介(2)--UDF(用戶自定義函數)

內建的DataFrame函數提供了正常的聚合函數,如count(), countDistinct(), avg(), max(), min(),我們也可以自己定義聚合函數,無類型的用戶定義聚合函數按如下方式定義: import org.

原创 Spark MLlib學習(1)-- Pipelines

基本概念 DataFrame 機器學習API使用來自Spark SQL的DataFrame作爲數據集,它能包括多種數據類型,如文本、特徵向量、標籤、預測值等。 Transformers 一個Transformers是一個能轉化一個Data

原创 單例模式(java代碼實現)

應用單例模式時,類只能有一個對象實例,這麼做的目的是避免不一致狀態。 餓漢式單例:(立即加載) // 餓漢式單例 public class Singleton1 { // 指向自己實例的私有靜態引用,主動創建 priv