原创 數據中心的Yarn on Docker集羣方案

數據中心中的應用一般獨立部署,爲了保證環境隔離與方便管理,保證應用最大資源  數據中心中普遍存在如下問題: 主機資源利用率低 部署和擴展複雜 資源隔離無法動態調整 無法快速響應業務 方案選型 Yarn on Docker有哪些特點?

原创 分佈式一致性算法Paxos介紹

IntroductionGoogle Chubby的作者Mike Burrows說過這個世界上只有一種一致性算法,那就是Paxos,其它的算法都是殘次品。PAXOS可以用來解決分佈式環境下,選舉(或設置)某一個值的問題(比如更新數據庫中某

原创 hadoop2.0集羣版本在線升級方法

hadoop2.0集羣版本在線升級方法 HDFS Rolling Upgrade 介紹 HDFS 滾動升級允許單個的hdfs節點(守護進程)進行升級。例如,datanodes 節點可以單獨升級不影響namenodes。反之亦然。 升級

原创 Failed to connect to Sentry service Config key

INFO : Concurrency mode is disabled, not creating a lock manager INFO : Executing command(queryId=hadoop_20180713115

原创 使用 Keycloak 輕鬆保護 Spring Boot 應用程序

使用 Keycloak 輕鬆保護 Spring Boot 應用程序原文鏈接:www.oschina.net儘管安全性是應用程序的一個關鍵點,但是在開發中實施起來確實比較麻煩。更加麻煩的是,這個關鍵點通常不怎麼受重視,實現的效果普遍的 lo

原创 特徵工程

應用機器學習像是把你當一個偉大的工程師,而非偉大的機器學習專家。 ---google    當在做數據挖掘和數據分析時,數據是所有問題的基礎,並且會影響整個工程的流程。相比一些複雜的算法,如何靈活的處理好數據經常會取到意想不到的效益。而處

原创 Spark SQL 之 Join 實現

Join作爲SQL中一個重要語法特性,幾乎所有稍微複雜一點的數據分析場景都離不開Join,如今Spark SQL(Dataset/DataFrame)已經成爲Spark應用程序開發的主流,作爲開發者,我們有必要了解Join在Spark中

原创 Presto查詢優化

Presto是一個開源的分佈式SQL查詢引擎,適用於交互式分析查詢,數據量支持GB到PB字節。查詢語言是類ANSI SQL語句。筆者在多個項目中用到Presto做即席查詢,總結了一些優化措施。一、數據存儲合理設置分區 與Hive類似,Pr

原创 Presto 原理

Presto查詢引擎是一個Master-Slave的架構,由一個Coordinator節點,一個Discovery Server節點,多個Worker節點組成,Discovery Server通常內嵌於Coordinator節點中。Coo

原创 如何打jar包(並添加依賴jar包)技術詳解

[TOC] 在打jar的時候經常會遇見怎麼處理依賴的jar的問題,用maven的話會很方便的處理這樣的問題 以下我介紹三種打jar依賴的方式 1. 用assembly plugin 可以把所有的依賴打成一個jar 一個可運行的jar

原创 Sentry Beeline

環境Ubuntu STL 16.0.4 Hadoop 2.7.4 Hive 2.1.1 sentry 1.7.0 maven 3.5.0 //注:僞分佈式環境安裝maven1.apache maven官網下載maven,用於編譯s

原创 不錯的linux下通用的java程序啓動腳本(轉載)

不錯的linux下通用的java程序啓動腳本(轉載)雖然寫起動shell的頻率非常不高。。。但是每次要寫都要對付一大堆的jar文件路徑,新加jar包也必須要修改起動shell。在網上找到一個挺好的通用shell腳本。只需要修改一些配置變量

原创 如何在不影響hadoop集羣正常運行的情況下遷移主控節點[namenode]

目前大部分使用的hadoop集羣都是2.x版本的了,這個版本比 hadoop 1.0 添加了namenode 的HA ,解決了namenode單點的問題。但是還是會有緊急情況發生 【比如 兩個互爲主備的namenode 節點中的某一個節

原创 presto 的web ui

1、AirPal(推薦)AirPal是AirBnb開源的查詢Presto的WebUI。 項目特性:可選的用戶訪問控制SQL語法高亮查詢結果導出到CSV文件,或者存到Hive表中可查看SQL查詢的歷史記錄可保存查詢根據表名搜索對應的表可查看

原创 HDFS NameNode內存預估

前言《HDFS NameNode內存全景》中,我們從NameNode內部數據結構的視角,對它的內存全景及幾個關鍵數據結構進行了簡單解讀,並結合實際場景介紹了NameNode可能遇到的問題,還有業界進行橫向擴展方面的多種可借鑑解決方案。事實