原创 TDW(Tencent Data Warehouse)之hive簡介

1.     基本概念   Hive是由Facebook在2007年8月開始開發,並於2008年8月開源(https://issues.apache.org/jira/browse/HADOOP-3601)。它是建立在Hadoop上的數

原创 大數據圖譜

原创 sbt使用及配置

the summary of sbt 簡介 sbt是一個專門用來編譯scala工程的編譯工具,其本身也是用scala實現。 github地址 安裝與配置 安裝 常用方法1:下載包 下載 export環境變量到PATH即可 常用方法2

原创 spark job server原理

配置相關 settings.sh 功能:配置環境變量 APP_USER/APP_GROUP:作業提交用戶和組 JMX_PORT:java jmx端口,通常在aws或者其他容器裏打開 INSTALL_DIR:sjs所做目錄 LOG_DI

原创 Hive現網內存問題定位總結

現網內存問題定位總結     前段時間,現網遇到一個很奇葩的問題,server會莫名其妙的重啓。個人功力有限,這個問題搞了好久才找到問題原因,現在就把此類問題的基本定位方法梳理一下,也算是一個總結吧。   搞java(或其他JVM語言)

原创 orcFile split和讀數據原理總結(hive0.13)

官網關於orcfile的介紹 背景 Hive的rcfile格式已經使用多年,但是,它會將所有的列都當做二進制來處理,沒有與類型掛鉤。因此,Hive0.11版本引入orcFile。OrcFile有以下幾點好處: 每個task只生成一個

原创 機器學習之決策樹——學習總結

決策樹學習總結 機器學習的應用越來越廣泛,特別是在數據分析領域。本文是我學習決策樹算法的一些總結。 機器學習簡介 機器學習 (Machine Learning) 是近 20 多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸

原创 spark job server使用方法

入門 clone代碼 從github上的spark-jobserver工程clone代碼到本地 編譯 需要將工程根目錄下的config文件刪除 將文件夾job-server/config拷貝到工程根目錄下 將local.conf.t