原创 TDW(Tencent Data Warehouse)之hive簡介
1. 基本概念 Hive是由Facebook在2007年8月開始開發,並於2008年8月開源(https://issues.apache.org/jira/browse/HADOOP-3601)。它是建立在Hadoop上的數
原创 sbt使用及配置
the summary of sbt 簡介 sbt是一個專門用來編譯scala工程的編譯工具,其本身也是用scala實現。 github地址 安裝與配置 安裝 常用方法1:下載包 下載 export環境變量到PATH即可 常用方法2
原创 spark job server原理
配置相關 settings.sh 功能:配置環境變量 APP_USER/APP_GROUP:作業提交用戶和組 JMX_PORT:java jmx端口,通常在aws或者其他容器裏打開 INSTALL_DIR:sjs所做目錄 LOG_DI
原创 Hive現網內存問題定位總結
現網內存問題定位總結 前段時間,現網遇到一個很奇葩的問題,server會莫名其妙的重啓。個人功力有限,這個問題搞了好久才找到問題原因,現在就把此類問題的基本定位方法梳理一下,也算是一個總結吧。 搞java(或其他JVM語言)
原创 orcFile split和讀數據原理總結(hive0.13)
官網關於orcfile的介紹 背景 Hive的rcfile格式已經使用多年,但是,它會將所有的列都當做二進制來處理,沒有與類型掛鉤。因此,Hive0.11版本引入orcFile。OrcFile有以下幾點好處: 每個task只生成一個
原创 機器學習之決策樹——學習總結
決策樹學習總結 機器學習的應用越來越廣泛,特別是在數據分析領域。本文是我學習決策樹算法的一些總結。 機器學習簡介 機器學習 (Machine Learning) 是近 20 多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸
原创 spark job server使用方法
入門 clone代碼 從github上的spark-jobserver工程clone代碼到本地 編譯 需要將工程根目錄下的config文件刪除 將文件夾job-server/config拷貝到工程根目錄下 將local.conf.t