原创 手動刪除/kylin hdfs 上的數據
手動刪除/kylin hdfs 上的數據 使用kylin一段時間,不難發現kylin指定的work folder目錄下存儲的數據越來越多。我們在使用kylin時,由於數據模型設計及其他問題,多次數據回溯,導致kylin的wo
原创 flume/kafaka/spqrk測試用例
flume/kafaka/spqrk測試用例 一、 flume+spark(一) flume代碼 #exec source + memory channel + hdfs sink # Name the components on t
原创 spark開發環境搭建
spark開發環境搭建及測試 一、本地intellij idea搭建spark開發環境 (我用的不是maven方式,是導包的) 環境介紹 cm管理 cdh5.8.4 spark 1.6.0 java 1.7 scala本地和集羣用的都是
原创 oozie_bug
oozie_bug 提交oozie任務(包含sqoop任務的shell腳本) 報如下錯誤: Job init failed : org.apache.hadoop.yarn.exceptions.YarnRuntimeException
原创 阿里巴巴大數據之路讀書分享
阿里巴巴大數據之路讀書分享 文章目錄阿里巴巴大數據之路讀書分享前言阿里巴巴大數據系統的體系架構圖及介紹數據採集層數據採集數據傳輸數據計算層離線數據開發實時數據開發數據服務層數據應用數據模型模型體系架構模型實施維表設計事實表設計規範
原创 hbase重點總結
Hbase 官網:http://hbase.apache.org/ 1、hbase rowkey怎麼創建比較好,列簇怎麼創建比較好? 1、三
原创 cloudera-manager安裝
cloudera-manager安裝 一、機器準備 選用服務器或者阿里雲服務器,安裝CentOS6.5系統。 注意:安裝操作系統時,選擇桌面版,其他版本會出現缺失包等異常錯誤,請安裝64位版本,CM不支持32位CentOS。 驗證方法:使
原创 flume中幾種常見的source、channel、sink
flume中幾種source、channel、sink 一、source 1、avro source 偵聽Avro端口並從外部Avro客戶端流接收事件。 當
原创 hive與es交互bug
hive與es交互bug 一、hive數據寫入es,hive查詢報錯(貌似不能查詢) Bad status for request TFetchResultsReq(fetchType=0, operationHandle=TOperat
原创 hive查詢語句
Hive查詢 1、hive模糊搜索表 show tables like '*name*'; 2、查看錶結構信息 desc formatted tablename; desc table_name 3、查看分區信息 show partiti
原创 UDF函數
UDF函數 UDF函數可以直接應用於select語句,對查詢結構做格式化處理輸出內容。自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF,實現evaluate函數。 自定義udf函數步驟: 1.繼承UDF
原创 cloudera Manager 配置報警郵箱
cloudera Manager 配置報警郵箱
原创 搭建CDH版phoenix
搭建CDH版phoenix 說明: 網上有搭建的文檔,但是還是踩了很多坑。 我用的CDH5.8.4,對應的hbase是1.2的。 安裝: 下載地址:https://github.com/chiastic-securit
原创 離線項目pom文件
- <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLo
原创 sqoop腳本
關係型數據庫到大數據平臺到關係型數據庫shell腳本 測試腳