原创 手動刪除/kylin hdfs 上的數據

手動刪除/kylin  hdfs 上的數據       使用kylin一段時間,不難發現kylin指定的work folder目錄下存儲的數據越來越多。我們在使用kylin時,由於數據模型設計及其他問題,多次數據回溯,導致kylin的wo

原创 flume/kafaka/spqrk測試用例

flume/kafaka/spqrk測試用例 一、 flume+spark(一) flume代碼 #exec source + memory channel + hdfs sink # Name the components on t

原创 spark開發環境搭建

spark開發環境搭建及測試 一、本地intellij idea搭建spark開發環境 (我用的不是maven方式,是導包的) 環境介紹 cm管理 cdh5.8.4  spark 1.6.0 java 1.7 scala本地和集羣用的都是

原创 oozie_bug

oozie_bug 提交oozie任務(包含sqoop任務的shell腳本) 報如下錯誤: Job init failed : org.apache.hadoop.yarn.exceptions.YarnRuntimeException

原创 阿里巴巴大數據之路讀書分享

阿里巴巴大數據之路讀書分享 文章目錄阿里巴巴大數據之路讀書分享前言阿里巴巴大數據系統的體系架構圖及介紹數據採集層數據採集數據傳輸數據計算層離線數據開發實時數據開發數據服務層數據應用數據模型模型體系架構模型實施維表設計事實表設計規範

原创 hbase重點總結

Hbase                                                官網:http://hbase.apache.org/ 1、hbase rowkey怎麼創建比較好,列簇怎麼創建比較好? 1、三

原创 cloudera-manager安裝

cloudera-manager安裝 一、機器準備 選用服務器或者阿里雲服務器,安裝CentOS6.5系統。 注意:安裝操作系統時,選擇桌面版,其他版本會出現缺失包等異常錯誤,請安裝64位版本,CM不支持32位CentOS。 驗證方法:使

原创 flume中幾種常見的source、channel、sink

                                         flume中幾種source、channel、sink 一、source 1、avro source 偵聽Avro端口並從外部Avro客戶端流接收事件。 當

原创 hive與es交互bug

hive與es交互bug 一、hive數據寫入es,hive查詢報錯(貌似不能查詢) Bad status for request TFetchResultsReq(fetchType=0, operationHandle=TOperat

原创 hive查詢語句

Hive查詢 1、hive模糊搜索表 show tables like '*name*'; 2、查看錶結構信息 desc formatted tablename; desc table_name 3、查看分區信息 show partiti

原创 UDF函數

UDF函數  UDF函數可以直接應用於select語句,對查詢結構做格式化處理輸出內容。自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF,實現evaluate函數。 自定義udf函數步驟:   1.繼承UDF

原创 cloudera Manager 配置報警郵箱

cloudera Manager 配置報警郵箱

原创 搭建CDH版phoenix

搭建CDH版phoenix 說明:     網上有搭建的文檔,但是還是踩了很多坑。     我用的CDH5.8.4,對應的hbase是1.2的。 安裝:   下載地址:https://github.com/chiastic-securit

原创 離線項目pom文件

- <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLo

原创 sqoop腳本

                                                                        關係型數據庫到大數據平臺到關係型數據庫shell腳本 測試腳