原创 hive-讓我們一起自定義udf

1.準備編寫udf環境 引入依賴 <dependencies>               <dependency>                      <groupId>jdk.tools</groupId>           

原创 Spark 2.0 在作業(job)完成後花費很長時間結束

1.現象 在監控頁面job運行完成了,但是程序還在運行,要等好久才能結束 2.原因: spark 2.0 在保存數據的時候  會用 FileOutputCommitter , 問題就出在了 Hadoop 2.0 FileOutputCom

原创 hive3.0 配置元數據庫,連接mysql出錯

解決步驟 1.配置mysql遠程連接 2.然後初始化 schematool -dbType mysql -initSchema 報錯 如下   解決辦法 修改 hive-site.xml  如下:   第二個問題解決之後,然後在進行

原创 hadoop3.0 啓動成功無法顯示子節點

1.hadoop3.0啓動成功,但是web頁面無法顯示子節點 現象:子節點啓動日誌報錯 原因:/etc/hosts 主機名和IP映射 配置錯誤,導致從節點無法訪問主節點   解決:參考:http://blog.chinaunix.net

原创 kettle-合併記錄

1:合併記錄    該步驟用於將兩個不同來源的數據合併,這兩個來源的數據分別爲舊數據和新數據,該步驟將舊數據和新數據按照指定的關鍵字匹配,    比較,合併。    需要設置的參數:    舊數據來源:舊數據來源的步驟。    新數據來源

原创 kettle-轉換

1:列轉行 2:列轉行 3:去除重複記錄       步驟名稱:保持唯一性       增加計數器到輸出?:當勾選了此項,並在計數器字段後給予了名稱,則將會在該字段下顯示去掉的重複行數。       字段名稱:用來去重的字段,可選多個字段

原创 HBase底層框架.原理.數據存儲

--HBase技術介紹 HBase簡介HBase –Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。HBase是Google

原创 Phoenix是什麼及安裝步驟

phoenix是什麼?Apache Phoenix 是運行在Hbase之上的高性能關係型數據庫,通過Phoenix可以像使用jdbc訪問關係型數據庫一樣訪問hbase。Phoenix,操作的表以及數據存儲在hbase上。phoenix只需