原创 hive-讓我們一起自定義udf
1.準備編寫udf環境 引入依賴 <dependencies> <dependency> <groupId>jdk.tools</groupId>
原创 Spark 2.0 在作業(job)完成後花費很長時間結束
1.現象 在監控頁面job運行完成了,但是程序還在運行,要等好久才能結束 2.原因: spark 2.0 在保存數據的時候 會用 FileOutputCommitter , 問題就出在了 Hadoop 2.0 FileOutputCom
原创 hive3.0 配置元數據庫,連接mysql出錯
解決步驟 1.配置mysql遠程連接 2.然後初始化 schematool -dbType mysql -initSchema 報錯 如下 解決辦法 修改 hive-site.xml 如下: 第二個問題解決之後,然後在進行
原创 hadoop3.0 啓動成功無法顯示子節點
1.hadoop3.0啓動成功,但是web頁面無法顯示子節點 現象:子節點啓動日誌報錯 原因:/etc/hosts 主機名和IP映射 配置錯誤,導致從節點無法訪問主節點 解決:參考:http://blog.chinaunix.net
原创 kettle-合併記錄
1:合併記錄 該步驟用於將兩個不同來源的數據合併,這兩個來源的數據分別爲舊數據和新數據,該步驟將舊數據和新數據按照指定的關鍵字匹配, 比較,合併。 需要設置的參數: 舊數據來源:舊數據來源的步驟。 新數據來源
原创 kettle-轉換
1:列轉行 2:列轉行 3:去除重複記錄 步驟名稱:保持唯一性 增加計數器到輸出?:當勾選了此項,並在計數器字段後給予了名稱,則將會在該字段下顯示去掉的重複行數。 字段名稱:用來去重的字段,可選多個字段
原创 HBase底層框架.原理.數據存儲
--HBase技術介紹 HBase簡介HBase –Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。HBase是Google
原创 Phoenix是什麼及安裝步驟
phoenix是什麼?Apache Phoenix 是運行在Hbase之上的高性能關係型數據庫,通過Phoenix可以像使用jdbc訪問關係型數據庫一樣訪問hbase。Phoenix,操作的表以及數據存儲在hbase上。phoenix只需