原创 CDH5.5自行編譯支持sparkSQL,sparkR

第一步:編譯支持hive的spark assembly http://blog.csdn.net/xiao_jun_0820/article/details/44178169 第二步:讓cloudera manager裝的spark支持

原创 使用 hadoop組件 作爲 ETL 或 ELT 工具

看了IBM上的一個帖子: http://www.ibm.com/developerworks/cn/data/library/bd-hivetool

原创 Centos 6.7 安裝RStudio server遇到的問題總結

安裝RStudio 下載路徑: https://www.rstudio.com/products/rstudio/download-server/

原创 hdfs文件3個副本BLK的查找

開始部署hdfs的時候,文件冗餘3份。那麼1個文件分拆成那些BLK,分別存儲在那裏呢? hadoop fsck <需要找的文件名> -files -blocks -locations 語句幫你忙。 ##################

原创 spark on yarn圖形化任務監控利器:History-server幫你理解spark的任務執行過程

在spark on yarn任務進行時,大家都指導用4040端口監控(默認是,設置其他或者多個任務同時會遞增等例外); 辣麼,任務結束了,還要看圖形

原创 spark on yarn-kill正在跑進程

spark on yarn-kill正在跑進程 spark-kill-running-application http://stackoverflo

原创 禁用共享jar包上傳,加快任務啓動

禁用共享jar包上傳,加快任務啓動 發現啓動spark-sql的時候比較慢,腫麼了?平時爲減少一堆信息干擾,console沒有設置INFO級別,需要

原创 Linux主機sqlldr工具批量文本數據導入oracle數據庫

Linux主機sqlldr工具數據導入oracle數據庫(受限空間,只拿幾十條數據測試) 數據來源:世界銀行共享的樣本 http://www.ibm

原创 CDH5.5上安裝Rhadoop,RStudio server版初始化SparkR

CDH的很少看到有資料介紹,看到官方文檔明確不支持sparkR。 然後在看到Rhadoop的一些博客,捨棄CDH自帶的spark stack,使用Apache上最新的spark1.5.2,直接下載放在節點上,採用spark on yarn

原创 spark on yarn的理解

最近在安裝調測CDH5.5,發現官方文檔明確不支持spark-sql(需要自己去編譯)和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目錄看裏面,沒有R文件夾,bin裏面也沒有spark-ql和s

原创 linux-結構化成行成列-小文件循環合併成大文件--方便上傳到hadoop

#!/bin/bash #需要預先配置 ################ #每種業務輸入,輸出目錄可能不同,分隔符可能也不是",",可以考慮放在配置文件。 #分隔符個數,文件小門限,顆粒度和超時時間已經放在“Tran_configue.

原创 NFS Gateway實踐

NFS Gateway實踐 裝上了hadoop,hdfs提供了很大的空間,然後有個問題,我外部很多linux服務器中很多文件如何上傳到hdfs? 先

原创 Hive Metastore實踐總結

Hive Metastore實踐總結 裝上了CDH5,配置了Hive角色實例,然後建表了。那麼元數據庫裏面有啥東西,大概是什麼? 3中模式,CDH5我安裝用Remote模式: Configuring th

原创 crontab shell調用spark-sql,實現週期性動態SQL批量自動執行

對於熟悉Scala開發的人來說,對於spark-sql的使用,直接jar包中寫入代碼處理就能輕鬆實現動態語句的執行。 但是對於我,不打算學習Scala和Java語言,但是又想定時執行時間推延的週期、定時任

原创 sqoop工具在hive和mysql之間互相導數據

參考: Sqoop中文手冊 1、列出mysql數據庫: sqoop list-databases --connect jdbc:mysql://192.168.100.13:3306 --username