台部落富兰克林008

第一步：編譯支持hive的spark assembly http://blog.csdn.net/xiao_jun_0820/article/details/44178169 第二步：讓cloudera manager裝的spark支持

2020-06-20 02:17:13

看了IBM上的一個帖子： http://www.ibm.com/developerworks/cn/data/library/bd-hivetool

2020-06-20 02:17:02

安裝RStudio 下載路徑： https://www.rstudio.com/products/rstudio/download-server/

2020-06-20 02:17:02

開始部署hdfs的時候，文件冗餘3份。那麼1個文件分拆成那些BLK，分別存儲在那裏呢？ hadoop fsck <需要找的文件名> -files -blocks -locations 語句幫你忙。 ##################

2020-06-20 02:17:01

在spark on yarn任務進行時，大家都指導用4040端口監控（默認是，設置其他或者多個任務同時會遞增等例外）; 辣麼，任務結束了，還要看圖形

2020-05-31 19:33:36

spark on yarn-kill正在跑進程 spark-kill-running-application http://stackoverflo

2020-05-31 19:33:36

禁用共享jar包上傳，加快任務啓動發現啓動spark-sql的時候比較慢，腫麼了？平時爲減少一堆信息干擾，console沒有設置INFO級別，需要

2020-05-31 19:33:36

Linux主機sqlldr工具數據導入oracle數據庫（受限空間，只拿幾十條數據測試）數據來源：世界銀行共享的樣本 http://www.ibm

2020-05-31 19:33:36

CDH的很少看到有資料介紹，看到官方文檔明確不支持sparkR。然後在看到Rhadoop的一些博客，捨棄CDH自帶的spark stack，使用Apache上最新的spark1.5.2，直接下載放在節點上，採用spark on yarn

2020-02-24 11:23:04

最近在安裝調測CDH5.5,發現官方文檔明確不支持spark-sql（需要自己去編譯）和sparkR。到/opt/cloudera/parcels/CDH/lib/spark/目錄看裏面，沒有R文件夾，bin裏面也沒有spark-ql和s

2020-02-24 11:23:04

#!/bin/bash #需要預先配置 ################ #每種業務輸入，輸出目錄可能不同，分隔符可能也不是","，可以考慮放在配置文件。 #分隔符個數，文件小門限，顆粒度和超時時間已經放在“Tran_configue.

2020-02-24 11:23:04

NFS Gateway實踐裝上了hadoop，hdfs提供了很大的空間，然後有個問題，我外部很多linux服務器中很多文件如何上傳到hdfs？先

2020-02-24 11:23:04

Hive Metastore實踐總結裝上了CDH5，配置了Hive角色實例，然後建表了。那麼元數據庫裏面有啥東西，大概是什麼？ 3中模式，CDH5我安裝用Remote模式： Configuring th

2018-08-25 22:40:30

對於熟悉Scala開發的人來說，對於spark-sql的使用，直接jar包中寫入代碼處理就能輕鬆實現動態語句的執行。但是對於我，不打算學習Scala和Java語言，但是又想定時執行時間推延的週期、定時任

2018-08-25 22:40:23

參考： Sqoop中文手冊 1、列出mysql數據庫： sqoop list-databases --connect jdbc:mysql://192.168.100.13:3306 --username

2018-08-25 22:40:23