原创 Spark源碼解讀-JOB的提交與執行

本文以wordCount爲例,詳細說明spark創建和運行job的過程,重點是在進程及線程的創建。 實驗環境搭建 在進行後續操作前,確保下列條件已滿足。 1. 下載spark binary 0.9.1 2. 安裝scala 3

原创 hive之實現列轉行

樣例: select * from tab1 limit 10; 結果: id  num a  1 a  2 a  3 b  4 b  3 ····· 現在想實現把id一樣的數據在一條數據中展現。 結果示例: a

原创 hive-內部表與外部表的區別

本文以例子的形式介紹一下Hive內表和外表的區別。例子共有4個:不帶分區的內表、帶分區的內表、不帶分區的外表、帶分區的外表。1 不帶分區的內表#創建表create table innerTable(id int,name string)

原创 hive如何應對數據傾斜

數據傾斜 概念:數據傾斜是指,map /reduce程序執行時,reduce節點大部分執行完畢,但是 有一個或者幾個reduce節點運行很慢,導致整個程序的處理時間很長,這是因爲某一 個key的條數比其他key多很多(有時是百倍或者

原创 Hive之簡單查詢不啓用MapReduce

如果你想查詢某個表的某一列,Hive默認是會啓用MapReduce Job來完成這個任務,如下: 01 hive> SELECT id, money FROM m limit 10; 02 To

原创 系統架構師成長之路(五)

     在計算機發展的初期,“大容量”硬盤的價格還相當高,解決數據存儲安全性問題的主要方法是使用磁帶機等設備進行備份,這種方法雖然可以保證數據的安全,但查閱和備份工作都相當繁瑣。爲什麼大數據集羣不需要做Raid?在集羣規模達到一定規

原创 系統架構師成長之路(三)

   在當前的互聯網領域,大數據的應用已經十分廣泛,尤其以企業爲主,企業成爲大數據應用的主體。大數據真能改變企業的運作方式嗎?答案毋庸置疑是肯定的。隨着企業開始利用大數據,我們每天都會看到大數據新的奇妙的應用,幫助人們真正從中獲益。大數據

原创 系統架構師成長之路(四)

  大數據應用現狀      隨着企業的數據量的迅速增長,存儲和處理大規模數據已成爲企業的迫切需求。Hadoop作爲開源的雲計算平臺,已引起了學術界和企業的普遍興趣。       在學術方面,Hadoop得到了各科研院所的廣泛關注,

原创 hive如何生成rowid

hive沒有像oracle中rowid的用法,那麼,如果用戶想要對數據按照 客戶id進行排序,生成一個rowid,該如何實現呢? 藉助row_number函數及over來實現生成rowid: select cust_no,row_numb

原创 Hadoop集羣性能優化一

挺喜歡這句話:“堅持,是基於 你對某件事的熱愛,纔能有動力堅持下去。 在學習的過程中,需要戰勝自己的惰性和驕傲!”好了,下面說下如何提升 集羣的性能:    在硬件方面,第一,商業硬件並不等同於低端硬件。低端機器常常使用 便宜的零部件,

原创 系統架構師成長之路(一)

   背景:系統架構師是近幾年來在國內外迅速成長並發展良好的一個職業,它對系統開發和信息化建設的重要性及給IT業所帶來的影響是不言而喻的。在我國,雖然系統架構師的職業在工作內容、工作職責以及工作邊界等方面還存在一定的模糊性和不確定性,但它

原创 系統架構師成長之路(二)

   本篇主要介紹操作系統基礎知識。    操作系統(Operating System,OS)是計算機系統的核心繫統軟件,其他軟件是建立在操作系統基礎上,並在操作系統的統一管理和支持下運行。    計算機系統的硬件資源包括中央處理機(CP

原创 hive內置函數大全

======================================一、關係函數1.等值比較:=    語法:A=B操作類型:所有基本類型2.不等值比較:<>    語法:A<>B    操作類型:所有基本類型3.小於比較:< 

原创 查看Linux系統版本信息相關指令

Linux下如何查看版本信息, 包括位數、版本信息以及CPU內核信息、CPU具體型號等等,整個CPU信息一目瞭然。     1、# uname -a   (Linux查看版本當前操作系統內核信息)     Linux localhost

原创 Shell:value too great for base

今天定時計劃刪除文件沒執行成功,查看了下日誌,發現報錯爲line 38 :08:value too great  for base (error token is "08")。 查看了下代碼: 其它的忽略不計,重點看下38行 .....