原创 Object類的方法

protected Object clone()創建並返回此對象的一個副本。 boolean equals(Object obj)指示其他某個對象是否與此對象“相等”。 protected void finalize(

原创 海量數據處理問題彙總

第一部分、十道海量數據處理面試題 1、海量日誌數據,提取出某日訪問百度次數最多的那個IP。 首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用映射的方法,

原创 git提交代碼到遠程服務器

在已有的Git庫中搭建新庫,並且將本地的git倉庫,上傳到遠程服務器的git庫中,從而開始一個新的項目首先,在本地新建文件夾abc,進入到abc裏面,然後git init。這樣就在本地初始化了一個git項目abc。然後,登錄到遠程的gi

原创 MapReduce源碼解析之Outputforamt

     OutputFormat過程的作用就是定義數據key-value的輸出格式,給你處理好後的數據,究竟以什麼樣的形式輸出呢,才能讓下次別人拿到這個文件的時候能準確的提取出裏面的數據。這裏,我們撇開這個話題,僅僅我知道的一些定義

原创 開源大數據利器彙總

類別 名稱 官網 備註 查詢引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一個SQL中間層,完全使用Java編寫 Kylin

原创 對現有Hive的大表進行動態分區

分區是在處理大型事實表時常用的方法。分區的好處在於縮小查詢掃描範圍,從而提高速度。分區分爲兩種:靜態分區static partition和動態分區dynamic partition。靜態分區和動態分區的區別在於導入數據時,是手動輸入分

原创 linux下用cron定時執行任務的方法

名稱 : crontab 使用權限 : 所有使用者 使用方式 : crontab file [-u user]-用指定的文件替代目前的crontab。 crontab-[-u user]-用標準輸

原创 Zookeeper

作者:張雲聰 鏈接:https://www.zhihu.com/question/35139415/answer/61562488 來源:知乎 著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。ZooKeeper & k

原创 Mapreduce執行過程分析(基於Hadoop2.4)——(一)

轉載自:http://www.cnblogs.com/Scott007/p/3836687.html 1 概述 該瞅瞅MapReduce的內部運行原理了,以前只知道個皮毛,再不搞搞,不然怎麼死的都不曉得。下文會以2.4版本中的Wo

原创 深入理解 Java中的 流 (Stream)

最近在看《Hadoop:The Definitive Guide》,對其分佈式文件系統HDFS的Streaming data access不能理解。基於流的數據讀寫,太抽象了,什麼叫基於流,什麼是流?Hadoop是Java語言寫的,所以

原创 Linux執行crontab腳本出錯

Linux下用crontab執行定時任務不會缺省的從用戶profile文件中讀取環境變量參數,經常導致在手工執行某個 腳本時是成功的,但是到crontab中試圖讓它定期執行時就是會出錯。這是因爲用戶登陸Linux操作系統的時候,”/etc

原创 Mapreduce執行過程分析(基於Hadoop2.4)——(二)

轉載自:http://www.cnblogs.com/Scott007/p/3840125.html 4.3 Map類    創建Map類和map函數,map函數是org.apache.hadoop.mapreduce.Mappe

原创 hive內置函數

目錄: 初始Hive Hive安裝與配置 Hive 內建操作符與函數開發 Hive JDBC hive參數 Hive 高級編程 Hive QL Hive Shell 基本操作 hive 優化 Hive體系結構 Hi

原创 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by     Hive中的order by跟傳統的sql語言中的order by作用是一樣的,會對查詢的結果做一次全局排序,所以說,只有hive的sql中制定了order by所有的數據都會到同一個reducer進行

原创 Teradata學習筆記

1. LIKE用法 select first_name,last_name from employee where last_name like all('%E%','%S%'); select first_name,last_name