原创 hive調優

1.優化時,把hive sql當做map reduce程序來讀,會有很好的效果。2.對job數比較多的作業運行效率比較低,即使有幾百行的表,如果多次關聯,多次彙總,作業執行時間還是比較長的。3.對count(distinct),效率較低。優

原创 hive--------總結

1.hive是什麼?    hive是建立在Hadoop之上的數據倉庫架構,    它提供了一系列的工具,對數據進行提取轉化加載(ETL),這是一種可以對存儲在hadoop中的大規模的數據的存儲,查詢和分析的機制。    它提供了類sql語

原创 Shell 之 $

$$:代表本shell腳本的進程id$!:代表上次執行的shell腳本的進程id$?:代表上次執行的shell命令的返回值$*:代表所有的參數,格式爲“參數一 參數二 參數三”$@:也代表所有的參數,格式爲“參數一” “參數二” “參數三”

原创 hadoop優化

hadoop 分散磁盤I/O    配置 dfs.data.dir,將其值配置爲多塊磁盤    <key>dfs.data.dir</key>    <value>/data/data1,/data/data2,/data/data3</v

原创 大數據處理之流式計算 storm安裝

安裝包準備官網下載最新穩定版本,題主下載的是apache-storm-0.9.5.tar.gz角色分配主機名IP角色hadoop001192.168.0.1Nimbushadoop002192.168.0.2Supervisorhadoop

原创 hive.exec.parallel 設置job並行執行

通過設置hive.exec.parallel參數,使得在同一sql中的job可以並行的執行,因爲在某些場景下,同一sql中,有時子查詢之間並無關聯。默認情況下爲false可以在執行HQL之前,set該參數,hive.exec.paralle

原创 linux中配置環境變量的配置

1.環境變量的查看和設置方法:1.1 查看所有:export1.2 查看某個:echo $HOME1.3 設置一個環境變量:     export HELLO="hello!"     echo HELLo     hello!1.4 查

原创 Linux 下掛載硬盤的 方法

1. 添加磁盤,查看磁盤狀況[root@db1 /]# fdisk -lDisk /dev/sda: 10.7 GB, 10737418240 bytes255 heads, 63 sectors/track, 1305 cylinders

原创 一天linux命令之一-------------dd

dd把制定的輸入文件拷貝到制定的輸出文件中。格式if =輸入文件(或設備名稱)。of =輸出文件(或設備名稱)。ibs = bytes 一次讀取bytes字節,即讀入緩衝區的字節數。skip = blocks 跳過讀入緩衝區開頭的ibs*b

原创 Hadoop源碼解讀(二)>>>>>>>>>>FSDirectory

Hadoop源碼解讀(二)>>>>>>>>>>FSDirectory    這個類的作用就是用來維護HDFS的文件目錄空間的,它始終保存當前的文件名和block塊序列對應的一個map,並將之記入磁盤。    

原创 安裝setuptools

   有時候安裝python的一些軟件的時候會提示你setuptools之類的東西,這是這這個東西你沒有安裝好.所以你沒有辦法安裝你要裝大軟件.    這裏不再說什麼原理性的東西,僅僅是說說如何安裝setuptools.    1.wge

原创 Ubuntu 更改源

1.可選  備份    cp     /etc/apt/sources.list      /etc/apt/sources.list.backup2.修改更新源        vi /etc/apt/sources.list3.替換其中

原创 python的setup.py文件及其常用命令

編寫setup.py文件,獲取幫助:python setup.py --help-command[python] Standard commands:  build             build everything needed

原创 Hive - hive.groupby.skewindata環境變量與負載均衡

HiveQL 去重操作和SQL一樣,HiveQL中同樣支持DISTINCT操作,如下示例:(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) F

原创 我的友情鏈接

51CTO博客開發