原创 hive調優
1.優化時,把hive sql當做map reduce程序來讀,會有很好的效果。2.對job數比較多的作業運行效率比較低,即使有幾百行的表,如果多次關聯,多次彙總,作業執行時間還是比較長的。3.對count(distinct),效率較低。優
原创 hive--------總結
1.hive是什麼? hive是建立在Hadoop之上的數據倉庫架構, 它提供了一系列的工具,對數據進行提取轉化加載(ETL),這是一種可以對存儲在hadoop中的大規模的數據的存儲,查詢和分析的機制。 它提供了類sql語
原创 Shell 之 $
$$:代表本shell腳本的進程id$!:代表上次執行的shell腳本的進程id$?:代表上次執行的shell命令的返回值$*:代表所有的參數,格式爲“參數一 參數二 參數三”$@:也代表所有的參數,格式爲“參數一” “參數二” “參數三”
原创 hadoop優化
hadoop 分散磁盤I/O 配置 dfs.data.dir,將其值配置爲多塊磁盤 <key>dfs.data.dir</key> <value>/data/data1,/data/data2,/data/data3</v
原创 大數據處理之流式計算 storm安裝
安裝包準備官網下載最新穩定版本,題主下載的是apache-storm-0.9.5.tar.gz角色分配主機名IP角色hadoop001192.168.0.1Nimbushadoop002192.168.0.2Supervisorhadoop
原创 hive.exec.parallel 設置job並行執行
通過設置hive.exec.parallel參數,使得在同一sql中的job可以並行的執行,因爲在某些場景下,同一sql中,有時子查詢之間並無關聯。默認情況下爲false可以在執行HQL之前,set該參數,hive.exec.paralle
原创 linux中配置環境變量的配置
1.環境變量的查看和設置方法:1.1 查看所有:export1.2 查看某個:echo $HOME1.3 設置一個環境變量: export HELLO="hello!" echo HELLo hello!1.4 查
原创 Linux 下掛載硬盤的 方法
1. 添加磁盤,查看磁盤狀況[root@db1 /]# fdisk -lDisk /dev/sda: 10.7 GB, 10737418240 bytes255 heads, 63 sectors/track, 1305 cylinders
原创 一天linux命令之一-------------dd
dd把制定的輸入文件拷貝到制定的輸出文件中。格式if =輸入文件(或設備名稱)。of =輸出文件(或設備名稱)。ibs = bytes 一次讀取bytes字節,即讀入緩衝區的字節數。skip = blocks 跳過讀入緩衝區開頭的ibs*b
原创 Hadoop源碼解讀(二)>>>>>>>>>>FSDirectory
Hadoop源碼解讀(二)>>>>>>>>>>FSDirectory 這個類的作用就是用來維護HDFS的文件目錄空間的,它始終保存當前的文件名和block塊序列對應的一個map,並將之記入磁盤。
原创 安裝setuptools
有時候安裝python的一些軟件的時候會提示你setuptools之類的東西,這是這這個東西你沒有安裝好.所以你沒有辦法安裝你要裝大軟件. 這裏不再說什麼原理性的東西,僅僅是說說如何安裝setuptools. 1.wge
原创 Ubuntu 更改源
1.可選 備份 cp /etc/apt/sources.list /etc/apt/sources.list.backup2.修改更新源 vi /etc/apt/sources.list3.替換其中
原创 python的setup.py文件及其常用命令
編寫setup.py文件,獲取幫助:python setup.py --help-command[python] Standard commands: build build everything needed
原创 Hive - hive.groupby.skewindata環境變量與負載均衡
HiveQL 去重操作和SQL一樣,HiveQL中同樣支持DISTINCT操作,如下示例:(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) F
原创 我的友情鏈接
51CTO博客開發