原创 hive join 數據傾斜 真實案例

Hive或者MR處理數據,不怕數據量大,就怕傾斜。hive裏大表join的時候,數據傾斜就是個很頭疼的問題。本博主就遇到了一個真實案例,特意記錄下來,有需要的同學可以參考 1.查了5個小時還沒結束的sql語句 set mapred.r

原创 查看python源碼之jieba安裝

Python 2.x 下的安裝 全自動安裝:easy_install jieba 或者 pip install jieba 半自動安裝:先下載http://pypi.python.org/pypi/jieba/ ,解壓後運行pyth

原创 hdfs設置回收站

設定hdfs回收站: 設定hdfs回收站的數據保留1440分鐘,即1天(1*24*60). vi core-site.xml 文件的內容:  <pr

原创 周星馳成名前的故事

有這樣一個人。 他出生在香港的一個內地移民家庭裏,住在九龍窮人區,過着清貧的生活。一家五口擠在一間狹窄的木板房裏,睡的是“上下鋪”的碌架牀,把豉油撈飯當作爲天下美食。七歲的時候,父母離了婚,他跟着母親,姐姐和妹妹過日子。 上初中的暑

原创 我的編程競賽之路 ——中國大學生計算機編程第一人樓天城訪談

25歲的樓天城有“中國大學生計算機編程第一人”的稱號,也被參加競賽的學子們敬稱爲“樓教主”。他的傳奇經歷一直激勵着衆多年輕學子:從2001年開始參加計算機編程競賽,並連獲全國一等獎;2004年入選國家集訓隊,同年獲得IOI金獎並被保送到

原创 克隆虛擬機

以centOS系統爲例: 1.拷貝完虛擬機後, vi /etc/udev/rules.d/70-persistent-net.rules  內容如下: SUBSYSTEM=="net", ACTION=="add", DRIVERS=="

原创 設置linux下heartbeat服務開機啓動

ln -s /etc/init.d/heartbeat /etc/rc.d/rc0.d/K05heartbeat ln -s /etc/init.d/heartbeat /etc/rc.d/rc3.d/S75heartbeat l

原创 python函數之join

Python中的join()函數的用法 函數:string.join() Python中有join()和os.path.join()兩個函數,具體作用如下:     join():    連接字符串數組。將字符串、元組、列表中的元

原创 虛擬機NAT模式設置連接外網

一、描述 在VMware10中 提供常見的三種網絡連接方式 :1、Bridge:這種方式最簡單,直接將虛擬網卡橋接到一個物理網卡上面,與Linux下一個網卡綁定兩個不同地址類似,實際上是將網卡設置爲混雜模式,從而達到偵聽多個IP的能力

原创 MapReduce實現兩表的Join--原理及python和java代碼實現

用Hive一句話搞定的,但是有時必須要用mapreduce 方法介紹 1. 概述 在傳統數據庫(如:MYSQL)中,JOIN操作是非常常見且非常耗時的。而在HADOOP中進行JOIN操作,同樣常見且耗時,由於Hadoop的獨特

原创 tomcat在eclipse中起動成功,主頁卻打不開

tomcat在eclipse中啓動成功,主頁卻打不開 症狀: tomcat在eclipse裏面能正常啓動,而在瀏覽器中訪問http://localhost:8080/不能訪問,且報404錯誤。同時其他項目頁面也不能訪問。 關閉ec

原创 eclipse新建web項目運行時出現The requested resource is not available異常

eclipse新建web項目運行時出現The requested resource is not available錯誤   在eclipse裏新建了一個web項目,加了一個test1.jsp。          新建了一個tomate

原创 HBase常用操作之namespace

1、介紹 在HBase中,namespace命名空間指對一組表的邏輯分組,類似RDBMS中的database,方便對錶在業務上劃分。Apache HBase從0.98.0, 0.95.2兩個版本開始支持namespace級別的授權

原创 python 運行 hadoop 2.0 mapreduce 程序

要點:#!/usr/bin/python 因爲要發送到各個節點,所以py文件必須是可執行的。 1) 統計(所有日誌)獨立ip數目,即不同ip的總數 ####################本地測試################

原创 python 實現Hadoop的partitioner和二次排序

我們有以下應用場景: a.txt,b.txt兩個文件,其中,由於兩個文件的數據量非常龐大,導致我們使用一個reduce任務搞不定,因此需要設定爲2個reduce任務。  但業務部提出的要求是要對兩個文件進行排序。這樣的話,對於多reduc