台部落woqiang68

Hive或者MR處理數據，不怕數據量大，就怕傾斜。hive裏大表join的時候，數據傾斜就是個很頭疼的問題。本博主就遇到了一個真實案例，特意記錄下來，有需要的同學可以參考 1.查了5個小時還沒結束的sql語句 set mapred.r

2020-07-02 13:52:43

Python 2.x 下的安裝全自動安裝：easy_install jieba 或者 pip install jieba 半自動安裝：先下載http://pypi.python.org/pypi/jieba/ ，解壓後運行pyth

2020-07-02 13:52:43

設定hdfs回收站: 設定hdfs回收站的數據保留1440分鐘，即1天(1*24*60). vi core-site.xml 文件的內容: <pr

2020-07-02 13:52:33

有這樣一個人。他出生在香港的一個內地移民家庭裏，住在九龍窮人區，過着清貧的生活。一家五口擠在一間狹窄的木板房裏，睡的是“上下鋪”的碌架牀，把豉油撈飯當作爲天下美食。七歲的時候，父母離了婚，他跟着母親，姐姐和妹妹過日子。上初中的暑

2020-02-21 16:05:42

25歲的樓天城有“中國大學生計算機編程第一人”的稱號，也被參加競賽的學子們敬稱爲“樓教主”。他的傳奇經歷一直激勵着衆多年輕學子：從2001年開始參加計算機編程競賽，並連獲全國一等獎；2004年入選國家集訓隊，同年獲得IOI金獎並被保送到

2020-02-21 16:05:30

以centOS系統爲例: 1.拷貝完虛擬機後, vi /etc/udev/rules.d/70-persistent-net.rules 內容如下: SUBSYSTEM=="net", ACTION=="add", DRIVERS=="

2020-02-21 16:05:30

ln -s /etc/init.d/heartbeat /etc/rc.d/rc0.d/K05heartbeat ln -s /etc/init.d/heartbeat /etc/rc.d/rc3.d/S75heartbeat l

2020-02-21 16:05:30

Python中的join()函數的用法函數：string.join() Python中有join()和os.path.join()兩個函數，具體作用如下： join()：連接字符串數組。將字符串、元組、列表中的元

2020-02-21 16:05:30

一、描述在VMware10中提供常見的三種網絡連接方式：1、Bridge:這種方式最簡單,直接將虛擬網卡橋接到一個物理網卡上面，與Linux下一個網卡綁定兩個不同地址類似，實際上是將網卡設置爲混雜模式，從而達到偵聽多個IP的能力

2020-02-21 16:05:30

用Hive一句話搞定的，但是有時必須要用mapreduce 方法介紹 1. 概述在傳統數據庫（如：MYSQL）中，JOIN操作是非常常見且非常耗時的。而在HADOOP中進行JOIN操作，同樣常見且耗時，由於Hadoop的獨特

2020-02-21 16:05:30

tomcat在eclipse中啓動成功，主頁卻打不開症狀： tomcat在eclipse裏面能正常啓動，而在瀏覽器中訪問http://localhost:8080/不能訪問，且報404錯誤。同時其他項目頁面也不能訪問。關閉ec

2020-02-21 16:05:30

eclipse新建web項目運行時出現The requested resource is not available錯誤　　在eclipse裏新建了一個web項目，加了一個test1.jsp。新建了一個tomate

2020-02-21 16:05:30

1、介紹在HBase中，namespace命名空間指對一組表的邏輯分組，類似RDBMS中的database，方便對錶在業務上劃分。Apache HBase從0.98.0, 0.95.2兩個版本開始支持namespace級別的授權

2020-02-21 16:05:30

要點：#!/usr/bin/python 因爲要發送到各個節點，所以py文件必須是可執行的。 1）統計（所有日誌）獨立ip數目，即不同ip的總數 ####################本地測試################

2020-02-21 16:05:30

我們有以下應用場景: a.txt,b.txt兩個文件，其中，由於兩個文件的數據量非常龐大，導致我們使用一個reduce任務搞不定，因此需要設定爲2個reduce任務。但業務部提出的要求是要對兩個文件進行排序。這樣的話，對於多reduc

2020-02-21 16:05:30