原创 Hadoop--兩個簡單的MapReduce程序

轉自:http://www.linuxidc.com/Linux/2013-08/88631.htm 這周在學習Hadoop編程,以前看過《Hadoop權威指南》這本書,但是看完了HDFS這一章之後,後面的內容就難以再看懂了,說實話,之

原创 多線程程序注意點

1.實際上,在調用多線程的時候,主函數也是一個線程,調用其他線程之後,不是立馬能跑完的,這時主函數中一些依賴其他線程的功能就會失效。爲了等線程跑完,我採取的方法是:先判斷線程是否還alive,是則sleep。 val r1 = new

原创 通過Spark的shell測試Spark的工作

Step1:啓動Spark集羣,這一點在第三講講的極爲細緻,啓動後的WebUI如下: Step2:啓動Spark Shell: 此時可以通過如下Web控制檯查看shell的情況: Step3:把Spark安裝目錄“RE

原创 配置Hadoop分佈模式並運行Wordcount示例

在VMWare中構建第二、三臺運行Ubuntu的機器和構建第一臺機器完全一樣,再次不在贅述。。 與安裝第一臺Ubuntu機器不同的幾點是: 第一點:我們把第二、三臺Ubuntu機器命名爲了Slave1、Slave2,如下圖所示:

原创 構建Spark集羣

第一步:Spark集羣需要的軟件;  在1、2講的從零起步構建好的Hadoop集羣的基礎上構建Spark集羣,我們這裏採用2014年5月30日發佈的Spark 1.0.0版本,也就是Spark的最新版本,要想基於Spark 1.0.0

原创 解決端口占用問題

終端輸入:lsof -i tcp:port 將port換成被佔用的端口(如:8086、9998) 找到進程的PID,使用kill命令:kill PID(進程的PID,如2044),殺死對應的進程

原创 神奇的37%法則

       還記得小學的時候,語文課本上有一篇課文“最長的麥穗”,是講蘇格拉底叫他的弟子選一顆最長的麥穗,這原本是一個哲學問題,我也一直深刻地記着那位哲學大師告訴我們的道理:最好的往往很難得到,要儘快選擇一個相對好的,莫讓機會一去不復返

原创 python文件/目錄操作整理

在平常做項目的過程中,經常遇到一些python操作文件和目錄的地方,python的documentation在這一塊把幾個知識點分到了兩個地方(11.File and Directory Access 和 16.1.5 Files and

原创 配置Hadoop僞分佈模式並運行Wordcount示例

僞分佈模式主要涉及一下的配置信息: 修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口號; 修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication;

原创 配置Hadoop單機模式並運行Wordcount

安裝ssh Hadoop是採用ssh進行通信的,此時我們要設置密碼爲空,即不需要密碼登陸,這樣免去每次通信時都輸入祕密,安裝如下: 輸入“Y”進行安裝並等待自動安裝完成。 安裝ssh完成後啓動服務 以下命令驗證