台部落qbyjxg001

轉自：http://www.linuxidc.com/Linux/2013-08/88631.htm 這周在學習Hadoop編程，以前看過《Hadoop權威指南》這本書，但是看完了HDFS這一章之後，後面的內容就難以再看懂了，說實話，之

2018-08-24 05:18:39

1.實際上，在調用多線程的時候，主函數也是一個線程，調用其他線程之後，不是立馬能跑完的，這時主函數中一些依賴其他線程的功能就會失效。爲了等線程跑完，我採取的方法是：先判斷線程是否還alive，是則sleep。 val r1 = new

2018-08-24 05:18:37

Step1:啓動Spark集羣，這一點在第三講講的極爲細緻，啓動後的WebUI如下： Step2:啓動Spark Shell：此時可以通過如下Web控制檯查看shell的情況： Step3:把Spark安裝目錄“RE

2018-08-24 05:18:37

在VMWare中構建第二、三臺運行Ubuntu的機器和構建第一臺機器完全一樣，再次不在贅述。。與安裝第一臺Ubuntu機器不同的幾點是：第一點：我們把第二、三臺Ubuntu機器命名爲了Slave1、Slave2，如下圖所示：

2018-08-24 05:18:37

第一步：Spark集羣需要的軟件；在1、2講的從零起步構建好的Hadoop集羣的基礎上構建Spark集羣，我們這裏採用2014年5月30日發佈的Spark 1.0.0版本，也就是Spark的最新版本，要想基於Spark 1.0.0

2018-08-24 05:18:37

終端輸入：lsof -i tcp:port 將port換成被佔用的端口(如：8086、9998) 找到進程的PID,使用kill命令：kill PID（進程的PID，如2044），殺死對應的進程

2018-08-24 05:18:37

還記得小學的時候，語文課本上有一篇課文“最長的麥穗”，是講蘇格拉底叫他的弟子選一顆最長的麥穗，這原本是一個哲學問題，我也一直深刻地記着那位哲學大師告訴我們的道理：最好的往往很難得到，要儘快選擇一個相對好的，莫讓機會一去不復返

2018-08-24 05:18:37

在平常做項目的過程中，經常遇到一些python操作文件和目錄的地方，python的documentation在這一塊把幾個知識點分到了兩個地方（11.File and Directory Access 和 16.1.5 Files and

2018-08-24 05:18:37

僞分佈模式主要涉及一下的配置信息：修改Hadoop的核心配置文件core-site.xml，主要是配置HDFS的地址和端口號；修改Hadoop中HDFS的配置文件hdfs-site.xml，主要是配置replication;

2018-08-24 05:18:34

安裝ssh Hadoop是採用ssh進行通信的，此時我們要設置密碼爲空，即不需要密碼登陸，這樣免去每次通信時都輸入祕密，安裝如下：輸入“Y”進行安裝並等待自動安裝完成。安裝ssh完成後啓動服務以下命令驗證

2018-08-24 04:59:46