原创 hadoop 日誌分析程序

實戰2——Hadoop的日誌分析 1). 日誌格式分析 首先分析 Hadoop 的日誌格式, 日誌是一行一條, 日誌格式可以依次描述爲:日期、時間、級別、相關類和提示信息。如下所示:  2013-03-06 15:23:48,13

原创 chukwa介紹

Apache 的開源項目 hadoop, 作爲一個分佈式存儲和計算系統,已經被業界廣泛應用。很多大型企業都有了各自基於 hadoop 的應用和相關擴展。當 1000+ 以上個節點的 hadoop 集羣變得常見時,集羣自身的相關信息如何收

原创 配置hadoop.tmp.dir 目錄

  感謝原有發帖人,內容來源:http://f.dataguru.cn/thread-23704-1-1.html HADOOP 配置HADDOP.TMP.DIR 注意 先說說,場景,在開發環境中,由於意外斷電.重新啓動HADOOP MA

原创 基於Ubuntu12.04+hadoop1.2.0 的hadoop集羣搭建

Ubuntu12.04搭建hadoop1.2集羣 轉載請註明出處 (一)       環境準備 首先準備5臺電腦。我這裏使用的是OpenStack虛擬出來的五臺電腦。每個實例安裝的系統是Ubuntu 12.04.2 LTS,虛擬配置如下:

原创 hadoop集羣的安全模式

hadoop集羣的安全模式   NameNode在啓動的時候首先進入安全模式,如果datanode丟失的block達到一定的比例(1-dfs.safemode.threshold.pct),則系統會一直處於安全模式狀態即只讀狀態。 dfs

原创 Hadoop學習——HDFS數據備份與放置策略

hadoopHDFS數據備份放置策略 目錄(?)[+] 對於分佈式文件系統來說,爲了保證數據的高可用性和系統容錯能力,往往會把同一數據塊在多個節點上進行備份,那麼如何分配這些複製數據的位置,不同的文件系統會有不同的策略。 一、業界分析

原创 ubuntu12.04集羣安裝Spark

原文地址:http://blog.csdn.net/yangning5850/article/details/9143151 目錄(?)[-] 下載Spark下載Scala安裝sbt編譯Spark關於Hadoop版本 Spark——Li

原创 Spark獨立部署模式

Spark獨立部署模式 英文原文連接:http://spark-project.org/docs/latest/spark-standalone.html 翻譯的水平有限,歡迎批評指正,轉載請註明出處。 除了部署在Mesos之上, Sp

原创 啓動Hadoop後發現datanode無法啓動

感謝原有發帖人,內容來源:http://f.dataguru.cn/thread-24378-1-1.html ***最近發現重啓虛擬機後,啓動Hadoop後發現datanode無法啓動,查看日誌報如下錯誤: ERROR org.apac

原创 Hadoop學習——HDFS系統架構

hadoopHDFS 目錄(?)[-] 一業界調研 GFSCephFhGFSGlusterFSLustre二HDFS Hadoop的分佈式文件系統HDFS主要是借鑑了Google發表的論文:The Google File System。

原创 Spark隨談(一)—— 總體架構

http://www.16kan.com/post/113877.html Spark是一個小巧玲瓏的項目,由Berkeley大學的Matei爲主的小團隊所開發。使用的語言是Scala,項目的core部分的代碼只有63個Scala文件,

原创 hadoop命令詳解

hadoop命令詳解 一、用戶命令1、archive命令 (1).什麼是Hadoop archives? Hadoop archives是特殊的檔案格式。一個Hadoop archive對應一個文件系統目錄。 Hadoop archiv

原创 On-Disk還是In-Memory:兩種數據庫對比

http://club.techtarget.com.cn/space/viewspacepost.aspx?postid=5827 我們所知道的最普遍的傳統數據庫包括Oracle和MySQL等,如果按照數據存儲的介質,我們可以把它們稱爲

原创 Linux 技巧:讓進程在後臺可靠運行的幾種方法

原文作者:申毅,IBM 中國軟件開發中心 WebSphere Portal 部門軟件工程師。 地址:http://www.ibm.com/developerworks/cn/linux/l-cn-nohup/   我們經常會碰到這樣的

原创 如何在集羣上運行Shark

如何在集羣上運行Shark 本文介紹在計算機集羣上如何啓動和運行Shark。如果對Amazon EC2上運行Shark感興趣,請點擊這裏查看如何使用EC2腳本快速啓動預先配置好的集羣。 依賴: 注意:Shark是一個即插即用的工具,所以可