原创 hadoop中節點

namenode主要功能 namenode提供名稱查詢服務 namenode保存metadate信息。(包括oweership和permissions)。文件包含哪些塊;Block保存在哪個Datanode(由DataNode啓

原创 Hadoop中的Java api

從Hadoop文件系統中讀取文件 1.通過java.net.URL對象打開數據流,讀取數據 InputStream in=null; try{ in=new URL('hdfs://host/path').openStre

原创 Hadoop中文件操作

hadoop文件的序列化 Hadoop中序列化機制在每個類對象第一次出現時候保持了每個類的信息,如類名,第二次出現時候會有一個類的reference,導致空間浪費。 Java序列化不能複用對象,Java反序列化時候每次需要構造出

原创 Bolt概述

Bolt是一個組件,以元組作爲輸入,以生成元組作爲輸出。當編寫Bolt的時候,通常會實現IRichBolt接口。在客戶端主機中創建Bolt,序列化到拓撲,並提交到集羣中的主控節點。集羣啓動Worker,反序列化Bolt,準備調用它

原创 Hadoop文件操作

Jobtracker Jobtracker守護進程是應用程序和Hadoop之間的紐帶。一旦代碼提交到集羣上,JobTracker就會確定執行計劃,包括決定處理哪些文件,爲不同的任務分配節點以及監控所有任務的運行。如果任務失敗,Jo

原创 Storm中拓撲

TopologyBuilder是構建拓撲的類,用於指定執行的拓撲。 創建提交拓撲 new關鍵字創建一個TopologyBuilder對象,然後調用setSpout方法設置Spout,接着調用setBolt方法設置Bolt,最後調

原创 Spark

Spark目標是爲基於工作集的應用(即多個並行操作重用中間結果的應用)提供抽象,同時保持MapReduce及其相關模型的優勢特性,即自動容錯、位置感知性調度和可伸縮性。 每個RDD有5個主要屬性 * 一組分片(Partition

原创 Hadoop中WordCount

map() /*** * KEYIN:默認情況下,是mr框架所讀到的一行文本的起始偏移量,Long,hadoop中有自己的更精簡的序列化接口,不用Long,而用LongWritable * VALUEIN:默認情況下,是mr框

原创 Jps中出現process information unavailable

jps 報process information unavailable解決辦法: cd /tmp ll 刪除hsperfdata_{用戶名}目錄 點贊 收藏 分享 文章舉報

原创 Spark基礎

Driver與Worker Driver與Worker是兩個重要角色。Driver程序是應用邏輯執行的起點,負責作業的調度,即Task任務的分發,而多個Worker用來管理計算節點和創建Executor並行處理任務。在執行階段,D

原创 storm配置文件

storm.zookeeper.servers: - "centos701" - "centos702" storm.local.dir:”/data/storm” storm的numbus和worker進程需要一個目錄來存放

原创 Spark中算子

Value型Transformation算子 處理數據類型爲Value型的Transformation算子可以根據RDD變換算子的輸入分區與輸出分區關係分爲以下幾種類型 1.輸入分區與輸出分區一對一型 2.輸入分區與輸出分區多對

原创 spark算子運算

使用spark-shell進入scala命令行中 ./bin/spark-shell – master spark://centos701:7077 這樣才能拿到sc對象。 運行 sc.textFile(“hdfs://cen

原创 Spark編譯安裝

1.下載並安裝maven 2.安裝protubuf(需要解決依賴yum install -y gcc gcc-c++ make) 3.解壓安裝protobuf tar zxvf protubuf-2.5.0.tar.gz -

原创 Tuple接口

Tuple是Storm中主要數據結構,在Storm發送接收消息過程中,每一條消息都是一個Tuple對象。 Storm提供了Tuple的默認實現類TupleImpl。它除了實現Tuple接口外,還實現了Clojure定義的幾個接口S