原创 flume link kafka的配置文件

#兩個channels 和兩個 sink agent.sources = s agent.channels = c c1 agent.sinks = r k #這就是source 把源數據打向兩個channels agent.sourc

原创 myeclipse下搭建hadoop2.7.3開發環境

需要下載的文件:鏈接:http://pan.baidu.com/s/1i5yRyuh 密碼:ms91   一  下載並編譯  hadoop-eclipse-plugin-2.7.3.jar 二  將hadoop-eclipse-p

原创 hadoop 2.x yarn 的工作機制

1.1 YARN 基本架構 YARN是Hadoop 2.0中的資源管理系統,它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每個應用程序特有的Applica

原创 centos 7 安裝 hadoop 2.7.1

CentOS 7 安裝Hadoop 2.7.1       兩臺機器 CentOS7(機器名分別爲master-CentOS7、slave-CentOS7) 內存2G (筆記本開虛擬機快撐不住了╮(╯-╰)╭  CentOS

原创 centos 7 與 6的運行區別

linux運行級別: centos6(init或systemv) 0    關機halt 1    單用戶模式(用於維護,無需用戶名、密碼登錄) 2    多用戶模式(不啓用網絡功能) 3    多用戶模式(帶網絡功能),命令行界面(C

原创 hadoop 常見錯誤

如果大家在安裝的時候遇到問題,或者按步驟安裝完後卻不能運行Hadoop,那麼建議仔細查看日誌信息,Hadoop記錄了詳盡的日誌信息,日誌文件保存在logs文件夾內。 無論是啓動,還是以後會經常用到的MapReduce中的每一個job,

原创 Python 小作業 01

要求: 1:輸入用戶姓名 2:認證成功後顯示歡迎信息 3:錯誤三次後鎖定   code: # 編寫登陸口 name ='zhang' password= '123' count=0 for i in range(10): l

原创 kafka的數據可靠性

Kakfa起初是由LinkedIn公司開發的一個分佈式的消息系統,後成爲Apache的一部分,它使用Scala編寫,以可水平擴展和高吞吐率而被廣泛使用。目前越來越多的開源分佈式處理系統如Cloudera、Apache Storm、S

原创 大數據實戰:五(離線計算)

目錄 課程大綱(HDFS詳解)........................................................................................................

原创 大數據實戰:四(輕量級 rpc 框架開發)

一:主要內容        掌握RPC原理,掌握nio操作,掌握netty簡單的api,掌握自定義rpc框架   RPC原理學習 什麼是RPC           RPC(Remote Procedure Call Protocol)—

原创 hive內置函數大全

一、查看函數        show functions 顯示hive下內置所有函數        desc function extended add_months 顯示add_months 函數用法二、按首字母排序    hive版本

原创 hive的行轉列,列轉行

HIVE 查詢顯示列名 及 行轉列顯示 http://blog.csdn.net/iquicksandi/article/details/8515453 hive行轉列 (Lateral View explode()) htt

原创 關於scala的小程序(打印偶數的倍數)

自定義有方法,無返回參數,g其實返回的是一個數組,最下面的則是for循環,將g數據便利出來def array_test() : Unit ={  val  c = Array(2,4,5,7,11)  val g = for (x <-

原创 分佈式協調場景應用(zookeeper)

業務場景:有一個集羣式的服務器,提供對外的服務,問題一:        服務器會根據服務的負載會增加服務器,有時候增加兩臺有時候會增加多臺的服務器,或者是有時候服務器會宕機掉線,則產生一個問題就是,服務器的集羣會產生動態的變化。則會產生一