原创 flume link kafka的配置文件
#兩個channels 和兩個 sink agent.sources = s agent.channels = c c1 agent.sinks = r k #這就是source 把源數據打向兩個channels agent.sourc
原创 myeclipse下搭建hadoop2.7.3開發環境
需要下載的文件:鏈接:http://pan.baidu.com/s/1i5yRyuh 密碼:ms91 一 下載並編譯 hadoop-eclipse-plugin-2.7.3.jar 二 將hadoop-eclipse-p
原创 hadoop 2.x yarn 的工作機制
1.1 YARN 基本架構 YARN是Hadoop 2.0中的資源管理系統,它的基本設計思想是將MRv1中的JobTracker拆分成了兩個獨立的服務:一個全局的資源管理器ResourceManager和每個應用程序特有的Applica
原创 centos 7 安裝 hadoop 2.7.1
CentOS 7 安裝Hadoop 2.7.1 兩臺機器 CentOS7(機器名分別爲master-CentOS7、slave-CentOS7) 內存2G (筆記本開虛擬機快撐不住了╮(╯-╰)╭ CentOS
原创 centos 7 與 6的運行區別
linux運行級別: centos6(init或systemv) 0 關機halt 1 單用戶模式(用於維護,無需用戶名、密碼登錄) 2 多用戶模式(不啓用網絡功能) 3 多用戶模式(帶網絡功能),命令行界面(C
原创 hadoop 常見錯誤
如果大家在安裝的時候遇到問題,或者按步驟安裝完後卻不能運行Hadoop,那麼建議仔細查看日誌信息,Hadoop記錄了詳盡的日誌信息,日誌文件保存在logs文件夾內。 無論是啓動,還是以後會經常用到的MapReduce中的每一個job,
原创 Python 小作業 01
要求: 1:輸入用戶姓名 2:認證成功後顯示歡迎信息 3:錯誤三次後鎖定 code: # 編寫登陸口 name ='zhang' password= '123' count=0 for i in range(10): l
原创 kafka的數據可靠性
Kakfa起初是由LinkedIn公司開發的一個分佈式的消息系統,後成爲Apache的一部分,它使用Scala編寫,以可水平擴展和高吞吐率而被廣泛使用。目前越來越多的開源分佈式處理系統如Cloudera、Apache Storm、S
原创 大數據實戰:五(離線計算)
目錄 課程大綱(HDFS詳解)........................................................................................................
原创 大數據實戰:四(輕量級 rpc 框架開發)
一:主要內容 掌握RPC原理,掌握nio操作,掌握netty簡單的api,掌握自定義rpc框架 RPC原理學習 什麼是RPC RPC(Remote Procedure Call Protocol)—
原创 hive內置函數大全
一、查看函數 show functions 顯示hive下內置所有函數 desc function extended add_months 顯示add_months 函數用法二、按首字母排序 hive版本
原创 hive的行轉列,列轉行
HIVE 查詢顯示列名 及 行轉列顯示 http://blog.csdn.net/iquicksandi/article/details/8515453 hive行轉列 (Lateral View explode()) htt
原创 關於scala的小程序(打印偶數的倍數)
自定義有方法,無返回參數,g其實返回的是一個數組,最下面的則是for循環,將g數據便利出來def array_test() : Unit ={ val c = Array(2,4,5,7,11) val g = for (x <-
原创 分佈式協調場景應用(zookeeper)
業務場景:有一個集羣式的服務器,提供對外的服務,問題一: 服務器會根據服務的負載會增加服務器,有時候增加兩臺有時候會增加多臺的服務器,或者是有時候服務器會宕機掉線,則產生一個問題就是,服務器的集羣會產生動態的變化。則會產生一