原创 hadoop 之flume 日誌收集系統,及與kafka相似與不同處
flume主要用於日誌採集,其中的agent裏面包含3個核心的組件:source(採集/輸入)—->channel(緩存/管道)—–>sink(輸出),類似生產者、倉庫、消費者的架構。 source:source組件是專門用來收集數據的
原创 strom 與spark對比
1.storm簡介 Storm是一個分佈式的,可靠的,容錯的數據流處理系統。Storm集羣的輸入流由一個被稱作spout的組件管理,spout把數據傳遞給bolt, bolt要麼把數據保存到某種存儲器,要麼把數據傳遞給其它的bolt。一個
原创 hadoop 之Mahout 數據挖掘
Mahout 僅提供一些java的算法包,通過Mahout執行這些算法包,並把hdfs上的文件作爲輸入可以在hadoop上做分佈式計算 提供的常用算法 Mahout 提供了常用算法的程序庫,可以基於分佈式做數據挖掘. 常見算
原创 數據倉庫的架構與設計
還可參看其他文章:https://blog.csdn.net/m0_37803704/article/details/80600489 公司之前的數據都是直接傳到Hdfs上進行操作,沒有一個數據倉庫,趁着最近空出幾臺服務器,搭了個簡陋的數
原创 hadoop之Sqoop
Sqoop是用來做什麼的 Sqoop官網是這樣介紹: Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Ha
原创 實時計算 strom
本節內容: Apache Storm是什麼 Apache Storm核心概念 Storm原理架構 Storm集羣安裝部署 啓動storm ui、Nimbus和Supervisor 一、Apache Storm是什麼 Apache
原创 cdh 簡介及安裝教程
簡單來說,Cloudera Manager是一個擁有集羣自動化安裝、中心化管理、集羣監控、報警功能的一個工具(軟件),使得安裝集羣從幾天的時間縮短在幾個小時內,運維人員從數十人降低到幾人以內,極大的提高集羣管理的效率。 cloudera
原创 hadoop 之pig
相比Java的MapReduce api,Pig爲大型數據集的處理提供了更高層次的抽象,與MapReduce相比,Pig提供了更豐富的數據結構,一般都是多值和嵌套的數據結構。Pig還提供了一套更強大的數據變換操作,包括在MapReduc
原创 superset在 centos 7安裝運行
本人安裝的版本及注意問題(安裝其他版本有些問題) 安裝superset0.23.0,如果用mysql需要安裝pip install mysql-python,不要再安裝mysqlclient 以下爲網上參考 OS: centos7 S
原创 superset 使用總結
superset主要用來 對結果進行查詢展示爲各種形狀的圖表,支持多種數據庫,不支持複雜的多表查詢。 安裝好後,會默認連接上默認的庫:可按下面一步一步走 1)創建數據庫 2)創建數據表 3)創建charts 4)運行cha
原创 hadoop集羣,mapreduce任務沒有在所有slave節點上執行的問題
maptask在哪臺服務器上執行了,可以在http://1master:19888 日誌聚合的界面查看,也可以在運行時查看節點cpu使用情況 本人使用yarn作爲任務調度,兩臺slave,但是最終發現,要麼全是slave1執行mapre
原创 Windows平臺Hadoop出現 Exception message: CreateSymbolicLink error (1314): ???????????
hadoop 2.7.1 windows 2008 server R2 問題描述: 在使用kettel執行ELT任務到hive時 hadoop出現Exception message: CreateSymbolicLin
原创 SpringCloud微服務架構概念,及下屬子項目
1.單體架構 單體架構,是指將開發好的項目打成war包,然後發佈到tomcat等容器中的應用。 假設你正準備開發一款與Uber和Hailo競爭的出租車調度軟件,經過初步會議和需求分析,你可能會手動或者使用基於Spring Boot、Pla
原创 hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介紹
1:NameNode 2:SecondNameNode 3:DataNode 4:ResourceManager 5:NodeManager ------------------------------------------------
原创 Hadoop2.7.3+Spark2.1.0完全分佈式集羣搭建過程
如有問題可參考另一篇:https://www.cnblogs.com/zengxiaoliang/p/6478859.html 一、修改hosts文件 在主節點,就是第一臺主機的命令行下; vim /etc/hosts 我的是三臺雲主機