原创 hadoop 之flume 日誌收集系統,及與kafka相似與不同處

flume主要用於日誌採集,其中的agent裏面包含3個核心的組件:source(採集/輸入)—->channel(緩存/管道)—–>sink(輸出),類似生產者、倉庫、消費者的架構。  source:source組件是專門用來收集數據的

原创 strom 與spark對比

1.storm簡介 Storm是一個分佈式的,可靠的,容錯的數據流處理系統。Storm集羣的輸入流由一個被稱作spout的組件管理,spout把數據傳遞給bolt, bolt要麼把數據保存到某種存儲器,要麼把數據傳遞給其它的bolt。一個

原创 hadoop 之Mahout 數據挖掘

Mahout 僅提供一些java的算法包,通過Mahout執行這些算法包,並把hdfs上的文件作爲輸入可以在hadoop上做分佈式計算 提供的常用算法 Mahout 提供了常用算法的程序庫,可以基於分佈式做數據挖掘. 常見算

原创 數據倉庫的架構與設計

還可參看其他文章:https://blog.csdn.net/m0_37803704/article/details/80600489 公司之前的數據都是直接傳到Hdfs上進行操作,沒有一個數據倉庫,趁着最近空出幾臺服務器,搭了個簡陋的數

原创 hadoop之Sqoop

Sqoop是用來做什麼的 Sqoop官網是這樣介紹: Apache Sqoop(TM) is a tool designed for efficiently transferring bulk data between Apache Ha

原创 實時計算 strom

  本節內容: Apache Storm是什麼 Apache Storm核心概念 Storm原理架構 Storm集羣安裝部署 啓動storm ui、Nimbus和Supervisor   一、Apache Storm是什麼 Apache

原创 cdh 簡介及安裝教程

 簡單來說,Cloudera Manager是一個擁有集羣自動化安裝、中心化管理、集羣監控、報警功能的一個工具(軟件),使得安裝集羣從幾天的時間縮短在幾個小時內,運維人員從數十人降低到幾人以內,極大的提高集羣管理的效率。 cloudera

原创 hadoop 之pig

相比Java的MapReduce api,Pig爲大型數據集的處理提供了更高層次的抽象,與MapReduce相比,Pig提供了更豐富的數據結構,一般都是多值和嵌套的數據結構。Pig還提供了一套更強大的數據變換操作,包括在MapReduc

原创 superset在 centos 7安裝運行

本人安裝的版本及注意問題(安裝其他版本有些問題) 安裝superset0.23.0,如果用mysql需要安裝pip install mysql-python,不要再安裝mysqlclient   以下爲網上參考 OS: centos7 S

原创 superset 使用總結

superset主要用來 對結果進行查詢展示爲各種形狀的圖表,支持多種數據庫,不支持複雜的多表查詢。 安裝好後,會默認連接上默認的庫:可按下面一步一步走 1)創建數據庫 2)創建數據表 3)創建charts   4)運行cha

原创 hadoop集羣,mapreduce任務沒有在所有slave節點上執行的問題

maptask在哪臺服務器上執行了,可以在http://1master:19888  日誌聚合的界面查看,也可以在運行時查看節點cpu使用情況 本人使用yarn作爲任務調度,兩臺slave,但是最終發現,要麼全是slave1執行mapre

原创 Windows平臺Hadoop出現 Exception message: CreateSymbolicLink error (1314): ???????????

   hadoop 2.7.1     windows 2008 server R2 問題描述:   在使用kettel執行ELT任務到hive時 hadoop出現Exception message: CreateSymbolicLin

原创 SpringCloud微服務架構概念,及下屬子項目

1.單體架構 單體架構,是指將開發好的項目打成war包,然後發佈到tomcat等容器中的應用。 假設你正準備開發一款與Uber和Hailo競爭的出租車調度軟件,經過初步會議和需求分析,你可能會手動或者使用基於Spring Boot、Pla

原创 hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介紹

1:NameNode 2:SecondNameNode 3:DataNode 4:ResourceManager 5:NodeManager ------------------------------------------------

原创 Hadoop2.7.3+Spark2.1.0完全分佈式集羣搭建過程

如有問題可參考另一篇:https://www.cnblogs.com/zengxiaoliang/p/6478859.html 一、修改hosts文件 在主節點,就是第一臺主機的命令行下; vim /etc/hosts 我的是三臺雲主機