原创 Kafka學習指南

第1章    Kafka概述 1.1 消息隊列 (1)點對點模式(一對一,消費者主動拉取數據,消息收到後消息清除) 點對點模型通常是一個基於拉取或者輪詢的消息傳送模型,這種模型從隊列中請求信息,而不是將消息推送到客戶端。這個模型的特點是

原创 Hadoop中NameNode元數據管理機制解讀

大家都知道hadoop是分佈式離線批處理框架,主從架構,namenode是主節點,datanode是從節點, hadoop整體分爲:         HDFS:分佈式文件存儲系統         MapReduce:分佈式離線並行計算框架

原创 Linux入門(一)

以下是有道雲筆記分享鏈接 http://note.youdao.com/noteshare?id=f85e90b5e2d05e0543d2ff5d2f3261e0

原创 shell編程(三)

以下是有道雲筆記分享鏈接 http://note.youdao.com/noteshare?id=db63cb0fc27eb0eb53a041bfb9e09886

原创 Linux入門(二)

以下是有道雲筆記分享鏈接 http://note.youdao.com/noteshare?id=c8d1af5a2255eabc30bfa994d27b9f0d

原创 Linux入門(四)

以下是有道雲筆記分享鏈接 http://note.youdao.com/noteshare?id=7ebd08907f7305b2fb523fa2634df263

原创 hadoop視頻

鏈接:https://pan.baidu.com/s/1qWI3LZipCoAGvMPhzZDcug  提取碼:qrcy  複製這段內容後打開百度網盤手機App,操作更方便哦

原创 大數據全套視頻

鏈接:https://pan.baidu.com/s/1ljJF4MrmhQ--6cXM9gT7wA  提取碼:fqdk  複製這段內容後打開百度網盤手機App,操作更方便哦

原创 wordcount實例

在Hadoop集羣環境中,其有兩個重要和關鍵的系統,分別是HDFS和MapReduce。 其中HDFS是Hadoop的分佈式存儲的策略和核心,它實現了將數據分塊,並且存儲到多個DataNode上。 mapreduce的簡單的可主要分爲以

原创 Hadoop配置文檔

在這一節中,筆者主要向大家介紹了該配置文檔中,所用到的Linux命令和Linux的幫助。注:配置文檔詳細截圖請下載附件查看。終端提示信息在Linux中,終端的每一行都有提示信息,其包含了當前終端登錄的用戶,當前登錄的主機,當前終端所在的

原创 Spark流式處理框架案例網站流量分析&大數據生態圈介紹

一, 大數據框架(處理海量/流式數據) 1. 以HADOOP 2.x爲體系的大數據生態系統處理框架 MapReduce:中間結果保存在磁盤。Shuffle過程:map將數據寫入到本地磁盤,reduce通過網絡的方式到各個map task所

原创 Python 科學計算庫 Numpy 小結

(本文來自本人公衆號)NumPy是Python語言的一個擴充程序庫。支持高級大量的維度數組與矩陣運算,此外也針對數組運算提供大量的數學函數庫。1. 讀取文件numpy.genfromtxt() 用於讀取 txt 文件,其中傳入的參數依次爲

原创 kafka原理解析

Apache的Kafka™是一個分佈式流平臺(a distributed streaming platform)。這到底意味着什麼? 我們認爲,一個流處理平臺應該具有三個關鍵能力: 它可以讓你發佈和訂閱記錄流。在這方面,它類似於一個消息隊

原创 編譯WordCount實例

在Hadoop集羣環境中,其有兩個重要和關鍵的系統,分別是HDFS和MapReduce。 其中HDFS是Hadoop的分佈式存儲的策略和核心,它實現了將數據分塊,並且存儲到多個DataNode上。 mapreduce的簡單的可主要分爲

原创 Hadoop之HDFS架構功能剖析說明

HDFS系統架構圖層面解析 Hadoop Distributed File System (HDFS):分佈式文件系統 *分佈式應用分爲主從架構:主節點NameNode(一個)從節點:DateNode(多個) *HDFS服務組件:name