原创 杭電(hdu)2097 Sky數

Sky數 Time Limit: 1000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 17086   

原创 Spark之Spark Streaming

目錄 概述 準備 一、TCP socket集成 1. nc服務安裝 2. 測試  二、kafka集成 1. 服務啓動 2. 測試 參考文章 概述 Spark Streaming是核心Spark API的擴展,可實現實時數據流的可伸縮,高吞

原创 Spark運行模式配置及測試

目錄 一、spark standalone模式 1. 配置 2. 服務啓動與測試 二、spark on yarn模式 1. 配置 2. 測試 2.1 spark-shell 2.2 spark-submit Spark支持3種集羣模式,分

原创 Hadoop介紹以及集羣搭建

目錄 知識要點 MapReduce 策略理念 工作流程 分片(split)的劃分 map任務數量和reduce任務數量的確定 shuffle過程 YARN 架構概述 工作流程 一、環境準備 1.centos單機配置 2.虛擬機克隆 二、搭

原创 杭電(hdu)2031 進制轉換

進制轉換 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 32185   

原创 Storm集羣搭建及測試

目錄 概述 核心概念 架構 一、部署說明 二、Storm配置和部署 1. 下載 2. 配置 3. 服務啓動 三、wordcount測試 1. 程序編寫 2. 提交Storm集羣運行  3. 常用命令 概述 在過去十幾年裏,數據處理發生了革

原创 杭電(hdu)2098 分拆素數和

分拆素數和 Time Limit: 1000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 26609  

原创 Spark之RDD

原文鏈接:http://spark.apache.org/docs/2.2.0/rdd-programming-guide.html 目錄 概述 一、RDD創建 Parallelized Col

原创 Spark之Spark SQL、DataFrame和Dataset

原文鏈接:http://spark.apache.org/docs/2.2.0/sql-programming-guide.html 目錄 概述 Spark SQL Dataset and Da

原创 Spark集成Hive和Hbase實現離線數據分析

目錄 前言 一、Spark+Hive 1. 配置 2.測試 二、Spark+Hbase 1. 配置 2. 測試 前言 Spark SQL是Spark處理結構化數據的模塊。本節中將Spark SQL和Hive以及Hbase集成,實現離線數據

原创 Hue大數據可視化分析

目錄 一、環境說明 二、Hue下載安裝 1. 下載 2. 編譯安裝 3. 基礎配置 三、框架集成 1. HDFS集成 2. YARN集成 3. Hive集成 4. Mysql集成 5. Hbase集成 四、測試 Hue是一個開源的Apac

原创 Hive+Mysql+Hbase集成配置實現離線數據分析

目錄 一、hive的安裝配置 1. 下載 2. 配置 二、hive測試 1. 下載測試數據 2. 建庫及導入數據 三、hive和hbase集成 1. 配置 1.1 配置文件的修改 1.2 jar包的引用 1.3 建表 2. 測試 hive

原创 flume+hbase+kafka集成部署

目錄 一、架構圖 二、flume的安裝和配置 1. 下載安裝 2. 配置 2.1 日誌收集節點配置 2.2 日誌聚集節點配置 2.3 Flume的二次開發 三、模擬程序開發 四、服務啓動測試 1. 服務啓動 1.1 zookeeper 1

原创 kafka的配置和分佈式部署

目錄 一、相關概念介紹 二、下載和配置 1. 下載 2. 配置 三、服務啓動和測試 1. 創建Topic 2. 服務啓動 3.測試 Kafka是一種高吞吐量的分佈式發佈訂閱消息系統,它可以處理消費者在網站中的所有動作流數據。kafka的分

原创 Hbase的配置和分佈式部署

目錄 一、下載和配置 1. 下載 2. 配置 二、hbase命令行基本操作 HBase是建立在Hadoop文件系統之上的分佈式面向列的數據庫。它是一個開源項目,是橫向擴展的。該技術來源於 Fay Chang 所撰寫的Google論文“Bi