原创 Hive實例-解析百萬json以及python腳本的使用

實例 使用UDF解析一百萬條json並按字段插入表中 1. 編寫UDF public class MovieJsonParser extends UDF { public String evaluate(St

原创 Spark-RDD編程API

RDD(Resilient Distributed Dataset)叫做分佈式數據集,是Spark中最基本的數據抽象,它代表一個可分區,不可變,裏面的元素可並行計算的結合。RDD具有自動容錯、位置感知性調度和可伸縮性。RDD允許

原创 數據採集-flume的使用

前言 在一個完整的大數據處理系統中, 除了hdfs+mapreduce(或spark)+hive組成分析系統的核心之外,還需要數據採集、結果數據導出、任務調度等不可或缺的輔助系統, 而這些輔助工具在had

原创 hdfs詳細介紹

之前有人問我,“我放了一個***.avi在linux服務器上,你肯定找不到嘻嘻”。登上去發現etc文件夾大了好幾個G。。。。 你4不4撒,你爲什麼不把avi切成多塊,放到不同服務器上,這誰能發現呢?? 1. HDFS前言 上面

原创 使用docker搭建hadoop集羣

Hello小夥伴們,上一篇我們講了怎麼使用虛擬機搭建hadoop集羣。 由於這種方式搭建起來,虛擬機較大,如果是從0開始搭建的話, 那是十分緩慢。下面就給大傢伙講講怎麼使用docker搭建hadoop集羣。 docker簡介

原创 Spring Boot初識

今天準備開一個新系列springboot,springboot結束後會更新springcloud,想要學會springcloud先學springboot吧。以後springboot和hadoop輪流更新 嘻嘻。 在開篇呢,想給

原创 Spring boot運行原理-自定義自動配置類

在前面SpringBoot的文章中介紹了SpringBoot的基本配置,今天我們將給大家講一講SpringBoot的運行原理,然後根據原理我們自定義一個starter pom。 本章對於後續繼續學習SpringBoot至關重要,

原创 案例-使用MapReduce實現join操作

哈嘍~各位小夥伴們中秋快樂,好久沒更新新的文章啦,今天分享如何使用mapreduce進行join操作。 在離線計算中,我們常常不只是會對單一一個文件進行操作,進行需要進行兩個或多個文件關聯出更多數據,類似與sql中的join操作

原创 手把手搭建Hadoop-HA高可用分佈式文件系統

背景 根據我們之前搭建的hadoop集羣,都只有一個namenode,一個resourcemanager。一旦namenode掛了,整個hdfs就廢了,因爲namenode負責着元數據信息的管理,響應客戶端。 如果是resourc

原创 工作中常用的nginx你會用嗎?

nginx的三個用途: 靜態頁面管理 虛擬主機 反向代理,負載均衡 安裝 nginx是c語言寫的,在linux上安裝要先配置c語言編譯環境 以centos爲例: 安裝依賴 yum install gcc yum insta