台部落喜讯XiCent

實例使用UDF解析一百萬條json並按字段插入表中 1. 編寫UDF public class MovieJsonParser extends UDF { public String evaluate(St

2020-06-16 09:51:35

RDD(Resilient Distributed Dataset)叫做分佈式數據集，是Spark中最基本的數據抽象，它代表一個可分區，不可變，裏面的元素可並行計算的結合。RDD具有自動容錯、位置感知性調度和可伸縮性。RDD允許

2020-04-21 20:54:52

前言在一個完整的大數據處理系統中，除了hdfs+mapreduce(或spark)+hive組成分析系統的核心之外，還需要數據採集、結果數據導出、任務調度等不可或缺的輔助系統，而這些輔助工具在had

2020-03-03 02:34:28

之前有人問我，“我放了一個***.avi在linux服務器上，你肯定找不到嘻嘻”。登上去發現etc文件夾大了好幾個G。。。。你4不4撒，你爲什麼不把avi切成多塊，放到不同服務器上，這誰能發現呢？？ 1. HDFS前言上面

2019-09-19 21:46:23

Hello小夥伴們，上一篇我們講了怎麼使用虛擬機搭建hadoop集羣。由於這種方式搭建起來，虛擬機較大，如果是從0開始搭建的話，那是十分緩慢。下面就給大傢伙講講怎麼使用docker搭建hadoop集羣。 docker簡介

2019-09-19 21:46:23

今天準備開一個新系列springboot，springboot結束後會更新springcloud，想要學會springcloud先學springboot吧。以後springboot和hadoop輪流更新嘻嘻。在開篇呢，想給

2019-09-19 21:46:23

在前面SpringBoot的文章中介紹了SpringBoot的基本配置，今天我們將給大家講一講SpringBoot的運行原理，然後根據原理我們自定義一個starter pom。本章對於後續繼續學習SpringBoot至關重要，

2019-09-19 21:46:23

哈嘍～各位小夥伴們中秋快樂，好久沒更新新的文章啦，今天分享如何使用mapreduce進行join操作。在離線計算中，我們常常不只是會對單一一個文件進行操作，進行需要進行兩個或多個文件關聯出更多數據，類似與sql中的join操作

2019-09-19 21:46:23

背景根據我們之前搭建的hadoop集羣，都只有一個namenode，一個resourcemanager。一旦namenode掛了，整個hdfs就廢了，因爲namenode負責着元數據信息的管理，響應客戶端。如果是resourc

2019-09-19 21:46:23

nginx的三個用途：靜態頁面管理虛擬主機反向代理，負載均衡安裝 nginx是c語言寫的，在linux上安裝要先配置c語言編譯環境以centos爲例: 安裝依賴 yum install gcc yum insta

2019-09-19 21:46:23