原创 SparkCore - RDD & 常用算子

RDD概述 RDD是彈性分佈式數據集,是Spark的基石,是Spark最基本的數據抽象,它代表一個不可變、只讀的、被分區的數據集。RDD不可變,一旦生產就不能改變了,RDD必然是有子類實現的,在使用的時候直接使用子類即可。 RD

原创 updates is listed more than once in the configuration解決方法

刪除所有/etc/yum.repo.d/目錄下所有repo文件,重新更換一遍源解決  

原创 Spark2.4.0源碼編譯支持hadoop-2.6.0-cdh5.7.0

軟件包 JDK1.8.0_45 apache-maven-3.6.0 Scala2.11.8 hadoop-2.6.0-cdh5.7.0 注意設置內存***** export MAVEN_OPTS="-Xmx2g -XX:R

原创 Centos6.5 64位二進制部署安裝MySQL5.6

MySQL安裝部署 系統:CentOS 6.5 64位 Java:jdk-8u45-linux-x64.gz MySQL:mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz 一、初始化 先刪一

原创 Spark - 廣播變量 & 累加器

廣播變量 broadcast variable 1、廣播變量的意義 如果我們要在分佈式計算裏面分發大對象,例如:字典,集合,黑白名單等,這個都會由Driver端進行分發,一般來講,如果這個變量不是廣播變量,那麼每個task就會分發

原创 Zookeeper 概述 & 架構 & 特性

目錄 1.概述 2.架構 3.特性 概述 ZK作爲一個分佈式協調服務的框架。主要是爲了解決分佈式集羣中應用系統的一致性問題,例如怎麼避免多用戶同時對數據操作從而造成髒寫髒讀。本質上來說是一個分佈式的小文件存儲系統(官方建議這裏的

原创 Hue簡單概述 & CDH5.14.0部署安裝

概述 Hue是一個開源的Apache Hadoop UI系統,由Cloudera Desktop演化而來,最後Cloudera公司將其貢獻給Apache基金會的Hadoop社區,它是基於Python Web框架Django實現的。

原创 解決hive以及impala執行權限不足的問題

在我們hive當中執行任意的查詢,只要是需要跑MR的程序,就會報錯,發現權限不夠的異常 INFO : Compiling command(queryId=root_20180625191616_d02efd23-2322-4f3

原创 Impala架構概述

概述 Imala是基於Hive並使用內存進行計算,兼顧數據倉庫,具有實時,批處理,多併發等優點。因爲直接使用的Hive的metadata,也就是impala的元數據都存儲在Hive中的metadata之中,並且Impala兼容大部

原创 Impala CDH5.14.0安裝部署

因爲impala沒有提供tar包供我們進行安裝,只提供了rpm包,所以我們在安裝impala的時候,需要使用rpm包來進行安裝,rpm包只有cloudera公司提供了,所以我們去cloudera公司網站進行下載rpm包即可,但是另

原创 Azkaban3.51.0 雙服務模式安裝

所需安裝包: azkaban-web-server-0.1.0-SNAPSHOT.tar.gz azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz create-all-sql-0.1.0-SNAP

原创 Azkaban概述 & Azkaban3.51.0編譯

Azkaban概述 Azkaban是由Linkedin開源的一個批量工作流任務調度器。用於在一個工作流內以一個特定的順序運行一組工作和流程。 Azkaban定義了一種KV文件(properties)格式來建立任務之間的依賴關係,並

原创 Hive beeline方式連接Could not open connection to the HS2 server。

首先,這其實是一個悲傷的故事。 中午裝了三臺測試機,一頓操作猛如喵之後,終於輪到hive的安裝配置了。 在淡定的解壓完,配置文件都配置完,啓動了hiveserver2之後,就在我顫抖的小手在鍵盤上輸入 bin/beeline be