原创 [Hive基礎]-- 動態分區與靜態分區

  前言 1、Hive分區的概念與傳統關係型數據庫分區不同。 2、傳統數據庫的分區方式:如oracle,分區獨立存在於字段,裏面存儲真實的數據,在數據進行插入的時候自動分配分區。 3、Hive的分區方式:Hive實際是存儲在HDFS上的抽

原创 [Hadoop基礎]--what is hdfs nfs gateway ?

介紹 HDFS的NFS網關允許客戶端掛載HDFS並通過NFS與其進行交互,就像它是本地文件系統的一部分一樣。網關支持NFSv3。 安裝HDFS後,用戶可以: 在NFSv3客戶端兼容的操作系統上通過其本地文件系統瀏覽HDFS文件系統。

原创 [Spark基礎]-- Spark sql使用(編程和 cli)

什麼是Spark sql? 分佈式的SQL查詢引擎,官方測試結果比 Hive sql 快 100倍;從 Spark-2.2.0版本起,提供了基於代價的優化器。 spark sql 怎樣使用? 1、使用編程方式 舉例:https://spa

原创 [Ambari基礎]-- Ambari的基本介紹

Ambari是開源的集羣管理工具,目前大數據開源廠商 Hortonworks就是使用它來管理集羣組件。 1、Ambari的基本架構 Ambari Server從集羣中收集數據。每個host都有Ambari agent的副本,允許Ambar

原创 [域名命名]-- FQDN(Fully Qualified Domain Name)

前言 常常在安裝 CDH、HDP和 MapR的時候,會因爲配置 hostname 映射和域名取得不對而導致後續一系列的問題: 1、解析失敗導致 CDH、HDP和 MapR的安裝失敗 2、Kerberos 認證失敗   所以,要遵守 FQD

原创 [Hive進階]-- Hive 優化

由於Hive的執行依賴於底層的MapReduce作業,因此對Hadoop作業的優化或者對MapReduce作業的調整是提高Hive性能的基礎。所以我們可以通過一系列的調優方法,來提高大幅度地Hive查詢的性能。 1、啓用壓縮 壓縮可以使磁

原创 [驚喜]-- 2018年博客之星,需要您寶貴的一票!

剛剛打開郵箱,收到 CSDN 小姐姐的郵件,比較驚喜,哈哈!感謝CSDN、感謝各位小夥伴! 如果小夥伴感興趣! 請投 178 號:一票,謝謝🙏       投票:https://bss.csdn.net/m/topic/blog_star

原创 [Yarn基礎]-- Yarn資源分配

背景 在 2018年 11月的某一天,我發現 spark-submit 設置的資源參數未生效( –executor-cores 10),仔細排查後定位是Yarn 的分配策略使用有誤,由於我們集羣是使用 Ambari 安裝的,未修改Y

原创 [Yarn基礎]-- Apache Yarn 、 Apache Twill 和 Apache Slider 的對比

一、Apache Yarn 、Twill和 Slider 的介紹 1、Apache Yarn YARN的基本思想是將資源管理和作業調度/監視的功能分解爲單獨的守護進程。我們的想法是擁有一個全局ResourceManager(RM)和每

原创 [Kafka基礎]-- 在 mac os 10.14.2上安裝 kafka-1.0.x

1、 前言 目前Kafka 的穩定大版本是 1.0.x,加上主流的CDH (CDH 5.13.0以上)和 HDP(hdp-3.x.x) 廠商的穩定版本也是使用 Kafka 1.0.x版本,所以,個人選擇使用 Kafka-1.0.x 版

原创 [Alluxio基礎]-- 初識 Alluxio(原名 Tachyon )

1、前言 我們有了解分佈式文件系統(HDFS)、分佈式計算(如Spark),但是肯定有許多小夥伴未曾瞭解過 Alluxio,當然我也未曾深入瞭解,那麼,今天,我們就一起初步瞭解下 Alluxio。 它是什麼?它能用在哪裏?它的特性是什麼?

原创 [Hive進階]- Hive with as 語法

前言            公用表表達式(CTE)是從WITH子句中指定的簡單查詢派生的臨時結果集(會把查詢的表數據放到內存中,供其他查詢隨時使用),該子句緊跟在SELECT或INSERT關鍵字之前。CTE僅在單個語句的執行範圍內定義。可

原创 [Flink基礎]-- DataSet API & DataStream API & Table & SQL API 的對比

說明       本文基於 Flink -1.6.0 版本進行整理和分析,如有不妥之處,敬請指正。 內容 一、Flink 的技術棧 圖片來源:https://ci.apache.org/projects/flink/flink-docs-

原创 [Flink基本概念與部署]--部署方式【二】

一、支持的部署方式 Local Standalone Yarn Mesos Docker Kubernetes AWS ……   二、幾個角色 ResourceManager NodeManager AppMaster Container

原创 [Flink基礎]-- 一致性的3個級別

Flink 是流處理器,那麼同樣會涉及到一致性的3個級別,他們分別如下 1、at-most-once 這其實是沒有正確性保障的委婉說法,故障發生後,計數可能丟失。 2、at-least-once 這表示計數結果可能大於正確值,但是絕不會小