原创 【Java 基礎】-- 爲什麼需要實現 Serializable 接口

1、什麼是序列化      序列化:將對象寫入到IO流中    反序列化:從IO流中恢復對象        補充:    Serializable 是一個空接口,它的目的僅是標識一個類的對象可以被序列化。    Java 提供的一種高效機

原创 [CDH 基礎]-- tsquery 語言指南(CDH 6.3.0)

  tsquery Language The tsquery language is used to specify statements for retrieving time-series data from the Cloudera

原创 [Flink 基礎]-- 端到端的精準一次語義實現

感謝英文原文:https://flink.apache.org/features/2018/03/01/end-to-end-exactly-once-apache-flink.html Apache Flink中的端到端精確一次處理概述

原创 [Hive 進階]-- 7種可以提高 Hive 查詢速度的方法

如何提高Hive 的查詢性能? Apache Hive是一種強大的數據分析工具。在處理數PB的數據時,瞭解如何提高查詢性能非常重要。以下內容是基於 HDP-2.6.4 版本彙總的,如有不足之處,望指出。 1、使用Tez引擎 Apache

原创 [Spark 學習]--1.2 Spark core

參考鏈接

原创 [Kafka 基礎]-- 安裝 kafka-manager 監控

一、Kafka 監控工具介紹        目前還沒有一款公認比較優秀的 Kafka 監控工具,各有各的好,我們可以針對自己需要去選擇,但是如果你是 Kafka 集羣運維操作人員,還是推薦先用 Kafka Manager 來做監控。 1.

原创 【大數據面試】--2019年面試和筆試題目彙總

一、前言               經過一段時間的面試和筆試,已經徹底快讓自己失去了信心!年底了,找工作真難!但是這也對個人將來的規劃和學習工作有了一定的提示。下面將把個人算是面經吧,分享出來,希望對各位有幫助。       二、思考

原创 [Hive 基礎]-- 使用 Map 和 Array 數據結構

Hive支持的數據類型分爲基礎數據類型和複雜類型,這是關係性數據庫不具備的特性。   基礎類型主要包括:tinyint,smalint,int,bigint,boolean,float,double,string,timestamp 等

原创 [MongoDB基礎]-- Spark 寫 Dataframe 數據到 Mongo

如何將 Dataframe 數據寫入 Mongo1、準備2、輸入數據3、代碼4、查詢5、參考文檔 1、準備 環境:Spark 2.3.1 + Mongo 4.2.3 +scala -2.11.8+ jdk 1.8.0 + Hado

原创 [CDH 基礎]-- Cloudera Manager Metrics(CDH-6.3.0)

  Cloudera Manager Metrics This section provides information on metrics supported by Cloudera Manager. A metric is a pr

原创 [數據庫基礎]-- CBO and RBO optimizers

1、前言       CBO是 Cost-based optimizer ,RBO是 Rule-based optimizer 。 2、對比   CBO RBO 定義 基於成本的優化 基於規則的優化 目的 爲每個SQL語句提供最便宜的執行

原创 【Flink 基礎】-- TaskManager、Solt和 Parallelism 說明及設置

一、概念理解 solt:把 slot 看做 cpu 的核一個slot一可以並行跑很多作業 併發度:一個算子有多少個運行實例 關係: slot數 = 最大併發度、一個slot一可以同時運行不同算子的一個實例 參考:點擊 二、參數

原创 【Java基礎】-- System.exit(-1)、System.exit(0)和System.exit(1)區別

System.exit(-1)、System.exit(0)、System.exit(1)區別 1、源碼鏈接 https://docs.oracle.com/javase/8/docs/api/java/lang/System.h