原创 Navicat 連接 MySQL 8.0.2 出現 2059 錯誤

原因:MySQL8之前的版本中加密規則是mysql_native_password,而在MySQL8之後,加密規則是caching_sha2_password解決: mysql -uroot -p use mysql; ALTER US

原创 劍指 Offer 重建二叉樹

題目描述 輸入某二叉樹的前序遍歷和中序遍歷的結果,請重建出該二叉樹。假設輸入的前序遍歷和中序遍歷的結果中都不含重複的數字。例如輸入前序遍歷序列{1,2,4,7,3,5,6,8}和中序遍歷序列{4,7,2,1,5,3,8,6},則重建二叉樹並

原创 將博客搬至CSDN

搬家

原创 徹底破解激活Jetbrains系列軟件

以pycharm爲例,其他軟件同理 拷貝jar文件:http://idea.lanyus.com/ 更改配置文件: 在PyCharm的bin目錄中找到pycharm.exe.vmoptions文件和pycharm64.exe.vmopt

原创 Kafka 面試題

1.Kafka中的ISR、AR代表什麼? ISR:與leader保持同步的follower集合 AR:分區的所有副本 2.Kafka中的HW、LEO分別代表什麼? LEO:每個副本的最後條消息的offset HW:一個分區中所有副本最小的o

原创 Kafka 入門

1 Kafka概述 1.1 定義 Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列,主要應用於大數據實時處理領域。 應用場景: 解耦 異步 削峯 1.2 消息隊列 1.2.1 傳統消息隊列的應用場景 1.2.2 消息隊列的兩種模式

原创 Flume 入門

1Flume概述 1.1 定義 Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統; Flume基於流式架構,靈活簡單。 1.2 特點 可以和任意存儲進程集成 輸入的的數據速率大於寫入目的存儲的

原创 Hive 企業級調優

1 Fetch 抓取 Fectch 抓取是指對某些情況下的查詢不必使用 MapReduce 計算 將 hive.fetch.task.conversion 設置成 more,在全局查找、字段查找、limit查找等都不走 MapReduce

原创 Hadoop 之 MapReduce

1 MapReduce 概述 MapReduce 是一個分佈式運算程序的編程框架,是用戶開發基於 Hadoop 的數據分析應用的核心框架。 MapReduce 核心功能是將用戶編寫的業務邏輯代碼和自帶默認組件整合成一個完整的分佈式運算程序,

原创 Hadoop 之 數據壓縮

1 概述 壓縮策略和原則 2 MR 支持的壓縮編碼 壓縮格式 hadoop自帶 算法 文件擴展名 是否可切分 換成壓縮格式後,原程序是否需要修改 DEFLATE 是,直接使用 DEFLATE .deflate 否 和文本處

原创 Hadoop 之 HDFS

1 HDFS 概述 1.1 HDFS 產出背景及定義 隨着數據量越來越大,在一個操作系統存不下所有的數據,那麼就分配到更多的操作系統管理的磁盤中,但是不方便管理和維護,迫切需要一種系統來管理多臺機器上的文件,這就是分佈式文件管理系統。HDF

原创 Hadoop 企業優化

1 MapReduce 跑的慢的原因 2 MapReduce 優化方法 MapReduce優化方法主要從六個方面考慮:數據輸入、Map階段、Reduce階段、IO傳輸、數據傾斜問題和常用的調優參數。 2.1 數據輸入 2.2 Map 階

原创 Hadoop HA

HA 概述 所謂HA(High Available),即高可用(7*24小時不中斷服務) 實現高可用最關鍵的策略是消除單點故障,HA 嚴格來說應該分成各個組件的 HA 機制:HDFS 的 HA 和 YARN 的 HA Hadoop2.0

原创 Hadoop 之 Yarn

1 概述 Yarn 是一個資源調度平臺,負責爲運算程序提供服務器運算資源,相當於一個分佈式的操作系統平臺,而 MapReduce 等運算程序則相當於運行於操作系統之上的應用程序。 2 Yarn 基本架構 3 Yarn 工作機制 工作機制

原创 Hadoop 入門

1 大數據概率 大數據是指在一定時間內無法用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息增長。 主要解決海量的存儲和海量數據的分析計算問題。 1.1