原创 寫給算法小白的我們--動態規劃

一 . 首先描述一下題目 : 給你一根長度爲n的繩子,請把繩子剪成整數長的m段(m、n都是整數,n>1並且m>1),每段繩子的長度記爲k[0],k[1],…,k[m]。請問k[0]×k[1]×…×k[m]可能的最大乘積是多少?例

原创 數倉--Hive--總結之Hive常用命令以及作用

1 . 創建表 -- 內部表 create table a1(col1 string,col2 int) partitioned by(statdate int) ROW FORMAT DELIMITED FIELDS TE

原创 HDFS的讀寫操作流程

HDFS簡介 HDFS的特點: 特點: a. 能運行在廉價的機器上 b. 流式數據訪問 c.處理應對大規模數據集,可以進行批量處理 d.一次寫入,多次讀取 缺點: a. 不支持低延遲數據訪問 b.不能適應小文件的存儲 c.不支持

原创 推薦好文 : 2PC二階段提交和3PC三階段提交

一 . 2PC 二階段提交協議算法(分爲兩階段) 一個階段是請求階段(表決) 請求階段: 協調作者通知參與者準備對事務進行提交或者取消事務, 這時參與者開始執行本地策略,寫redo和undo日誌,但是不進行提交,此時參與者將告

原创 Hive以及Hive分區的那些事

1.Hive 基本概念 Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射成一張表,並提供類似SQL的查詢功能 使用HQL作爲查詢接口 使用HDFS存儲 使用MapReduce計算 2. Hive的優缺點

原创 Fsimage和EditLog的合併過程

在HDFS中,有三個重要節點: NameNode的作用是維護和管理Fsimage和EditLog,進而實現對文件系統樹和樹下的所有目錄以及文件的維護 SecondaryNameNode的作用是爲namenode創建檢查點的同時

原创 HDFS的高可用(HA)--------通俗易懂的分析

前言: (NN:NameNode ; DN:DataNode) HDFS的高可用(HA)也稱爲聯邦HDFS,因爲單個namenode在HDFS集羣中可能發生單節點故障,一旦節點不可用,那麼整個HDFS集羣就會處於不可用狀態.

原创 RPC協議+源碼分析

------------------------------簡述HDFS中的接口類型----------------------------------- HDFS中的接口類型分爲三種: 1.客戶端相關接口 : (1)Client

原创 數倉--Hive--總結之Hive架構原理

什麼是Hive Hive是由FaceBook開源用於解決海量日誌文件的數據結構 ; Hive是基於Hadoop的一個數據倉庫工具 , 可以將結構化的數據文件映射成一張表 , 並提供了類SQL的查詢功能 , 底層計算的引擎默認是H

原创 MapReduce之Map,Reduce,Shuffle,Yarn的機制+流程圖

MapReduce詳細工作流程之Map階段 例如圖中所示: 我們要處理一個200M的文件 切片: 在client提交之前,我們需要先將文件按照128M每塊進行切片 提交: 提交到本地工作環境過Yarn來處理 提交時會把每個任務

原创 數倉--Hive--總結之OLTP與OLAP

OLTP與OLAP的介紹 數據處理大致可以分成兩大類:聯機事務處理OLTP(on-line transaction processing)、聯機分析處理OLAP(On-Line Analytical Processing)。

原创 關於Yarn-值得你看完的一篇文章

Yarn的誕生 MapReduce1.x存在的問題 : 單點故障以及節點壓力不易擴散等等, 這也就直接催生了Yarn的誕生 Yarn的主要作用: 在不同的計算框架下,可以在同一個HDFS集羣的數據中享受整體的資源調度,按資源需要進