原创 HDFS 深入理解 和 讀寫流程

HDFS 深入 理解 一. namenode和datanode的功能 namenode: 管理文件的元數據 處理來自客戶端的請求 datanode: 保存數據本身 少量的元數據: 塊的長度, 校驗和, 時間戳 二. namenod

原创 Hadoop 底層計算引擎優化 專篇 乾貨

目錄:MapReduce 跑的慢的原因整理Mapreduce 程序效率的瓶頸在於兩點:1)計算機性能3.2.1 數據輸入3.2.2 Map階段3.2.3 Reduce階段3.2.4 IO傳輸方法1:抽樣和範圍分區方法2:自定義分區

原创 Oracle 索引專篇

前言: 一、Oracle索引是一種快速訪問數據的途徑,可提高數據庫性能。 索引是數據庫程序無須對整個表進行掃描,就可以在其中找到所需要的數據,就像書的目錄。 二、索引的分類 邏輯分類:單列索引、組合索引、唯一索引、非唯一索引,函數

原创 HiveServer、HiveServer2 區別

hiveServer/HiveServer2 區別 1:簡單介紹 兩者都允許遠程客戶端使用多種編程語言,通過HiveServer或者HiveServer2,客戶端可以在不啓動CLI的情況下對Hive中的數據進行操作,這兩個和都允許

原创 Hive 優化篇乾貨 整理

Hive 優化 ? Hive SQL本質就是MapReduce 1.任務層:在小數據量的時候我們可以開啓本地模式(單臺機器可以處理所有的任務。對於小數據集可以明顯縮短)、 因爲跑MR的話啓動時間會花費很長一段時間 (2)hiv

原创 Oracle 的行列轉換

原表:student 原表:course 以下使用Max、Min、sum 都可以。。 1. 固定行列轉換格式及方法: 1.1、Decode方式 select sno,SNAME, max(decode (ssex,‘男生’

原创 Oracle 窗口函數 實例操做 放大招

前言: 窗口函數的名字是over()函數,常用的有兩個屬性partition by和order by,partition by類似於group by,我們通常將group by叫做分組,而partition by稱作分區,分組返回

原创 SQL中 with函數的詳解與用法

前言: 前幾天在工作中有跟同事學習到了一個新的SQL寫法,那就是今天所有記錄的with as 關鍵字的用法與學習。 見諒我是個案板上的小菜雞,學起來那咱就。 1、關鍵字作用: WITH AS短語,也叫做子查詢部分,定義一個SQL

原创 MySQL 實用小技巧

SELECT PASSWORD (‘123456’) AS 免密; SELECT MD5(‘123456’); show engines; #MySQL 搜索引擎 show PROFILES; #通過它可以查看到SQL耗費時間

原创 MySQL 常見索引的使用場景與區別(SQL小技巧)

一、MySQL索引類型: MySql常見索引類型有:主鍵索引、唯一索引、普通索引、全文索引、組合索引 添加索引的格式: ALTER TABLE table_name ADD INDEX index_name ( column

原创 數倉 面試題(離線)實戰解答

無意間翻到以前的數倉面試題,今天把它整理出來,方便你我他。 1、說說對數據倉庫的理解 數據倉庫是面向主題進行組織的,數據是集成的、不可更新的、隨時間變化的的。 數據倉庫經歷了這樣三個階段:簡單報表階段、數據集市階段、數據倉庫階

原创 SQLBoy 存儲過程之歷險記(二)

前言: 建表語句我就不放了,只上最終代碼結果圖。 我是在自己本地所使用的Oracle 11g ,數據量也就幾個字段,不必要使用call來調。所以使用遊標的方式跑的數據,所以就註釋掉了第一行紅色部分;在自己本地跑的時候也要注意這點,

原创 必知 Oracle 數據字典

前言: 數據字典是 Oracle 存放關於數據庫內部信息的地方,其用途是用來描述數據庫內部的運行和管理情況。 比如,一個數據表的所有者、創建時間、所屬表空間、用戶訪問權限等信息,這些信息都可以在數據字典中查找到。當用戶操作數據庫

原创 SQLBoy 存儲過程之歷險記

文章目錄:1、概述:2、存儲過程概念及語法格式:3、數據類型與定義變量和常量4、特殊數據類型之%TYPE和%ROWTYPE5、在存儲過程中%TYPE和%ROWTYPE常用來在PL/SQL中定義變量:6、 循環語句Loop 使用7、

原创 Spark 和 Hadoop 架構區別(全新視角)

文章目錄:1、Spark和Hadoop的架構區別2、Spark 和Hadoop的中間計算結果處理區別3、Spark 和Hadoop的操作模型區別《轉載註明出處,你的點贊是我的動力。》 1、Spark和Hadoop的架構區別 Had