原创 rpc協議

經常看到rpc 端口 rpc 是什麼? rpc 其實是一種協議,就是進程之間的通信協議 比如mysql 和java 之間通信就是進程間通信協議 就是rpc 通信協議

原创 vi 命令常見快捷鍵

光標移動相關 G(shfit+g):跳到文章末尾 gg:跳到文章開頭 2+:光標往下跳2行 $: 到本行末尾 ^: 到本行開頭 刪除相關 dd:刪除當前行 d10d:刪除當前光標行往下數10行 dw: 刪除光標後一個詞 鍵盤del

原创 hadoop中mapJoin和reuceJoin的區別和使用場景

sql 語句: select order.id, product.pname, order.amount from user join order on product.pid = order.pid 用mr 也可以實現上述

原创 hadoop 中yarn 詳解(yarn 架構&工作機制&作業提交全過程&yarn 的資源調度器)

yarn 是hadoop 2.x 中出現的組件,目的是把資源調度和程序解耦 yarn 是什麼 yarn是一個資源調度平臺,負責爲運算程序提供服務器運算資源,相當於一個分佈式的操作系統平臺,而MapReduce等運算程序則相當於運行

原创 hadoop 的歸檔archive的使用

archive 使用場景 hadoop 文件元數據都保存在namenode中,小文件過多會造成nn 內存耗盡,一個文件一般佔用nn 的120kb 左右的內存,防止小文件過多,小文件採用歸檔archive 的方式使好多小文件被nn看

原创 hadoop 重要源碼

mapreduce job 提交流程源碼 分區源碼 切片源碼 排序源碼 壓縮源碼

原创 hadoop中分區詳解

分區的目的 把不同數據輸出到不同reduceTask 最終到輸出不同文件中 分區概念 數據的分發到不同reducer /不同文件 就是數據發送到多個目的地規則 hadoop 的默認分區原則 默認規則是: hashpartition

原创 hive 執行出錯YarnException: Unauthorized request to start container

在hive shell 中執行任務出錯,顯示如下: 0: jdbc:hive2://hadoop-101:10000> select count(*) from test4log; INFO : Number of reduce

原创 mysql like 和 instr 的比較

mysql 中查詢總結 第一:like :  查詢效率低下 除非like帶前% 第二: instr() 查詢效率較like快些,走索引

原创 hive的面試

hive的基本架構 包括元數據metastore 、client 、driver 、hadoop(hdfs+mr) 其中driver包括四部分:解析器 、編譯器 、優化器、 執行器 如下圖 hive中注意事項 hive 中對大小

原创 spark 版本中數字的介紹

spark 版本中數字介紹 1.6.0 1: major version : API change 大版本更新 設計api 變化以及各更新 6:minor version : APIS/features add 新特性根性 0:p

原创 spark core 優化面試

廣播變量 廣播變量是避免每個excutor 發送一份數據 而是一個worker 發送一份數據 官網解釋: Using the broadcast functionality available in SparkContext ca

原创 Mysql中where和having的區別以及having的誤區

mysql 中where 和having 的區別 相同點二者都是對數據集進行的過濾 sql中where和having的區別 a. where 和having 使用的地方不一樣 where可以用於select、update、dele

原创 hadoop2.x的面試題及詳解

簡述apache hadoop的安裝過程 這裏說明hadoop 主要有三大發行版本 apache:最原始的版本,方便學習 cloudera(cdh版本):大型互聯網使用的較多,解決版本兼容問題 Hortonworks(hdp版本)

原创 hive 中reduce個數設定

說明:hive版本爲1.2.1 hive中reducer數量可以通過以下去設置 1.調整reduce個數方法一 (1)每個Reduce處理的數據量默認是256MB hive.exec.reducers.bytes.per.redu