台部落love小心心

經常看到rpc 端口 rpc 是什麼? rpc 其實是一種協議,就是進程之間的通信協議比如mysql 和java 之間通信就是進程間通信協議就是rpc 通信協議

2020-04-29 05:28:00

光標移動相關 G(shfit+g):跳到文章末尾 gg:跳到文章開頭 2+：光標往下跳2行 $: 到本行末尾 ^: 到本行開頭刪除相關 dd:刪除當前行 d10d:刪除當前光標行往下數10行 dw：刪除光標後一個詞鍵盤del

2020-04-29 05:28:00

sql 語句： select order.id, product.pname, order.amount from user join order on product.pid = order.pid 用mr 也可以實現上述

2020-04-26 17:23:09

yarn 是hadoop 2.x 中出現的組件，目的是把資源調度和程序解耦 yarn 是什麼 yarn是一個資源調度平臺，負責爲運算程序提供服務器運算資源，相當於一個分佈式的操作系統平臺，而MapReduce等運算程序則相當於運行

2020-04-26 17:23:09

archive 使用場景 hadoop 文件元數據都保存在namenode中，小文件過多會造成nn 內存耗盡，一個文件一般佔用nn 的120kb 左右的內存，防止小文件過多，小文件採用歸檔archive 的方式使好多小文件被nn看

2020-04-25 03:02:46

mapreduce job 提交流程源碼分區源碼切片源碼排序源碼壓縮源碼

2020-04-25 03:02:46

分區的目的把不同數據輸出到不同reduceTask 最終到輸出不同文件中分區概念數據的分發到不同reducer /不同文件就是數據發送到多個目的地規則 hadoop 的默認分區原則默認規則是： hashpartition

2020-04-22 05:32:02

在hive shell 中執行任務出錯，顯示如下： 0: jdbc:hive2://hadoop-101:10000> select count(*) from test4log; INFO : Number of reduce

2020-04-20 16:12:24

mysql 中查詢總結第一：like :　　查詢效率低下除非like帶前% 第二： instr（）查詢效率較like快些,走索引

2020-04-20 16:12:24

hive的基本架構包括元數據metastore 、client 、driver 、hadoop(hdfs+mr) 其中driver包括四部分：解析器、編譯器、優化器、執行器如下圖 hive中注意事項 hive 中對大小

2020-04-19 01:59:02

spark 版本中數字介紹 1.6.0 1： major version : API change 大版本更新設計api 變化以及各更新 6：minor version : APIS/features add 新特性根性 0：p

2020-04-19 01:59:02

廣播變量廣播變量是避免每個excutor 發送一份數據而是一個worker 發送一份數據官網解釋： Using the broadcast functionality available in SparkContext ca

2020-04-19 01:59:02

mysql 中where 和having 的區別相同點二者都是對數據集進行的過濾 sql中where和having的區別 a. where 和having 使用的地方不一樣 where可以用於select、update、dele

2020-04-19 01:59:02

簡述apache hadoop的安裝過程這裏說明hadoop 主要有三大發行版本 apache:最原始的版本，方便學習 cloudera（cdh版本）：大型互聯網使用的較多，解決版本兼容問題 Hortonworks（hdp版本）

2020-04-15 08:37:35

說明：hive版本爲1.2.1 hive中reducer數量可以通過以下去設置 1．調整reduce個數方法一（1）每個Reduce處理的數據量默認是256MB hive.exec.reducers.bytes.per.redu

2020-04-15 08:37:35