原创 淺談hive

淺談hive hive 2.5.1 Hive是什麼 ###2.5.1.1 爲什麼有Hive Hive最初是應Facebook每天產生的海量新興社會網絡數據進行管理和機器學習的需求而產生和發展的。 數據量大,處理的效率比較低 map

原创 Hive的安裝部署

Hive的安裝部署 hive1.2.1 Hive常用的安裝分三種(注意:Hive會自動監測Hadoop的環境變量,如有就必須啓動Hadoop) 本地模式(多用戶模式): 使用hive自帶默認元數據庫derby來進行存儲,通常用於測

原创 hive基礎語法三

hive基礎語法三 from --map階段 join --map(有map端join)或者reduce(reduce join) on where --map端 group by --reduce階段 having -

原创 淺談spring boot+MVC

淺談spring boot+MVC: application.properties server.port=10000//spring.data.mongodb.uri=mongodb://localhost:27017/db2

原创 hadoop的組件mr

mr整體流程 maptask 調用FileInputFormat的createRecordReader(底層lineRecordReader)讀取分片數據 每行數據讀取一次,返回一個(K,V)對,K是offset,V是一行數據

原创 Spark官網補缺之SparkStreaming

Spark官網補缺之SparkStreaming 版本2.3.4 官網網址:http://spark.apache.org/docs/2.3.4/streaming-programming-guide.html 文章目錄Spark

原创 yarn的Scheduler

yarn的Scheduler 調度器 先進先出調度 hadoop1.x使用的默認調度器就是FIFO。FIFO採用隊列方式將一個一個job任務按照時間先後順序進行服務。比如排在最前面的job需要若干maptask和若干reduce

原创 mysql基礎知識(二)

mysql基礎知識(二) 多表查詢 多表查詢有如下幾種: 合併結果集;UNION 、 UNION ALL 瞭解 連接查詢 內連接 [INNER] JOIN ON 外連接 OUTER JOIN ON 左外連接 LEFT [

原创 hadoop的checkpoint

hadoop的checkpoint SecondaryNameNode 通過定時 查詢 namenode上的edit logs 來保證 fsimage的及時更新 時刻複製 active的Namenode工作節點的快照 。 合併n

原创 Spark官網補缺

Spark官網補缺(2.3.4) RDD SparkSql 文章目錄Spark官網補缺(2.3.4) RDD SparkSql1.RDD1.1文件格式1.2 shell操作1.3 惰性加載1.4 緩存(持久化)1.5shuffle

原创 hive基礎語法二

hive語句二 分區表概念 分區意義: 避免全表掃描,從而提高查詢效率;默認使用全表掃描。 使用什麼樣的分區: 日期、區域、能將數據分散開來 分區技術: [PARTITIONED BY (COLUMNNAME COLUMNTYPE

原创 從mysql的存儲過程到hive的存儲過程

mysql的存儲過程 在mysql中的聲明字段: 使用關鍵字:declare 普通類型申明格式如下: Decalare 字段名 字段類型(位數) [default 默認值]; 如:declare name varchar(45)

原创 kylin遇見的錯誤

kylin遇見的錯誤 0.普通問題 0.1 java.net.ConnectException: Call From MyDis/192.168.182.86 to MyDis:10020 failed on connection

原创 hive基礎語法一

hive基礎語法一 set $屬性(變量); with tmp as(); select from( select a.id id, a.name name from test left