原创 【Hive】性能調優 - map-side JOIN

Hive版本: hive-1.1.0-cdh5.14.2 概述 如果表關聯時,有一張表很小,那麼可以在大表通過mapper時將小表完全加載到內存中,Hive可以在map端完成關聯過程,這就是所謂的map-side JOIN。

原创 【Python】Python中的日誌級別

Python按照重要程度把日誌分爲5個級別,如下: Python中的日誌級別 級別 日誌函數 描述 DEBUG logging.debug() 最低級別,追蹤問題時使用 INFO logging.info() 記錄程序中一般事件的信息,或

原创 【HDFS】HDFS操作命令

1.上傳文件 #用法:hdfs dfs -put /本地路徑 /hdfs路徑 hdfs dfs -put /linux本地磁盤文件 /hdfs路徑文件 hdfs dfs -copyFromLocal /linux本地磁盤文件 /hdfs

原创 【HDFS】HDFS與dfsadmin結合使用

1.獲取所有參數 [hadoop@node01 ~]$ hdfs dfsadmin Usage: hdfs dfsadmin Note: Administrative commands can only be run as the HD

原创 【HBase】創建表-Java API操作

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.h

原创 【Hive】日期函數

Hive版本: hive-1.1.0-cdh5.14.2 1. Unix時間戳轉日期:from_unixtime 語法:from_unixtime(bigint unixtime[, string format]) 返回值:s

原创 【Hadoop2.6】Yarn中任務調度器

概述 Yarn中有三種任務調度器:FIFO調度器(FIFO Scheduler)、容量調度器(Capacity Scheduler)、公平調度器(Fair Scheduler)。 任務調度器介紹 1.FIFO調度器 FIFO調度器將應用放

原创 【Hive】數據導出

Hive版本:Hive 1.1.0-cdh5.14.2 INSERT導出到目錄 官方鏈接 Standard syntax: INSERT OVERWRITE [LOCAL] DIRECTORY directory1 [ROW F

原创 【Yarn】工作機制及任務提交流程

本文以mr程序爲例,解釋yarn的工作機制及任務提交流程: 0. mr程序提交任務到客戶端所在節點; 1.節點上的YarnRunner向ResourceManager申請一個Application; 2. ResourceMana

原创 【MapReduce】MapReduce工作機制

一個mapreduce作業,一般分爲兩階段執行:map階段和reduce階段,下面分別對這兩階段進行介紹。 Map階段 Map階段又分爲五部分:讀取文件階段,MapTask階段,collect階段,溢寫階段,combine階段。

原创 【Hive】動態分區插入

使用動態分區插入數據時,無需指定分區鍵值,系統根據插入的數據,自動分配分區。 動態分區需注意以下幾點: 需有一個同構的普通表做爲源表; 分區鍵值和源表字段之間是根據位置來判斷的,而不是根據命名來匹配的,分區鍵值一般對應SELEC

原创 【Maven】win10系統安裝Maven

本文主要介紹如何在win10系統上安裝Maven 操作環境: Windows10 Maven版本: apache-maven-3.6.3 1. 下載Maven安裝包 打開Maven官網下載頁面,下載如圖安裝包: 2. 解壓到

原创 【Hive】數據導入方法

Hive版本:Hive 1.1.0-cdh5.14.2 1. INSERT插入 1.1 單條插入 INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2

原创 【Spark】sparksql中使用自定義函數

代碼中分別用面向對象和麪向函數兩種寫法自定義了兩個函數: low2Up: 小寫轉大寫 up2Low: 大寫轉小寫 import org.apache.spark.sql.types.StringType import org.

原创 【Sqoop】sqoop導入導出

本文簡單介紹Sqoop如下操作: Import: ​ rdbms導入HDFS; ​ rdbms導入Hive; ​ rdbms導入Hbase; Export: ​ Hive導出到rdbms; ​ Hbase導出到rdbms; 其中,