原创 Hive 數據類型介紹

基本數據類型 數值型 TINYINT 1字節,-128~127 SMALLINT 2字節,-32768~32767 INT/INTEGER 4字節,-2,147,476,648 ~ 2,147,483,647 BIGINT 8

原创 Hive UDF Python

簡介 Hive爲我們提供了衆多的內置函數,但是在實際的運用過程中仍然不能滿足我們所有的需求.hive是用java開發的,本身提供了使用java去開發UDF的方式.而這裏我們採用python的方式去實現UDF函數. DEMO實現 我

原创 Hive 分區表和桶

簡介 hive的表在hdfs上對應一個文件目錄,當使用hive進行select查詢操作時,會對這個目錄下的所有文件進行全表的掃描,其實這樣的查詢時很浪費性能的,這樣就引入了partiton(分區)和bucket(桶)的概念。 h

原创 Sqoop環境搭建

簡介 本文記錄Sqoop環境搭建的步驟 下載Sqoop 去sqoop的官網下載sqoop,下載地址爲:http://sqoop.apache.org/ 我們下載的版本爲1.4.6,如下圖所示 解壓Sqoop 解壓sqoop文

原创 Spark 中的寬依賴和窄依賴

轉載自:[每次進步一點點——Spark 中的寬依賴和窄依賴] Spark中RDD的高效與DAG圖有着莫大的關係,在DAG調度中需要對計算過程劃分stage,而劃分依據就是RDD之間的依賴關係。針對不同的轉換函數,RDD之間的依賴關

原创 嵌套查詢:相關子查詢和非相關子查詢

嵌套查詢 一個select…From…Where查詢語句塊可以嵌套在另一個select…From…Where查詢塊的Where子句中,稱爲嵌套查詢。 外層查詢稱爲父查詢,主查詢。內層查詢稱爲子查詢,從查詢。 子查詢可以嵌套多層

原创 Hive SHELL

簡介 本文主要介紹一些常用的Hive SHELL指令,這些shell指令統一的要求是必須要以;結尾 自動補全 在shell中執行查詢語句時,按tab鍵可以執行自動補全的功能 查看歷史操作 在shell中,可以使用上下箭頭去查看歷史

原创 虛擬機的網絡模式

簡介 VMware虛擬機提供了3種工作模式,分別爲bridged(橋接模式)、NAT(網絡地址轉換模式)和host-only(主機模式)。下面簡單介紹一下這3中模式: bridged(橋接模式) 在bridged模式下,VMWar

原创 SQL SERVER無法在只讀列'CID'插入數據

在使用sql server的導出數據功能時,可能會碰到如下的錯誤提示: 消息 錯誤 0xc0202049: 數據流任務 1: 無法在只讀列“CID”中插入數據。 (SQL Server 導入和導出嚮導) 錯誤

原创 Hadoop namenode的安全模式

簡介 在啓動hive時,爆出了namenode處於安全模式的錯誤,記錄一下解決過程 異常 報錯信息如下 Causedby:org.apache.hadoop.ipc.RemoteException(org.apache.hadoo

原创 csv文件導入Mysql的一些問題

背景 導入一些csv數據到Mysql,記錄一下過程中出現的問題 數據源 csv文件的數據源爲Sql Server,使用Sql Server導出csv文件的過程就不在贅述,過程中出現的問題如下: 正在驗證 (錯誤) 消息 錯誤 0

原创 SQL Server '已超過了鎖請求超時時段' 問題解決方法

SQL 有時遇到如下錯誤: 已超過了鎖請求超時時段。 (Microsoft SQL Server,錯誤: 1222) 刷新以後,右擊某張表或者庫,發現裏面的表全部消失了 或者查詢不到。 這是因爲 sql進程死鎖,資源被搶佔,要

原创 Sql Server 恢復模式

簡介 SQL Server數據庫有三種恢復模式:簡單恢復模式、完整恢復模式和大容量日誌恢復模式 Simple 簡單恢復模式, Simple模式的舊稱叫”Checkpoint with truncate log“,其實這個名字更

原创 Hive 表

內表和外表 內表(Managed Table) 也稱爲“管理表”,其數據文件、元數據及統計信息全部由Hive進程自身管理.內表的數據存儲在由hive.metastore.warehouse.dir指定的路徑下,類似於/user/h

原创 Sqoop增量導入實戰

在實際的生產環境下,我們常常是要繼續數據增量的導入 核心參數 –check-column 用來指定一些列,這些列在增量導入時用來檢查這些數據是否作爲增量數據進行導入,和關係型數據庫中的自增字段及時間戳類似. 注意:這些被指定