台部落过河卒子Rover

基本數據類型數值型 TINYINT 1字節,-128~127 SMALLINT 2字節，-32768~32767 INT/INTEGER 4字節，-2,147,476,648 ~ 2,147,483,647 BIGINT 8

2020-06-16 11:33:00

簡介 Hive爲我們提供了衆多的內置函數，但是在實際的運用過程中仍然不能滿足我們所有的需求.hive是用java開發的，本身提供了使用java去開發UDF的方式.而這裏我們採用python的方式去實現UDF函數. DEMO實現我

2020-06-16 11:33:00

簡介 hive的表在hdfs上對應一個文件目錄，當使用hive進行select查詢操作時，會對這個目錄下的所有文件進行全表的掃描，其實這樣的查詢時很浪費性能的，這樣就引入了partiton(分區)和bucket(桶)的概念。 h

2020-06-16 11:33:00

簡介本文記錄Sqoop環境搭建的步驟下載Sqoop 去sqoop的官網下載sqoop，下載地址爲:http://sqoop.apache.org/ 我們下載的版本爲1.4.6，如下圖所示解壓Sqoop 解壓sqoop文

2020-06-16 11:33:00

轉載自:[每次進步一點點——Spark 中的寬依賴和窄依賴] Spark中RDD的高效與DAG圖有着莫大的關係，在DAG調度中需要對計算過程劃分stage，而劃分依據就是RDD之間的依賴關係。針對不同的轉換函數，RDD之間的依賴關

2020-02-23 01:48:38

嵌套查詢一個select…From…Where查詢語句塊可以嵌套在另一個select…From…Where查詢塊的Where子句中，稱爲嵌套查詢。外層查詢稱爲父查詢，主查詢。內層查詢稱爲子查詢，從查詢。子查詢可以嵌套多層

2020-02-23 01:48:38

簡介本文主要介紹一些常用的Hive SHELL指令，這些shell指令統一的要求是必須要以；結尾自動補全在shell中執行查詢語句時，按tab鍵可以執行自動補全的功能查看歷史操作在shell中，可以使用上下箭頭去查看歷史

2020-02-23 01:48:38

簡介 VMware虛擬機提供了3種工作模式，分別爲bridged(橋接模式)、NAT(網絡地址轉換模式)和host-only(主機模式)。下面簡單介紹一下這3中模式: bridged(橋接模式) 在bridged模式下，VMWar

2020-02-23 01:48:38

在使用sql server的導出數據功能時，可能會碰到如下的錯誤提示: 消息錯誤 0xc0202049: 數據流任務 1: 無法在只讀列“CID”中插入數據。 (SQL Server 導入和導出嚮導) 錯誤

2020-02-23 01:48:38

簡介在啓動hive時，爆出了namenode處於安全模式的錯誤，記錄一下解決過程異常報錯信息如下 Causedby:org.apache.hadoop.ipc.RemoteException(org.apache.hadoo

2020-02-23 01:48:38

背景導入一些csv數據到Mysql，記錄一下過程中出現的問題數據源 csv文件的數據源爲Sql Server，使用Sql Server導出csv文件的過程就不在贅述，過程中出現的問題如下：正在驗證 (錯誤) 消息錯誤 0

2020-02-23 01:48:38

SQL 有時遇到如下錯誤: 已超過了鎖請求超時時段。 (Microsoft SQL Server，錯誤: 1222) 刷新以後，右擊某張表或者庫，發現裏面的表全部消失了或者查詢不到。這是因爲 sql進程死鎖，資源被搶佔，要

2020-02-23 01:48:38

簡介 SQL Server數據庫有三種恢復模式：簡單恢復模式、完整恢復模式和大容量日誌恢復模式 Simple 簡單恢復模式, Simple模式的舊稱叫”Checkpoint with truncate log“，其實這個名字更

2020-02-23 01:48:38

內表和外表內表(Managed Table) 也稱爲“管理表”，其數據文件、元數據及統計信息全部由Hive進程自身管理.內表的數據存儲在由hive.metastore.warehouse.dir指定的路徑下，類似於/user/h

2020-02-23 01:48:38

在實際的生產環境下,我們常常是要繼續數據增量的導入核心參數 –check-column 用來指定一些列，這些列在增量導入時用來檢查這些數據是否作爲增量數據進行導入，和關係型數據庫中的自增字段及時間戳類似. 注意:這些被指定

2020-02-23 01:48:38