原创 Windows版本Pycharm連接Linux hive

作爲一個python新手,任何一個步驟都不能放過,就怕後續遇到同樣的問題無從下手,先記錄再記憶 1,我用的是hadoop2.7,spark-2.4.5-hadoop2.7,Anaconda3.6,Pycharm 2,下載跟你的Hadoop

原创 DBeaver鏈接Vertica

一,DBeaver是一個免費的開源數據庫連接工具,它是基於開源框架並且允許使用者加入不同的擴展 二,下載安裝DBeaver        官網下載DBeaver,找到適合自己電腦的版本 x64還是x86        https://db

原创 Python零基礎(一)

1,註釋(ctrl+/)     單行註釋用#     多行註釋用"""  """      2,變量定義(遵循標識符規則,駝峯命名)     變量名=值      3,數據類型     #int     a=1     print(ty

原创 關於Cygwin沒有可選擇下載的源(no choose Download Sites)

由於通行證的問題,公司打算棄用Xshell,改用Cygwin,都是連接服務器終端的軟件 Cygwin安裝: 1.官網下載:https://www.cygwin.com/ 2.選擇跟電腦匹配的版本 3. 雙擊軟件setup-x86_64.

原创 Python零基礎(二)

26,locate     在python中 sql語句沒有模糊匹配,沒有like,因此用locate(str1,str2)     例如:locate('a','abc')      1           locate('f','ab

原创 hive的隨筆記錄

1,當hive的sql語句select有數據,但count顯示爲0 答:這個主要是元數據裏沒有統計,所以取不出來統計後的條數,解決方法有兩種:       ①set hive.compute.query.using.stats=false

原创 多租戶(一)Capacity Schedular

Hadoop的yarn資源調度器一般分爲FIFO,Capacity Scheduler跟Fair Scheduler。但是多租戶大多常用兩種Capacity Scheduler跟Fair Scheduler兩種   1,Capacity

原创 Hive多用戶權限

HIVE多用戶權限 當多個用戶共同使用hive時,需要對不同角色做不同的權限控制。 權限控制主要指底層的hdfs文件操作控制和hive自身對錶的授權管理。hive是通過mysql的元數據來控制hive裏的權限。     Hive授權的核心

原创 hive讀取ORC表,顯示爲NULL

我是用kettle導的數據,導入到hive裏,但是在查詢的時候顯示爲null,這是因爲hive在讀取ORC文件時,ORC的schema是區分大小寫的,因此無法讀到才顯示的NULL,可以在到數據的時候把每個字段都加個別名,例如: selec

原创 Python零基礎

1,註釋(ctrl+/)     單行註釋用#     多行註釋用"""  """      2,變量定義(遵循標識符規則,駝峯命名)     變量名=值      3,數據類型     #int     a=1     print(ty

原创 SemanticException Cartesian products are disabled for safety reasons. If you know what you are doin

 SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please sethive.s

原创 kettle導出的數據中文亂碼

打開spoon.bat,在if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m" "-Xmx2048m" "-XX:MaxPermSize=25

原创 maven內網下載repository失敗

項目中每一個坑都是一個個磨人的小妖精 1,從官網下載maven包:https://maven.apache.org/download.cgi 2,將安裝報解壓到:F:\apache-maven-3.5.2 3,找到環境變量,加入到環境變量

原创 hdfs及hive文件壓縮

1 gzip壓縮 優點:壓縮率比較高,而且壓縮/解壓速度也比較快;hadoop本身支持,在應用中處理gzip格式的文件就和直接處理文本一樣;有hadoop native庫;大部分linux系統都自帶gzip命令,使用方便。 缺點:不支持s