原创 csv忽略雙引號中的逗號

情況如下  原始數據如這樣  cat test.csv a,b,c,"ff,kk",d,"ee,mm" csv默認以逗號分割如果以此形式直接load 進入hive表 csv 進入hive表默認分割符號也爲逗號  load data inp

原创 hive on hbase 建表語句示例

create external table shop_cart (key String,name String,value String)  STORED BY 'org.apache.hadoop.hive.hbase.HBaseSto

原创 fcitx 添加輸入法但並沒有輸入候選項

如圖 gnome 更新到 3.34 突然fcitx 的中文輸入法(fcitx-googlepinyin)不能用了 甚是鬱悶 滾動版linux要注意咯 突然有點不想用linux 太麻煩 回到正題  想着這個不能用就換個別的輸入法,比如so

原创 java連接kerberos驗證的hbase

kerberos是一種權限驗證框架 import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hado

原创 no main manifest attribute,找不到main函數

在idea 裏面 build 打成jar包之後,放到linux上面運行 java -jar xxx.jar  然後就會報這個錯,後來發現是META-INF 路徑不對 在idea 裏面打包時制定META-INF 路徑應該在 src/main

原创 zeppelin 安裝使用配置mysql

zeppelin是一款方便的可視化工具,可以方便的將數據展示爲可視化圖表 官網下載 完整版解壓 配置  cp zeppelin-site.xml.template zeppelin-site.xml 裏面是一些端口配置默認就好 cp ze

原创 hue 安裝以及集成hbase

hue 是cdh中自帶的組件,也可單獨安裝(麻煩),hue 是hadoop ui,利用它可以很直觀的操作和查看hadoop生態應用。一般安裝cloudera manager之後會自動帶有hue管理界面 first 安裝所需依賴  yum

原创 spark streaming 運行日誌太多

cp log4j.properties.template log4j.properties  將其中的改爲 log4j.rootCategory=ERROR, console 其實就是修改日誌級別 然後將log4j.properties

原创 解決git clone 慢的問題

git clone 一個東西巨慢,而且還不能斷點續傳emmm  解決辦法 sudo vim /etc/hosts http://ip.tool.chinaz.com/  查詢  github.com  github.global.ssl.

原创 hbase學習

1 compression 壓縮 默認是不壓縮 create 'table',{NAME=>'INFO',COMPRESSION=>'SNAPPY'} 對列族進行壓縮 目標是達到儘可能快的壓縮和解壓速度,同時減少對 CPU 的消耗; HB

原创 hbase 過濾器

https://blog.csdn.net/cnweike/article/details/42920547   https://blog.csdn.net/m0_37739193/article/details/73615016   S

原创 linux 連接打印機

以前覺得連接打印機麻煩,也打印不了什麼東西,所以就沒有用,可突然有一天需要 打印 so linux連接打印機還是挺方便的 首先你會看到下圖 不要着急 sudo apt install cups  (common unix printin

原创 cdh 查看各組件的版本

像hdp查看版本就比較容易點,直接打開add service即添加服務就能看到以前安裝組件的版本 而cdh就沒有那麼簡單了 需要通過 allhost 主機 所有主機 隨便點擊進去一個主機 工具欄 組件即可查看

原创 kafka刪除topic的數據

1如果要刪除的topic正在被producer和consumer,則停止掉。因爲如果有producer或者consumer,則topic的offest信息會在broker上更新,導致kafkadelete命令無法刪除,同時需要設置auto

原创 hbase rowkey 排序

  HBase裏面同一列的元素按照rowkey進行排序,排序規則是rowkey的ASCII碼排序,小的在前大的在後。 舉例說明:rowkey的時間設計是Long.MAX_VALUE減去真實的timestamp(單位:秒)(System.c