原创 Hbase Python API Happybase中的Filter

Hbase多種API,我在項目中使用是Happybase。一些常用的操作在Happybase官網都有示例,而我在使用table.scan()方法,傳入Filter時,找不到參考,不知道具體的語法。經過一番參考和測試,終於實現了想要的功能。

原创 用Hive、Impala查詢Hbase數據

近期有項目需要向Hbase寫入數據,爲了測試數據寫入是否正常,常用Hbase shell查詢數據,但是用起來比較麻煩,看到Clouder官網有關於使用Impala查詢Hbase的操作說明,做了簡單的嘗試,記錄如下,供大家參考。 環境: C

原创 Spark任務調優(1)——數據本地化

Spark官網有關於數據本地化的相關介紹:http://spark.apache.org/docs/2.1.0/tuning.html#data-locality本地化說明數據本地化可以對Spark任務的性能產生重大影響。如果數據和操作數

原创 指南:優化Apache Spark作業(第1部分)

說明:藉助谷歌翻譯,以個人理解進行修改原文地址:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/學習調整Apache Spar

原创 Hive正則——regexp_extract

Hive中與正則相關的函數有兩個,regexp_extract和regexp_replace,本篇介紹regexp_extract。官網中關於regexp_extract的介紹如下:參數說明:    subject:待解析的字符串或者字符

原创 大數據踩過的坑——Hive insert

我在對Hive表數據清洗後,使用瞭如下SQL將結果集插入到新表中:    insert into db_name.table_name_1 (        col_1,col2,col3    )    with temp_table_

原创 Hive分桶

Hive中的分桶,是對指定的列值取哈希與指定的分桶數取模,根據餘數確定數據所在的分桶,適用於抽樣和map-join。創建分桶表create table bucket_table_name [columns] clustered by (b

原创 大數據踩過的坑——Hive union

我在使用Hive SQL時,一直以關係型數據庫SQL的語法寫的Hive SQL。當多表union同時需要去重的時候,我是用瞭如下SQL:    select a.col1,a.col2,a.col3 from table_name_1 a

原创 S3文件導入Redshift,Check 'stl_load_errors' system table for details.

在將S3文件導入到Redshifit,提示錯誤: psycopg2.InternalError: Load into table 'table_name' failed.  Check 'stl_load_errors' system t

原创 關於pip install安裝python依賴包時報錯:command 'gcc' failed with exit status 1的解決方案

環境:Centos 7 Python 2.7在安裝python依賴包時報錯:command 'gcc' failed with exit status 1,如下圖所示:解決方案是:sudo yum install python-devsu

原创 Impala用戶自定義函數(UDF)

因業務需要用到MD5,但Impala沒有該函數,隨藉助UDF實現。以下是實現過程。UDF實現要點:根據集羣中Hive的版本導入對應版本的hive-exec.jar自定義UDF類要繼承接口UDF實現evaluate()方法maven依賴:

原创 Hive查詢使用exists/not exists報錯For Exists/Not Exists operator SubQuery must be Correlated.

我執行的sql如下:select * from db_name.table_name_1 where exists(select 1 from db_name.table_name_2 a where a.row_id = db_name

原创 Linux安裝pip

在linux中安裝pip命令,如果直接用yum install 安裝可能會遇到很多問題。官網的這個方法可以很快很安全的安裝好pip。官網地址:https://pypi.python.org/pypi/pip/1、打開pip官網後,點擊“I

原创 Hive實現update和delete

因爲業務要求,需要對Hive表進行delete,在官網查詢後,發現update和delete是一類問題。在此總結下如何實現Hive表的delete和update。首先,先看下官網關於update和delete的相關說明,使用注意事項也請參

原创 指南:優化Apache Spark作業(第2部分)

說明:藉助谷歌翻譯,以個人理解進行修改原文地址:https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/在本系列的結語中,瞭解資源調