台部落狂奔吧蜗牛

Hbase多種API，我在項目中使用是Happybase。一些常用的操作在Happybase官網都有示例，而我在使用table.scan()方法，傳入Filter時，找不到參考，不知道具體的語法。經過一番參考和測試，終於實現了想要的功能。

2018-10-20 01:58:24

近期有項目需要向Hbase寫入數據，爲了測試數據寫入是否正常，常用Hbase shell查詢數據，但是用起來比較麻煩，看到Clouder官網有關於使用Impala查詢Hbase的操作說明，做了簡單的嘗試，記錄如下，供大家參考。環境： C

2018-10-20 01:58:24

Spark官網有關於數據本地化的相關介紹：http://spark.apache.org/docs/2.1.0/tuning.html#data-locality本地化說明數據本地化可以對Spark任務的性能產生重大影響。如果數據和操作數

2018-09-04 22:24:54

說明：藉助谷歌翻譯，以個人理解進行修改原文地址：http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/學習調整Apache Spar

2018-09-04 22:24:46

Hive中與正則相關的函數有兩個，regexp_extract和regexp_replace，本篇介紹regexp_extract。官網中關於regexp_extract的介紹如下：參數說明： subject：待解析的字符串或者字符

2018-09-04 22:24:43

我在對Hive表數據清洗後，使用瞭如下SQL將結果集插入到新表中: insert into db_name.table_name_1 ( col_1,col2,col3 ) with temp_table_

2018-09-04 22:24:43

Hive中的分桶，是對指定的列值取哈希與指定的分桶數取模，根據餘數確定數據所在的分桶，適用於抽樣和map-join。創建分桶表create table bucket_table_name [columns] clustered by (b

2018-09-04 22:24:42

我在使用Hive SQL時，一直以關係型數據庫SQL的語法寫的Hive SQL。當多表union同時需要去重的時候，我是用瞭如下SQL： select a.col1,a.col2,a.col3 from table_name_1 a

2018-09-04 22:24:42

在將S3文件導入到Redshifit，提示錯誤： psycopg2.InternalError: Load into table 'table_name' failed. Check 'stl_load_errors' system t

2018-09-04 22:24:41

環境：Centos 7 Python 2.7在安裝python依賴包時報錯：command 'gcc' failed with exit status 1，如下圖所示：解決方案是：sudo yum install python-devsu

2018-09-04 22:24:40

因業務需要用到MD5，但Impala沒有該函數，隨藉助UDF實現。以下是實現過程。UDF實現要點：根據集羣中Hive的版本導入對應版本的hive-exec.jar自定義UDF類要繼承接口UDF實現evaluate()方法maven依賴：

2018-09-04 22:24:39

我執行的sql如下：select * from db_name.table_name_1 where exists(select 1 from db_name.table_name_2 a where a.row_id = db_name

2018-09-04 22:24:39

在linux中安裝pip命令，如果直接用yum install 安裝可能會遇到很多問題。官網的這個方法可以很快很安全的安裝好pip。官網地址：https://pypi.python.org/pypi/pip/1、打開pip官網後，點擊“I

2018-09-04 22:24:39

因爲業務要求，需要對Hive表進行delete，在官網查詢後，發現update和delete是一類問題。在此總結下如何實現Hive表的delete和update。首先，先看下官網關於update和delete的相關說明，使用注意事項也請參

2018-09-04 22:24:39

說明：藉助谷歌翻譯，以個人理解進行修改原文地址：https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/在本系列的結語中，瞭解資源調

2018-09-04 22:24:37