原创 infobright優化-group by 字段在過程再次處理會很耗時

   原SQL,因爲要轉化省份是NULL的情況,在group by  的字段中需要做IFNULL(province_id, 999)  SELECT 20140311,          app_id,          IFNULL(p

原创 主流列式數據庫評測:InfiniDB和MonetDB

主流列式數據庫評測:InfiniDB和MonetDB 來源:IT168網 (主流列式數據庫評測:南大通用GBase 8a和主流列式數據庫評測之Infobright)中,列式存儲數據庫GBase 8a和Infobright給我們

原创 MySQL觸發器之審計功能

MySQL觸發器的用處還是非常多地,關鍵看業務需要,曾經給大家介紹過基於存儲引擎MEMORY加觸發器的應用場景之一剖析。通過閱讀本文,將會告訴大家:觸發器的語法知識、觸發器的限制、審計案例分析和實現,將逐一講解。   語法 CREAT

原创 Hive 內建操作符與函數開發

第一部分:關係運算 Hive支持的關係運算符 •常見的關係運算符 •等值比較: = •不等值比較: <> •小於比較: < •小於等於比較: <= •大於比較: > •大於等於比較: >= •空值

原创 hive的文件格式-RCfile

Facebook數據倉庫揭祕說到, RCFile(Record Columnar File)存儲結構遵循的是“先水平劃分,再垂直劃分”的設計理念,它結合了行存儲和列存儲的優點:首先,RCFile保證同一行的數據位於同一節點,因此元組重構

原创 Hive 參數

第一部分:Hive 參數 hive.exec.max.created.files •說明:所有hive運行的map與reduce任務可以產生的文件的和 •默認值:100000  hive.exec.dynamic.pa

原创 kettle採用Hadoop Copy Files出現權限不足的問題

kettle設計如下: 測試例子說明: SQL控件,是直接連接HIVE環境,truncate table table; Hadoop Copy Files 是拷貝ETL服務器一個文件到對應的hadoop目錄下,也就是HIVE表所在的表目

原创 HIVE RCFile高效存儲結構

本文介紹了Facebook公司數據分析系統中的RCFile存儲結構,該結構集行存儲和列存儲的優點於一身,在 MapReduce環境下的大規模數據分析中扮演重要角色。 Facebook曾在2010 ICDE(IEEE Internati

原创 HDFS權限問題

HDFS權限問題  Win下Eclipse提交hadoop程序出錯:org.apache.hadoop.security.AccessControl

原创 mysql實現自定義排序

FIELD 函數名稱field(str,str1,str2,str3,...)描述返回str在str1,str2...中所排的位次。 在列舉的值中找不到str的情況下,返回值爲 0 。 如果所有對於FIELD() 的參數均爲字符串

原创 hive-同一份數據多種處理

 hive 提供了一個獨特的語法,可以從一個數據源產生多個數據聚合,無需每次聚合都要重新掃描一次。對於大的數據輸入集來說,可優化節約非常可觀的時間。 例子:     hive > from table1            > INS

原创 hive導出查詢文件到本地文件的2種辦法

hive導出查詢文件到本地文件的2種辦法  通過HQL語句 可以將hive  中表的數據生成到指定的目錄。 有時候 我們可以利用hive來生成統計的

原创 hive_調優筆記一EXPLAIN解析

接觸越多,越需要了解hive背後的理論知識以及底層的一些實現細節,會讓用戶更加高效地使用Hive    --摘於HIVE 編程指南.  ----1     使用EXPLAIN     瞭解Hive是如何工作,第一個就是需要了解EXPL

原创 MySQL中MAX函數與Group By一起使用的注意事項

原文:http://blog.csdn.net/magicharvey/article/details/21372813 [sql] view plaincopy mysql> select * from tes

原创 Hive配置項的含義詳解

認爲在運行hive sql時可以根據數據情況進行設置,當然還有一些join的優化的配置需要單獨研究。   mapred.reduce.tasks:每個作業的reduce任務數,默認是hadoop client的配置1個; hive