原创 Scribe+HDFS日誌收集系統安裝方法

1、概述 Scribe是facebook開源的日誌收集系統,可用於搜索引擎中進行大規模日誌分析處理。其通常與Hadoop結合使用,scribe用於向HDFS中push日誌,而Hadoop通過MapReduce作業進行定期處理,具體可參

原创 Hive中的數據分區

首先認識什麼是分區 Hive 中的分區就是分目錄,把一個大的數據集根據業務需要分割成更下的數據集。 1. 如何定義分區,創建分區  hive> create table test(name string,sex i

原创 Hive 中的日誌

日誌記錄了程序運行的過程,是一種查找問題的利器。Hive中的日誌分爲兩種1. 系統日誌,記錄了hive的運行情況,錯誤狀況。2. Job 日誌,記錄了Hive 中job的執行的歷史過程。系統日誌存儲在什麼地方呢 ?在hive/conf/

原创 hive使用mysql保存metastore

Hive 將元數據存儲在 RDBMS 中,有三種模式可以連接到數據庫:  1)ingle User Mode: 此模式連接到一個 In-memory 的數據庫 Derby,一般用於 Unit Test。  2)Multi User Mo

原创 學習網站

轉載於 :  http://blog.sina.com.cn/robertlizhiqiang ┣▇▇▇═─ 一個十天教PHP的教程網頁/裏面也提供AppServ的下載─═▇▇▇┫ http://www.cmstong.com/ed

原创 在Hive中創建索引

create table TBL_FACT_SYMBIAN_PACKET(PROVICE_FK  INT,DATE_FK  INT,MODEL_FK  INT,COUNTRY_FK  INT,NETWORK_FK  INT,OSLAG_F

原创 IBM InfoSphere DataStage 集羣配置管理與應用實踐

http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1111sunch/ IBM InfoSphere DataStage 集羣配置管理與應用實踐 跳轉到主

原创 mysql 的 decode 函數實現

select   ELT(FIND_IN_SET('a','a,b,c,d,e,f,g')+1,'默認','a1','b2','c3','d4','e5','f6','g7')

原创 hadoop數據遷入到hive

由於很多數據在hadoop平臺,當從hadoop平臺的數據遷移到hive目錄下時,由於hive默認的分隔符是\,爲了平滑遷移,需要在創建表格時指定數據的分割符號,語法如下:   create table test(uid strin

原创 Oracle排序過濾重複數據,取最新的數據

問題:在項目中有一張設備檢測信息表DEVICE_INFO_TBL, 每個設備每天都會產生一條檢測信息,現在需要從該表中檢索出每個設備的最新檢測信息。也就是device_id字段不能重複,消除device_id字段重複的記錄,而且devi

原创 mysql獲取中文字段內容

############################################################ create table test (id int,info varchar(25

原创 oracle全文檢索

測試環境oracle11g BEGIN   CTX_DDL.CREATE_PREFERENCE('TEST_LEXER', 'CHINESE_VGRAM_LEXER');  --ctx_ddl.create_preference ('S

原创 myeclipse 讀取數據內存不足問題

在JRE 編輯時候,在Default VM Arguments處添加 set JAVA_OPTS=-Xms256m -Xmx1024m -XX:MaxNewSize=256m -XX:MaxPermSize=256m 如果單獨以tom

原创 ORACLE的DDL語句與已是提交的關係

DDL --  DDL語句是數據定義語句,包括各種數據對象的創建、修改和刪除,以及授權等操作。 在同一個會話中,DDL執行之前的DML語句會隱式進行commit操作,無論DDL執行成功或者不成功都會提交(DDL語句語法有問題的情況除外)

原创 oracle中去重複記錄 不用distinct

用distinct關鍵字只能過濾查詢字段中所有記錄相同的(記錄集相同),而如果要指定一個字段卻沒有效果,另外distinct關鍵字會排序,效率很低 。 select distinct name from t1 能消除重複記錄,但只能取