原创 如何處理海量數據

在實際的工作環境下,許多人會遇到海量數據這個複雜而艱鉅的問題,它的主要難點有以下幾個方面:一、數據量過大,數據中什麼情況都可能存在。如果說有10條數據,那麼大不了每條去逐一檢查,人爲處理,如果有上百條數據,也可以考慮,如果數據上到千萬級別,

原创 Hive優化總結

轉自:http://www.cnblogs.com/end/archive/2013/01/15/2861448.html優化時,把hive sql當做map reduce程序來讀,會有意想不到的驚喜。理解hadoop的核心能力,是hive

原创 SQL解析之硬解析和軟解析

當客戶端進程,將SQL語句通過監聽器發送到Oracle時, 會觸發一個Server process生成,來對該客戶進程服務。Server process得到SQL語句之後,對SQL語句進行Hash運算,然後根據Hash值到library c

原创 Hive SQL解析/執行計劃生成流程分析

轉自:http://yanbohappy.sinaapp.com/?p=265Hive有三種用戶接口:cli (Command line interface)bin/hive或bin/hive –service cli命令行方式(默認)hi

原创 Oracle10g常見HINT的用法

Oracle10g常見HINT的用法語法:提示裏不區分大小寫,多個提示用空格分開,如:select/*+hint1(tab1)hint2(TAB1idx1)*/col1,col2fromtab1wherecol1='xxx';如果表使用了別

原创 【Hadoop】HDFS的運行原理

HDFS(Hadoop Distributed File System )Hadoop分佈式文件系統。是根據google發表的論文翻版的。論文爲GFS(Google File System)Google 文件系統(中文,英文)。HDFS有很

原创 數據倉庫與元數據管理標準化

1. 前言在事務處理系統中的數據,主要用於記錄和查詢業務情況。隨着數據倉庫(DW)技術的不斷成熟,企業的數據逐漸變成了決策的主要依據。數據倉庫中的數據是從許多業務處理系統中抽取、轉換而來,對於這樣一個複雜的企業數據環境,如何以安全、高效的方

原创 Oracle SGA詳解

1 概述  Oracle SGA區的監控和管理,是數據庫日常維護的重要內容。本文詳細介紹SGA的基本概念,SGA運行情況檢查,以及SGA的參數設置原則。   2 SGA的基本概念  當啓動Oracle數據庫時,系統會先在內存內規劃一個固定區

原创 我的友情鏈接

51CTO博客開發

原创 【性能調優】Oracle AWR報告指標全解析

懶得翻譯官方文檔了。。。。這個翻譯的還挺全http://blog.itpub.net/26954807/viewspace-1300697/

原创 測試alter table shrink space compact cascade及學習user_tables相關列的含義

SQL> alter table test_shrink enable row movement;--alter table shrink space須開啓行移動Table altered.SQL> select table_name,bl

原创 spark入門實戰

spark入門實戰http://www.cnblogs.com/shishanyuan/p/4699644.html

原创 linux awk命令詳解

簡介awk是一個強大的文本分析工具,相對於grep的查找,sed的編輯,awk在其對數據分析並生成報告時,顯得尤爲強大。簡單來說awk就是把文件逐行的讀入,以空格爲默認分隔符將每行切片,切開的部分再進行各種分析處理。awk有3個不同版本:

原创 數據倉庫與元數據管理標準化

1. 前言在事務處理系統中的數據,主要用於記錄和查詢業務情況。隨着數據倉庫(DW)技術的不斷成熟,企業的數據逐漸變成了決策的主要依據。數據倉庫中的數據是從許多業務處理系統中抽取、轉換而來,對於這樣一個複雜的企業數據環境,如何以安全、高效的方

原创 Oracle Hash join算法原理

Hash join算法原理 自從oracke 7.3以來,oracle提供了一種新的join技術,就是hash join。Hash Join只能用於相等連接,且只能在CBO優化器模式下。相對於nested loop join,hash jo