轉自：http://blog.itpub.net/22861158/viewspace-664030/

hash join概念

     hash join(HJ)是一種用於equi-join（而anti-join就是使用NOT IN時的join）的技術。在Oracle中，它是從7.3開始引入的，以代替sort-merge和nested-loop join方式，提高效率。在CBO（hash join只有在CBO纔可能被使用到）模式下，優化器計算代價時，首先會考慮hash join。可以通過提示use_hash來強制使用hash join，也可以通過修改會話或數據庫參數HASH_JOIN_ENABLED=FALSE（默認爲TRUE）強制不使用hash join。

     Hash join的主要資源消耗在於CPU（在內存中創建臨時的hash表，並進行hash計算），而merge join的資源消耗主要在於此盤IO（掃描表或索引）。在並行系統中，hash join對CPU的消耗更加明顯。所以在CPU緊張時，最好限制使用hash join。

     在絕大多數情況下，hash join效率比其他join方式效率更高：

     在Sort-Merge Join(SMJ)，兩張表的數據都需要先做排序，然後做merge。因此效率相對最差；

     Nested-Loop Join(NL)效率比SMJ更高。特別是當驅動表的數據量很大（集的勢高）時。這樣可以並行掃描內表。

     Hash join效率最高，因爲只要對兩張表掃描一次。

     Hash join一般用於一張小表和一張大表進行join時。Hash join的過程大致如下（下面所說的內存就指sort area，關於過程，後面會作詳細討論）：

1．  一張小表被hash在內存中。因爲數據量小，所以這張小表的大多數數據已經駐入在內存中，剩下的少量數據被放置在臨時表空間中；

2．  每讀取大表的一條記錄，就和小表中內存中的數據進行比較，如果符合，則立即輸出數據（也就是說沒有讀取臨時表空間中的小表的數據）。而如果大表的數據與小表中臨時表空間的數據相符合，則不直接輸出，而是也被存儲臨時表空間中。

3．  當大表的所有數據都讀取完畢，將臨時表空間中的數據以其輸出。

     如果小表的數據量足夠小（小於hash area size），那所有數據就都在內存中了，可以避免對臨時表空間的讀寫。

如果是並行環境下，前面中的第2步就變成如下了：

2．  每讀取一條大表的記錄，和內存中小表的數據比較，如果符合先做join，而不直接輸出，直到整張大表數據讀取完畢。如果內存足夠，Join好的數據就保存在內存中。否則，就保存在臨時表空間中。

二、 Oracle中與hash join相關的參數

     首先，要注意的是，hash join只有在CBO方式下才會被激活。在oracle中與hash join相關的參數主要有以下幾個：

1．HASH_JOIN_ENABLED

     這個參數是控制查詢計劃是否採用hash join的“總開關”。它可以在會話級和實例級被修改。默認爲TRUE，既可以（不是一定，要看優化器計算出來的代價）使用。如果設爲FALSE，則禁止使用hash join。

2．HASH_AREA_SIZE

     這個參數控制每個會話的hash內存空間有多大。它也可以在會話級和實例級被修改。默認（也是推薦）值是sort area空間大小的兩倍（2*SORT_AREA_SIZE）。要提高hash join的效率，就一定儘量保證sort area足夠大，能容納下整個小表的數據。但是因爲每個會話都會開闢一個這麼大的內存空間作爲hash內存，所以不能過大（一般不建議超過2M）。

     在Oracle9i及以後版本中，Oracle不推薦在dedicated server中使用這個參數來設置hash內存，而是推薦通過設置PGA_AGGRATE_TARGET參數來自動管理PGA內存。保留HASH_AREA_SIZE只是爲了向後兼容。在dedicated server中，hash area是從PGA中分配的，而在MTS(Multi-Threaded Server)中，hash area是從UGA中分配的。

     另外，還要注意的是，每個會話並不一定只打開一個hash area，因爲一個查詢中可能不止一個hash join，這是就會相應同時打開多個hash area。

3．HAHS_MULTIBLOCK_IO_COUNT

     這個參數決定每次讀入hash area的數據塊數量。因此它會對IO性能產生影響。他只能在init.ora或spfile中修改。在8.0及之前版本，它的默認值是1，在8i及以後版本，默認值是0。一般設置爲1-(65536/DB_BLOCK_SIZE)。

     在9i中，這個參數是一個隱藏參數：_HASH_MULTIBLOCK_IO_COUNT，可以通過表x$ksppi查詢和修改。

     另外，在MTS中，這個參數將不起作用（只會使用1）。它的最大值受到OS的IO帶寬和DB_BLOCK_SIZE的影響。既不能大於MAX_IO_SIZE/DB_BLOCK_SIZE。在8i及以後版本，如果這個值設置爲0，則表示在每次查詢時，Oracle自己自動計算這個值。這個值對IO性能影響非常大，因此，建議不要修改這個參數，使用默認值0，讓Oracle自己去計算這個值。

     如果一定要設置這個值，要保證以下不等式能成立：

     R/M < Po2(M/C)

     其中，R表示小表的大小；M=HASH_AREA_SIZE*0.9；Po2(n)爲n的2次方；C=HASH_MULTIBLOCK_IO_COUNT*DB_BLOCK_SIZE。

三、 Hash join的過程

     一次完整的hash join如下：

1．計算小表的分區（bucket）數

     決定hash join的一個重要因素是小表的分區（bucket）數。這個數字由hash_area_size、hash_multiblock_io_count和db_block_size參數共同決定。Oracle會保留hash area的20%來存儲分區的頭信息、hash位圖信息和hash表。因此，這個數字的計算公式是：

     Bucket數=0.8*hash_area_size/(hash_multiblock_io_count*db_block_size)

2． Hash計算

     讀取小表數據（簡稱爲R），並對每一條數據根據hash算法進行計算。Oracle採用兩種hash算法進行計算，計算出能達到最快速度的hash值(第一hash值和第二hash值）。而關於這些分區的全部hash值（第一hash值）就成爲hash表。

3．存放數據到hash內存中

     將經過hash算法計算的數據，根據各個bucket的hash值（第一hash值）分別放入相應的bucket中。第二hash值就存放在各條記錄中。

4．創建hash位圖

     與此同時，也創建了一個關於這兩個hash值映射關係的hash位圖。

5．超出內存大小部分被移到磁盤

     如果hash area被佔滿，那最大一個分區就會被寫到磁盤（臨時表空間）上去。任何需要寫入到磁盤分區上的記錄都會導致磁盤分區被更新。這樣的話，就會嚴重影響性能，因此一定要儘量避免這種情況。

     2-5一直持續到整個表的數據讀取完畢。

6．對分區排序

     爲了能充分利用內存，儘量存儲更多的分區，Oracle會按照各個分區的大小將他們在內存中排序。

7．讀取大表數據，進行hash匹配

     接下來就開始讀取大表（簡稱S）中的數據。按順序每讀取一條記錄，計算它的hash值，並檢查是否與內存中的分區的hash值一致。如果是，返回join數據。如果內存中的分區沒有符合的，就將S中的數據寫入到一個新的分區中，這個分區也採用與計算R一樣的算法計算出hash值。也就是說這些S中的數據產生的新的分區數應該和R的分區集的分區數一樣。這些新的分區被存儲在磁盤（臨時表空間）上。

8．完全大表全部數據的讀取

     一直按照7進行，直到大表中的所有數據的讀取完畢。

9．處理沒有join的數據

     這個時候就產生了一大堆join好的數據和從R和S中計算存儲在磁盤上的分區。

10．二次hash計算

     從R和S的分區集中抽取出最小的一個分區，使用第二種hash函數計算出並在內存中創建hash表。採用第二種hash函數的原因是爲了使數據分佈性更好。

11．二次hash匹配

     在從另一個數據源（與hash在內存的那個分區所屬數據源不同的）中讀取分區數據，與內存中的新hash表進行匹配。返回join數據。

12．完成全部hash join

     繼續按照9-11處理剩餘分區，直到全部處理完畢。

     整個hash join就完成了。

四、關於唯一健值的hash位圖

     這個位圖包含了每個hash分區是否有有值的信息。它記錄了有數據的分區的hash值。這個位圖的最大作用就是，如果S表中的數據沒有與內存中的hash表匹配上，先查看這個位圖，已決定是否將沒有匹配的數據寫入磁盤。那些不可能匹配到的數據（即位圖上對應的分區沒有數據）就不再寫入磁盤。

Hash Join

二、 Oracle中與hash join相關的參數

1．HASH_JOIN_ENABLED

2．HASH_AREA_SIZE

3．HAHS_MULTIBLOCK_IO_COUNT

三、 Hash join的過程

1．計算小表的分區（bucket）數

2． Hash計算

3．存放數據到hash內存中

4．創建hash位圖

5．超出內存大小部分被移到磁盤

6．對分區排序

7．讀取大表數據，進行hash匹配

8．完全大表全部數據的讀取

9．處理沒有join的數據

10．二次hash計算

11．二次hash匹配

12．完成全部hash join

四、關於唯一健值的hash位圖

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

哨兵變量

修改 Ubuntu 12.04 Grub系統啓動順序（個人備忘錄）

oracle11g安裝和基本的使用,手把手看圖教你用起來。

Oracle SQL*PLUS基礎及sqlplus命令詳解-2

Oracle SQL*PLUS基礎及sqlplus命令詳解-1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

Hash Join

二、 Oracle中與hash join相關的參數

1．HASH_JOIN_ENABLED

2．HASH_AREA_SIZE

3．HAHS_MULTIBLOCK_IO_COUNT

三、 Hash join的過程

1． 計算小表的分區（bucket）數

2． Hash計算

3．存放數據到hash內存中

4． 創建hash位圖

5．超出內存大小部分被移到磁盤

6．對分區排序

7．讀取大表數據，進行hash匹配

8． 完全大表全部數據的讀取

9．處理沒有join的數據

10．二次hash計算

11．二次hash匹配

12．完成全部hash join

四、 關於唯一健值的hash位圖

1．計算小表的分區（bucket）數

4．創建hash位圖

8．完全大表全部數據的讀取

四、關於唯一健值的hash位圖