Oracle字符集
一、什麼是Oracle字符集
Oracle字符集是一個字節數據的解釋的符號的集合,有大小之分,有相互的包容關係。Oracle支持國家語言的體系結構允許你使用本地化語言來存儲,處理,檢索數據。它使數據塊工具,錯誤消息,排序次序,日期,時間,貨幣,數字和日曆自動適應本地化語言和平臺。
影響Oracle數據庫字符集最重要的參數是NLS_LANG參數。
它的格式如下:NLS_LANG=language_territory.charset
它有三個組成部分(語言、地域和字符集),每個成分控制了NLS子集的特性。
其中Language:指定服務器消息的語言,影響提示信息是中文還是英文
Territory:指定服務器的日期和數字格式。
Charset:指定字符集
如:AMERICAN_AMERICA.ZHS16GBK
從NLS_LANG的組成我們可以看出,真正影響數據庫字符集的其實是第三部分。
所以兩個數據庫之間的字符集只要第三部分一樣就可以相互導入導出數據,前面影響的只是提示信息是中文還是英文。
二、字符集的相關知識
2.1 字符集
實質就是按照一定的字符編碼方案,對一組特定的符號,分別賦予不同數值的編碼的集合。Oracle數據庫最早支持的編碼方案是US7ASCII。
Oracle的字符集命名遵循以下命名規則:
<Language><bit size><encoding>
即:<語言><比特位數><編碼>
比如:ZHS16GBK表示採用GBK編碼格式、16位(兩個字節)簡體中文字符集
2.2字符編碼方案
2.2.1單字節編碼
(1)單字節7位字符集,可以定義128個字符,最常用的字符集爲US7ASCII
(2)單位節8位字符集,可以定義256個字符,適合歐洲大部分國家
2.2.2多字節編碼
(1)變長多字節編碼
某些字符用一個字節表示,其它字符用兩個或多個字符表示,變長多字節編碼常用戶對亞洲語言的支持
(2)定長多字節編碼
每一個字符都使用固定長度字節的編碼方案,目前oracle唯一支持的定長多字節編碼是AF16UTF16,也是僅用於國家字符集
2.2.3unicode編碼
UTF-16是unicode的16位編碼方式,是一種定長多字節編碼,用2個字節表示一個Unicode字符。
UTF-8是unicode的8位編碼方式,是一種變長多字節編碼
2.2.4字符集超級
2.3數據庫字符集(Oracle服務器端字符集)
數據庫字符集在創建數據庫時指定,在創建後通常不能更改。在創建數據庫時,可以指定字符集(CHARACTER SET)和國家字符集(NATIONAL CHARACTER SET)。
2.3.1字符集
(1)用來存儲CHAR、VARCHAR2,CLOB,LONG等類型數據
(2)用來標示諸如表名、列名以及PL./SQL變量等。
(3)用來存儲SQL和PL/SQL程序單元等
2.3.2國家字符集
(1)用以存儲NCHAR,NVARCHAR2,NCLOB等類型數據
(2)國家字符集實質上是爲Oracle選擇的附加字符集,主要作用是爲了增強Oracle的字符處理能力。國家字符集在oracle9i中進行了重新定義,,默認是AF16UTF16
2.3.3查詢字符集參數
可以查詢一下數據字典或視圖查看字符集的設置情況
nls_database_parameters、props$、v$nls_parameters
查詢結果中NLS_CHARACTERSET表示字符集,NLS_NCHAR_CHARACTERSET表示國家字符集
2.3.4修改數據庫字符集
按照上文所說,數據庫字符集在創建後原則上不能更改。不過有2中方法可行。
(1)如果需要修改字符集,通常需要導出數據庫數據,重建數據庫,再導入數據庫數據的方式來轉換。
(2)通過alter database characterset 語句修改字符集,但創建數據庫修改字符集是有限制的,只有新的字符集是當前字符集的超集時才能修改數據庫字符集,例如UTF8是UC7ASCII的超集。
2.3.5NLS參數查詢
oracle提供若干NLS參數定製數據庫和用戶機以適應本地格式,例如有NLS_LANGUAGE,NLS_DATE_FORMAT,NLS_CALENDER等,可以通過查詢以下數據字典或V$視圖查看。
NLS_DATABASE_PARAMETERS:顯示數據庫當前NLS參數取值,包括數據庫字符集取值
NLS_SESSION_PARAMETERS:顯示由NLS_LANG設置的參數,或經過alter session改變後的參數值(不包括NLS_LANG設置的客戶端字符集)
NLS_INSTANCE_PARAMETEL:顯示由參數文件init<SID>.ora 定義的參數
V$NLS_PARAMETERS:顯示數據庫當前NLS參數取值
2.3.6修改NLS參數
使用下列方法可以修改NLS參數
(1)修改實例啓動時使用的初始化參數文件
(2)修改環境變量NLS_LANG
(3)使用ALTER SESSION語句,在oracle會話中修改
(4)使用某些SQL函數
NLS作用優先級別:SQL Function>alter session >環境變量或註冊表>參數文件>數據庫默認參數
三、EXP/IMP 與字符集
3.1 EXP/IMP
Export與Import是一對讀寫Oralce數據的工具。Export將Oracle數據庫中的數據輸出到操作系統文件中,Import把這些文件中的數據讀到Oracle數據庫中,由於使用exp/imp進行數據遷移時,數據從源數據庫到目標數據庫的過程中有四個環節涉及到字符集,如果四個環節的字符集不一致,將會發生字符集轉換。
四個字符集是
(1)源數據庫字符集
(2)Export過程中用戶會話字符集(通過NLS_LANG設定)
(3)Import過程中用戶會話字符集(通過NLS_LANG設定)
(4)目標數據庫字符集
3.2導出的轉換過程
在export過程中,如果源數據庫字符集與Export用戶會話字符集不一致,會發生字符集轉換,並在導出文件的頭部幾個字節中存儲export用戶會話字符集的Id號。在這個轉換過程中可能會發生數據的丟失。
3.3導入的轉換過程
(1)確定導出數據庫字符集環境
通過讀取導出文件頭,可以獲得導出文件的字符集設置
(2)確定導入session的字符集,即導入session使用的NLS_LANG環境變量
(3)IMP讀取導出文件
讀取導出文件字符集ID,和導入進程的NLS_LANG進行比較
(4)如果導出文件字符集和導入Session字符集相同,那麼在這一步驟內就不需要轉換,如果不同,就需要把數據轉換爲導入session使用的字符集。可以看出,導入數據到數據庫過程中發生兩次字符集的轉換。
第一次:導入文件字符集與導入session使用的字符集之間的轉換,如果這個轉換過程不能正確完成,Import向目標數據庫的導入過程也就不能完成。
第二次:導入session字符集與數據庫字符集之間的轉換。
四、查看數據庫字符集
涉及三方面的字符集:
1.oracle server 端的字符集
2.oracle client端的字符集
3.dmp文件的字符集
在做數據導入的時候,需要這三個字符集都一致才能正確導入。
4.1查詢Oracle server端的字符集
有很多種方法可以查出oracle server端的字符集,比較直觀的查詢方法是以下這種:
SQL> select userenv('language') from dual;
USERENV('LANGUAGE')
----------------------------------------------------
SIMPLIFIED CHINESE_CHINA.ZHS16GBK
4.2 如何查詢dmp文件的字符集
用oracle的exp工具導出的dmp文件也包含了字符集信息, dmp文件的第2個和第3個字節記錄了dmp文件的字符集。如0354,然後用一下sql查出它對應的字符集:
SQL> select nls_charset_name(to_number('0345','XXXX')) from dual;
NLS_CHARSET_NAME(TO_NUMBER('03
----------------------------------------
JA16EUCTILDE
使用下面命令查看
cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6
然後用上面的SQL也可以看到它對應的字符集。
4.3 查詢oracle client端的字符集
在windows平臺下,就是註冊表裏面相應OracleHome的NLS_LANG。還可以再dos窗口裏面自己設置
比如:set nls_lang=AMERICAN_AMERICA.ZHS16GBK
這樣就隻影響這個窗口裏面的環境變量。
在UNIX平臺下,就是環境變量NLS_LANG。
echo $NLS_LANG
如果檢查的結果發現server端與client端的字符集不一致,要修改爲同server端相同的字符集。
補充:
(1)數據庫服務器字符集
SQL> select * from nls_database_parameters;
來源於props$,是表示數據庫的字符集。
(2)客戶端字符集環境
SQL> select * from nls_instance_parameters;
其來源於v$parameter,表示客戶端的字符集的設置,可能是參數文件,環境變量或者是註冊表。
(3)會話字符集環境
SQL> select * from nls_session_parameters;
來源於v$nls_parameters,表示會話自己的設置,可能是會話的環境變量或者是alter session完成,如果會話沒有特殊的設置,將與nls_instance_parameters一致。
(4)客戶端的字符集要求與服務器一致,才能正確線束數據庫的非ascii字符。
如果多個設置存在的時候,NLS作用優先級別:sql function >alter session >環境變量或者註冊表 >參數文件>數據庫默認參數。
字符集要求一致,但是語言卻可以設置不同,語言設置建議用中文。如字符集是zhs16gbk,則nls_lang可以使American_Anerica,zhs16gbk.