vim insert uinicode symbol

set encoding=utf-8

insert or command mode(not normal mode),press Ctrl+v , then u, then unicode val

ctrl+v u 2018 -> ‘ 

utf-8 encoding:

8216    U+2018    E2 80 98    ‘    Left Single Quotation Mark
8217    U+2019    E2 80 99    ’    Right Single Quotation Mark

 

 

1.相關基礎知識介紹

        在Vim中,有四個與編碼有關的選項,它們是:fileencodings、fileencoding、encoding和termencoding。在實際使用中,任何一個選項出現錯誤,都會導致出現亂碼。因此,每一個Vim用戶都應該明確這四個選項的含義。下面,我們詳細介紹一下這四個選項的含義和作用。

        (1)encoding
        encoding是Vim內部使用的字符編碼方式。當我們設置了encoding之後,Vim內部所有的buffer、寄存器、腳本中的字符串等,全都使用這個編碼。Vim 在工作的時候,如果編碼方式與它的內部編碼不一致,它會先把編碼轉換成內部編碼。如果工作用的編碼中含有無法轉換爲內部編碼的字符,在這些字符就會丟失。因此,在選擇 Vim 的內部編碼的時候,一定要使用一種表現能力足夠強的編碼,以免影響正常工作。
        由於encoding選項涉及到Vim中所有字符的內部表示,因此只能在Vim啓動的時候設置一次。在Vim工作過程中修改encoding會造成非常多的問題。用戶手冊上建議只在 .vimrc中改變它的值,事實上似乎也只有在 .vimrc中改變它的值纔有意義。如果沒有特別的理由,請始終將encoding設置爲utf-8。爲了避免在非UTF-8的系統如Windows下,菜單和系統提示出現亂碼,可同時做這幾項設置:
        set encoding=utf-8
        set langmenu=zh_CN.UTF-8
        language message zh_CN.UTF-8

        (2)termencoding
        termencoding是Vim用於屏幕顯示的編碼,在顯示的時候,Vim會把內部編碼轉換爲屏幕編碼,再用於輸出。內部編碼中含有無法轉換爲屏幕編碼的字符時,該字符會變成問號,但不會影響對它的編輯操作。如果termencoding沒有設置,則直接使用encoding不進行轉換。
        舉個例子,當你在Windows下通過telnet登錄Linux工作站時,由於Windows的telnet是GBK編碼的,而Linux下使用UTF-8編碼,你在telnet下的Vim中就會亂碼。此時有兩種消除亂碼的方式:一是把Vim的encoding改爲gbk,另一種方法是保持encoding爲utf-8,把termencoding改爲gbk,讓Vim在顯示的時候轉碼。顯然,使用前一種方法時,如果遇到編輯的文件中含有GBK無法表示的字符時,這些字符就會丟失。但如果使用後一種方法,雖然由於終端所限,這些字符無法顯示,但在編輯過程中這些字符是不會丟失的。
        對於圖形界面下的GVim,它的顯示不依賴TERM,因此termencoding對於它沒有意義。在GTK2下的GVim 中,termencoding永遠是utf-8,並且不能修改。而Windows下的GVim則忽略termencoding的存在。

        (3)fileencoding
        當Vim從磁盤上讀取文件的時候,會對文件的編碼進行探測。如果文件的編碼方式和Vim的內部編碼方式不同,Vim就會對編碼進行轉換。轉換完畢後,Vim會將fileencoding選項設置爲文件的編碼。當Vim存盤的時候,如果encoding和fileencoding不一樣,Vim就會進行編碼轉換。因此,通過打開文件後設置fileencoding,我們可以將文件由一種編碼轉換爲另一種編碼。但是,由前面的介紹可以看出,fileencoding是在打開文件的時候,由Vim進行探測後自動設置的。因此,如果出現亂碼,我們無法通過在打開文件後重新設置fileencoding來糾正亂碼。
        簡而言之,fileencoding是Vim中當前編輯的文件的字符編碼方式,Vim保存文件時也會將文件保存爲這種字符編碼方式 (不管是否新文件都如此)。

        (4)fileencodings
        編碼的自動識別是通過設置fileencodings實現的,注意是複數形式。fileencodings是一個用逗號分隔的列表,列表中的每一項是一種編碼的名稱。當我們打開文件的時候,VIM按順序使用fileencodings中的編碼進行嘗試解碼,如果成功的話,就使用該編碼方式進行解碼,並將fileencoding設置爲這個值,如果失敗的話,就繼續試驗下一個編碼。
        因此,我們在設置fileencodings的時候,一定要把要求嚴格的、當文件不是這個編碼的時候更容易出現解碼失敗的編碼方式放在前面,把寬鬆的編碼方式放在後面。例如,latin1是一種非常寬鬆的編碼方式,任何一種編碼方式得到的文本,用latin1進行解碼,都不會發生解碼失敗——當然,解碼得到的結果自然也就是理所當然的“亂碼”。因此,如果你把latin1放到了fileencodings的第一位的話,打開任何中文文件都是亂碼也就是理所當然的了。


        以下是網上推薦的一個fileencodings設置:
        set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1
        其中,ucs-bom是一種非常嚴格的編碼,非該編碼的文件幾乎沒有可能被誤判爲ucs-bom,因此放在第一位。
        utf-8也相當嚴格,除了很短的文件外(例如許多人津津樂道的GBK編碼的“聯通”被誤判爲UTF-8編碼的經典錯誤),現實生活中一般文件是幾乎不可能被誤判的,因此放在第二位。
        接下來是cp936和gb18030,這兩種編碼相對寬鬆,如果放前面的話,會出現大量誤判,所以就讓它們靠後一些。cp936的編碼空間比gb18030小,所以把cp936放在gb18030前面。
        至於big5、euc-jp和euc-kr,它們的嚴格程度和cp936差不多,把它們放在後面,在編輯這些編碼的文件的時候必然出現大量誤判,但這是Vim內置編碼探測機制沒有辦法解決的事。由於中國用戶很少有機會編輯這些編碼的文件,因此我們還是決定把cp936和gb18030放在前面以保證這些編碼的識別。
        最後就是latin1了。它是一種極其寬鬆的編碼,以至於我們不得不把它放在最後一位。不過可惜的是,當你碰到一個真的latin1編碼的文件時,絕大部分情況下,它沒有機會fall-back到latin1,往往在前面的編碼中就被誤判了。不過,正如前面所說的,中國用戶沒有太多機會接觸這樣的文件。
        如果編碼被誤判了,解碼後的結果就無法被人類識別,於是我們就說,這個文件亂碼了。此時,如果你知道這個文件的正確編碼的話,可以在打開文件的時候使用 ++enc=encoding 的方式來打開文件,如:
        :e ++enc=utf-8 myfile.txt

2.Vim的工作原理

        好了,解釋完了這一堆容易讓新手犯糊塗的參數,我們來看看Vim的多字符編碼方式支持是如何工作的。
        (1)Vim啓動,根據 .vimrc中設置的encoding的值來設置buffer、菜單文本、消息文的字符編碼方式。
        (2)讀取需要編輯的文件,根據fileencodings中列出的字符編碼方式逐一探測該文件編碼方式。並設置fileencoding爲探測到的,看起來是正確的字符編碼方式。事實上,Vim 的探測準確度並不高,尤其是在encoding沒有設置爲utf-8時。因此強烈建議將encoding設置爲utf-8,雖然如果你想Vim顯示中文菜單和提示消息的話這樣會帶來另一個小問題。
        (3)對比fileencoding和encoding的值,若不同則調用iconv將文件內容轉換爲encoding所描述的字符編碼方式,並且把轉換後的內容放到爲此文件開闢的buffer裏,此時我們就可以開始編輯這個文件了。注意,完成這一步動作需要調用外部的iconv.dll(注2),你需要保證這個文件存在於$VIMRUNTIME或者其他列在PATH環境變量中的目錄裏。
        (4)編輯完成後保存文件時,再次對比fileencoding和encoding的值。若不同,再次調用iconv將即將保存的buffer中的文本轉換爲fileencoding所描述的字符編碼方式,並保存到指定的文件中。同樣,這需要調用iconv.dll

3.解決辦法示例

        (1)方法一:設定.vimrc文件:
        在/home/username/.vimrc或者/root/.vimrc下增加兩句話:
        let &termencoding=&encoding
        set fileencodings=utf-8,gbk,ucs-bom,cp936
        這種辦法可以實現編輯UTF-8文件

        (2)方法而二:打開文件後,在vi編輯器中設定:
        :set encoding=utf-8 termencoding=gbk fileencoding=utf-8

        (3)方法三:新建UTF-8文件,在vi編輯器設定:
        :set fenc=utf-8
        :set enc=GB2312
        這樣在編輯器裏輸入中文,保存的文件是UTF-8。

        (4)方法四:一個推薦的~/.vimrc文件配置:
        set encoding=utf-8
        set fileencodings=ucs-bom,utf-8,cp936,gb18030,latin1
        set termencoding=gb18030
        set expandtab
        set ts=4
        set shiftwidth=4
        set nu
        syntax on

        if has('mouse')
        set mouse-=a
        endif


        後記:本文根據網絡上相關資料整理,由於來源較多,未能一一標明出處,敬請各位原創作者見諒。


————————————————
版權聲明:本文爲CSDN博主「時空霹靂」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/u010189459/article/details/38338735

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章