2017-11-24 如何使GCC支持中文(utf-8)的變量名、函數名？

原創

中文編程

2019-04-22 16:06

知乎原文地址作者:@狗屎咖啡

目前VS 和Clang都是支持utf-8的變量名、函數名，但 GCC不支持。

有人提意見，提了好幾年了：UTF-8 support for identifier names in GCC

GCC並沒有解決，但官方給了一個解決方案：FAQ - GCC Wiki

就是用這樣一條腳本語句轉換一下源文件

perl -pe 'BEGIN { binmode STDIN, ":utf8"; } s/(.)/ord($1) < 128 ? $1 : sprintf("\\U%08x", ord($1))/ge;'

這條語句的意思是將源文件按utf-8讀取出來，大於128的unicode(不在ASCII裏)都用16進制的Uxxxxxxxx的格式替代。

這種格式叫UCN。

實際上gcc內部還是將UCN轉換成utf-8字符串，再加到符號表。卻不支持原生的UTF-8符號，這個就有點搞笑了。

雖然有人會說，C、C++的標準裏沒有對UTF-8符號的支持，GCC不支持UTF-8符號是符合標準的。但是GCC從來就不是死守標準的乖寶寶對吧，加了不少擴展了。爲啥這個不能擴展一下呢？

官方不加，咱可以同人一下嘛！

下面就告訴大家，怎麼在GCC里加UTF-8符號的支持。

在libcpp/lex.c 裏

1.加一個函數

bool is_utf8_char(cppchar_t c) {
    if (c > 0x80) return true;
    else return false;
}

2.複製一份函數lex_identifier，命名爲lex_utf8_identifier

if (! starts_ucn)
{
    while (ISIDNUM (*cur))
    {
        hash = HT_HASHSTEP (hash, *cur);
        cur++;
    }
    NORMALIZE_STATE_UPDATE_IDNUM (nst, *(cur - 1));
}

中ISIDNUM 改成 is_utf8_char:

if (! starts_ucn)
{
    while (is_utf8_char (*cur))
    {
        hash = HT_HASHSTEP (hash, *cur);
        cur++;
    }
    NORMALIZE_STATE_UPDATE_IDNUM (nst, *(cur - 1));
}

3.在函數 _cpp_lex_direct 中修改 switch 的 default

    default:
        create_literal (pfile, result, buffer->cur - 1, 1, CPP_OTHER);
        break;

改爲：

    default:
        if (is_utf8_char(c))
        {
            struct normalize_state nst = INITIAL_NORMALIZE_STATE;
            result->type = CPP_NAME;
            result->val.node.node = lex_utf8_identifier(pfile, buffer->cur - 1, false,
                &nst, &result->val.node.spelling);
            warn_about_normalization(pfile, result, &nst);
        }
        else
        {
            create_literal (pfile, result, buffer->cur - 1, 1, CPP_OTHER);
        }
        break;

OK！完工了。make bootstrap && make install 吧。

你就可以愉快地使用 UTF-8 變量，函數了。

成品：地址

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

2017-11-24 如何使GCC支持中文(utf-8)的變量名、函數名？

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

中文命名之Hibernate 4 + MySQL演示

專欄一歲了-我爲什麼投身於普及用中文編程

重拾《兩週自制腳本語言》- 支持中文標識符

重拾《兩週自制腳本語言》- 中文關鍵字與原生函數

在PyPI測試平臺發佈Python包

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結