c++ 中文字符串处理方法

原創

ts_rfl

2020-02-24 16:36

C++处理中文的问题困扰我很久了。之前一旦遇到中文基本就投诸java怀抱了。

今天看到一个漂亮的c++程序，遂豁然开朗。总结一下分享给大家：

问题描述：

c++ 中 char*/string 形式的字符串无法正确的对中文字符串进行处理（如 find, strlen, substr 等常规操作）。

比如当你在char* 中 find 英文逗号时，有可能匹配的不只是逗号，还找到了某个汉字的一个字节，而你无法在char*中区分它们。

问题原因：

中文字符长度不固定，按字节处理往往出现乱码或错误分割。在unicode中每个中文为2个字节，而中文中间夹杂的英文和半角标点则仍然是1个字节。

解决方案：

构造三层逻辑结构：输入层、逻辑处理层、输出层。

-- 输入层接收char*输入，并将其转换为wchar*.

-- 逻辑处理层在 wchar* 或 wstring 的基础上进行字符串操作，此时操作最小单位为中文字符，不会再有乱码。

-- 输出层将wchar*的结果再次转换为char* ，返回给外部。

这样，对外部来说，仍然是输入char*, 输出char*，但在这个过程中不再有分割汉字的操作或乱码。

核心转换代码：

#include<wchar.h>

wchar_t * MBCS2Unicode(wchar_t * buff, const char * str)

{

wchar_t * wp = buff;

char * p = (char *)str;

while(*p)

{

if(*p & 0x80)

{

*wp = *(wchar_t *)p;

p++;

}

else{

*wp = (wchar_t) *p;

}

wp++;

p++;

}

*wp = 0x0000;

return buff;

}

char * Unicode2MBCS(char * buff, const wchar_t * str)

{

wchar_t * wp = (wchar_t *)str;

char * p = buff, * tmp;

while(*wp){

tmp = (char *)wp;

if(*wp & 0xFF00){

*p = *tmp;

p++;tmp++;

*p = *tmp;

p++;

}

else{

*p = *tmp;

p++;

}

wp++;

}

*p = 0x00;

return buff;

}

wstring str2wstr(string str)

{

size_t len = str.size();

wchar_t * b = (wchar_t *)malloc((len+1)*sizeof(wchar_t));

MBCS2Unicode(b,str.c_str());

wstring r(b);

free(b);

return r;

}

string wstr2str(wstring wstr)

{

size_t len = wstr.size();

char * b = (char *)malloc((2*len+1)*sizeof(char));

Unicode2MBCS(b,wstr.c_str());

string r(b);

free(b);

return r;

}

int wputs(wstring wstr)

{

wputs(wstr.c_str());

return 0;

}

int wputs(const wchar_t * wstr)

{

int len = wcslen(wstr);

char * buff = (char *)malloc((len * 2 + 1)*sizeof(char));

Unicode2MBCS(buff,wstr);

printf("%s",buff);

free(buff);

return 0;

}

=============================================

（另外大家关心的UTF8如何转换，添加一段转自End2012的UTF8--Unicode转换程序）

wchar_t * UTF8ToUnicode( const char* str )
{
     int textlen ;
     wchar_t * result;
     textlen = MultiByteToWideChar( CP_UTF8, 0, str,-1, NULL,0 );
     result = (wchar_t *)malloc((textlen+1)*sizeof(wchar_t));
     memset(result,0,(textlen+1)*sizeof(wchar_t));
     MultiByteToWideChar(CP_UTF8, 0,str,-1,(LPWSTR)result,textlen );
     return result;
}

char * UnicodeToUTF8( const wchar_t* str )
{
     char* result;
     int textlen;
     textlen = WideCharToMultiByte( CP_UTF8, 0, str, -1, NULL, 0, NULL, NULL );
     result =(char *)malloc((textlen+1)*sizeof(char));
     memset(result, 0, sizeof(char) * ( textlen + 1 ) );
     WideCharToMultiByte( CP_UTF8, 0, str, -1, result, textlen, NULL, NULL );
     return result;
}

==========================================

原创帖，欢迎评论交流。转载请注明出处。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

c++ 中文字符串处理方法

容器中nginx无法使用同一个网络下的容器域名

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

docker使用特定的网络

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

nodejs学习07——API

避免DbContext同时在多个线程调用

Python: SunMoonTimeCalculator

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

free AI online tools All In One

malloc、free與new delete的區別

頭文件與之實現文件的的關係~

Bug碎碎念(3) History become legend, legend become myth.

IOC與AOP

惹惱程序員的十件事

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結