GBK汉字截断

原創

2020-02-23 17:53

背景

在搜索引擎自动生成摘要时经常要限制字符串的长度，超过MAXLEN的摘要截断，并在串尾加"......"。假设文本串已经由utf-8或者其它编码转为GBK编码，这里给出个简单实现（但不是最好的方法）。

汉字的GBK编码把一个汉字用两个字节来表示，首字节第一位为1，所以直接取其值为负值。此处，转换为unsigned char后取其值，首字节对应0x81-0xFE(即129～254)，尾字节对应去掉(0x7F)的0x40-0xFE(即64～126和128～254)。

代码：

/**
 * is_gbk.c
 * 必须保证汉字已经是GBK编码
 */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

const int MAXLEN = 10;
int main(int argc, char* argv[])
{
	char str[] = "你好hello世界world";
	int nlen = strlen(str);
	if (nlen <= MAXLEN)
	{
		exit(0);
	}
	size_t i;
	for (i = 0; i < nlen; ++i)
	{
		if (i >= MAXLEN)
		{
			str[i] = '\0';
			strcat(str, "...\0");
			break;
		}
		if (str[i] >= 0) // 非汉字
		{
			continue;
		}
		unsigned char ch1 = str[i];
		unsigned char ch2 = str[i + 1];
		if ((ch1 >= 129 && ch2 <= 254) &&
				(ch2 >=64 && ch2<=126 || ch2 >= 128 && ch2 <= 254))
		{
			// gbk汉字
			i++;
		}
	}
	printf("%s\n", str);
	exit(0);
}

运行结果：

你好hello世...

备注：如果直接strncpy(newstr, str, sizeof(char) * 10)的运行结果为

你好hello�...

乱码。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【java工具方法】十六进制字符串转字符串

工具方法 /** * 十六進制字符串轉字符串 * * @author 靜心事成 * @param str 原16進制字符串 * @return 字符串 * */ public static Strin

2020-07-08 11:57:07

poj_2752 Seek the Name, Seek the Fame（KMP：寻找所有公共前缀后缀）

【題目描述】 The little cat is so famous, that many couples tramp over hill and dale to Byteland, and asked the little cat to

2020-07-08 11:45:16

leetcode:实现 Trie (前缀树)

題目來源:力扣題目描述: 實現一個 Trie (前綴樹)，包含 insert, search, 和 startsWith 這三個操作。 =============================================

zhangxiaojiakele

2020-07-08 11:07:35

做Java还不知道的MySQL常用函数，那你真得看看，建议收藏

概念：相當於java中的方法，將一組邏輯語句封裝在方法體中，對外暴露方法名隱藏了實現細節提高代碼的可重用性使用： select 函數名(實參列表)【from 表】【】中內容可省略正文：字符函數： length：獲取字節個數（

2020-07-08 10:00:46

Not Only SQL~02.Redis的常用命令和数据类型

Not Only SQL~02.Redis的常用命令和數據類型本文是上一篇文章的後續,詳情點擊該鏈接~ Redis常用命令 ping 測試 redis 是否鏈接如果已鏈接返回 PONG echo value 測試 re

Java软件工程师·

2020-07-08 09:09:01

cvCloneImage()和cvCopy()的区别

cvCloneImage()每次使用時編譯器會分配新的內存空間，不會覆蓋以前的內容，所以如果在循環中使用內存會迅速減小，每次用完都需要用cvRelease來釋放。解決方法是使用cvCopy函數代替。cvCopy(pSrcImg,pImg,

2020-07-08 11:22:40

用MASM实现读UCS-2文件

關於UCS-2編碼就不多說了，Google一下就大把大把的了直接上代碼 ;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> .386 .model flat , stdcall option

2020-07-08 11:15:30

C语言的一些细节总结

1）、類型比較和轉換問題 short和int類型之間直接比較或轉換都會出現內存錯誤；2）、判斷文件是否結束時，可能存在回車換行文件並沒真正介紹而內容已經結束了，需要用while (!feof(fp_signal_sort) && (fsc

2020-07-08 10:59:37

养生需知：世上最健康的作息时间

養生需知：世上最健康的作息時間 7:30：起牀。英國威斯敏斯特大學的研究人員發現，那些在早上5:22―7:21 分起牀的人，其血液中有一種能引起心臟病的物質含量較高，因此，在7:21之後起牀對身體健康更加有益。 7:30―8:00：

2020-07-08 10:29:28

ASP正则表达式收集

hutchin 發表於 2006/10/31, 4:34 PM. 學習用正則表達式突出顯示字符串中查詢到的單詞的函數<%'''''Function hs(aa,bb) ''建立函數hs，兩值：aa爲內容，bb爲需要查詢的字符Dim re

2020-07-08 10:27:05

太阳的女人18

id="I7" marginwidth="0" marginheight="0" src="http://www.bookeba.cn/securi

2020-07-08 10:21:11

编程语言入门参考

1. Java Javasoft: http://www.javasoft.com Sun: www.sun.com Developer.com: http://java.developer.com Tutorial: http://

2020-07-08 09:36:58

磁盘修复相关整理

1. Linux下面預防與檢測：使用smartmontools工具，用來控制SMART 檢測： 1）用badblocks工具檢測壞塊 #sudo badblock -s -v -c 64 /dev/sda 1000 10 (1000是結

2020-07-08 09:36:58

Apache Tomcat 6.0.18与JDK的安装配置

配置： 1.下載jdk-6u7-windows-i586-p.exe並安裝（E:/Java/jdk1.6.0_07） 2.配置環境變量 JAVA_HOME E:/Java/jdk1.6.0_07 PATH %J

2020-07-08 09:14:45

DirectorySearcher 的PropertiesToLoad所有属性

homemdbdistinguishednamecountrycodecnlastlogoffmailnicknamedscorepropagationdatamsexchhomeservernamemsexchmailboxsecuri

2020-07-08 09:14:45

24小時熱門文章

Python 潮流周刊#52：Python 处理 Excel 的资源

最新文章

最新評論文章