GBK漢字截斷

原創

2020-02-23 17:53

背景

在搜索引擎自動生成摘要時經常要限制字符串的長度，超過MAXLEN的摘要截斷，並在串尾加"......"。假設文本串已經由utf-8或者其它編碼轉爲GBK編碼，這裏給出個簡單實現（但不是最好的方法）。

漢字的GBK編碼把一個漢字用兩個字節來表示，首字節第一位爲1，所以直接取其值爲負值。此處，轉換爲unsigned char後取其值，首字節對應0x81-0xFE(即129～254)，尾字節對應去掉(0x7F)的0x40-0xFE(即64～126和128～254)。

代碼：

/**
 * is_gbk.c
 * 必須保證漢字已經是GBK編碼
 */
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

const int MAXLEN = 10;
int main(int argc, char* argv[])
{
	char str[] = "你好hello世界world";
	int nlen = strlen(str);
	if (nlen <= MAXLEN)
	{
		exit(0);
	}
	size_t i;
	for (i = 0; i < nlen; ++i)
	{
		if (i >= MAXLEN)
		{
			str[i] = '\0';
			strcat(str, "...\0");
			break;
		}
		if (str[i] >= 0) // 非漢字
		{
			continue;
		}
		unsigned char ch1 = str[i];
		unsigned char ch2 = str[i + 1];
		if ((ch1 >= 129 && ch2 <= 254) &&
				(ch2 >=64 && ch2<=126 || ch2 >= 128 && ch2 <= 254))
		{
			// gbk漢字
			i++;
		}
	}
	printf("%s\n", str);
	exit(0);
}

運行結果：

你好hello世...

備註：如果直接strncpy(newstr, str, sizeof(char) * 10)的運行結果爲

你好hello�...

亂碼。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【java工具方法】十六進制字符串轉字符串

工具方法 /** * 十六進制字符串轉字符串 * * @author 靜心事成 * @param str 原16進制字符串 * @return 字符串 * */ public static Strin

2020-07-08 11:57:07

poj_2752 Seek the Name, Seek the Fame（KMP：尋找所有公共前綴後綴）

【題目描述】 The little cat is so famous, that many couples tramp over hill and dale to Byteland, and asked the little cat to

2020-07-08 11:45:16

leetcode:實現 Trie (前綴樹)

題目來源:力扣題目描述: 實現一個 Trie (前綴樹)，包含 insert, search, 和 startsWith 這三個操作。 =============================================

zhangxiaojiakele

2020-07-08 11:07:35

做Java還不知道的MySQL常用函數，那你真得看看，建議收藏

概念：相當於java中的方法，將一組邏輯語句封裝在方法體中，對外暴露方法名隱藏了實現細節提高代碼的可重用性使用： select 函數名(實參列表)【from 表】【】中內容可省略正文：字符函數： length：獲取字節個數（

2020-07-08 10:00:46

Not Only SQL~02.Redis的常用命令和數據類型

Not Only SQL~02.Redis的常用命令和數據類型本文是上一篇文章的後續,詳情點擊該鏈接~ Redis常用命令 ping 測試 redis 是否鏈接如果已鏈接返回 PONG echo value 測試 re

Java软件工程师·

2020-07-08 09:09:01

cvCloneImage()和cvCopy()的區別

cvCloneImage()每次使用時編譯器會分配新的內存空間，不會覆蓋以前的內容，所以如果在循環中使用內存會迅速減小，每次用完都需要用cvRelease來釋放。解決方法是使用cvCopy函數代替。cvCopy(pSrcImg,pImg,

2020-07-08 11:22:40

用MASM實現讀UCS-2文件

關於UCS-2編碼就不多說了，Google一下就大把大把的了直接上代碼 ;>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> .386 .model flat , stdcall option

2020-07-08 11:15:30

C語言的一些細節總結

1）、類型比較和轉換問題 short和int類型之間直接比較或轉換都會出現內存錯誤；2）、判斷文件是否結束時，可能存在回車換行文件並沒真正介紹而內容已經結束了，需要用while (!feof(fp_signal_sort) && (fsc

2020-07-08 10:59:37

養生需知：世上最健康的作息時間

養生需知：世上最健康的作息時間 7:30：起牀。英國威斯敏斯特大學的研究人員發現，那些在早上5:22―7:21 分起牀的人，其血液中有一種能引起心臟病的物質含量較高，因此，在7:21之後起牀對身體健康更加有益。 7:30―8:00：

2020-07-08 10:29:28

ASP正則表達式收集

hutchin 發表於 2006/10/31, 4:34 PM. 學習用正則表達式突出顯示字符串中查詢到的單詞的函數<%'''''Function hs(aa,bb) ''建立函數hs，兩值：aa爲內容，bb爲需要查詢的字符Dim re

2020-07-08 10:27:05

太陽的女人18

id="I7" marginwidth="0" marginheight="0" src="http://www.bookeba.cn/securi

2020-07-08 10:21:11

編程語言入門參考

1. Java Javasoft: http://www.javasoft.com Sun: www.sun.com Developer.com: http://java.developer.com Tutorial: http://

2020-07-08 09:36:58

磁盤修復相關整理

1. Linux下面預防與檢測：使用smartmontools工具，用來控制SMART 檢測： 1）用badblocks工具檢測壞塊 #sudo badblock -s -v -c 64 /dev/sda 1000 10 (1000是結

2020-07-08 09:36:58

Apache Tomcat 6.0.18與JDK的安裝配置

配置： 1.下載jdk-6u7-windows-i586-p.exe並安裝（E:/Java/jdk1.6.0_07） 2.配置環境變量 JAVA_HOME E:/Java/jdk1.6.0_07 PATH %J

2020-07-08 09:14:45

DirectorySearcher 的PropertiesToLoad所有屬性

homemdbdistinguishednamecountrycodecnlastlogoffmailnicknamedscorepropagationdatamsexchhomeservernamemsexchmailboxsecuri

2020-07-08 09:14:45

24小時熱門文章

Python 潮流週刊#50：我最喜歡的 Python 3.13 新特性！

最新文章

最新評論文章