獲取漢字的拼音首字母

 利用漢字拼音首字母進行快速檢索,效率比直接檢索漢字高很多。在ASCII編碼中,漢字是按拼音首字母的順序進行編碼的,也就是說拼音首字母相同的漢字的編譯是連續的、相對集中的。那麼就可以通過比較漢字ASCII碼的大小來確定其拼音首字母了。例如:如果漢字的ASCII碼 n 滿足 n >= 0xB0A1 && n <= 0xB0C4,說明該漢字的拼音首字母是A。

  • 首先,寫一個判斷數值範圍的輔助函數。
// 判斷var的值是否處於兩者之間
bool	Between(int var, int lower, int upper)
{
	assert(upper >= lower);

	return (var >= lower) && var <= upper;
}
  • 然後是獲得一個漢字拼音首字母的函數。
     ASCII用兩個char來表示一個漢字,分別作爲漢字ASCII值的高低位,因些將兩個字符組合成一個ASCII值,就可以與拼音首字母的臨界值比較了。

char	GetPinyinHead(const char * pszText)
{
	assert(strlen(pszText) == 2);

	unsigned char hi	= static_cast<unsigned char>(pszText[0]);
	unsigned char low	= static_cast<unsigned char>(pszText[1]);
	int val= unsigned short(hi << 8) +low;

	if (Between(val, 0xB0A1, 0xB0C4)) return 'A';
	if (Between(val, 0XB0C5, 0XB2C0)) return 'B';
	if (Between(val, 0xB2C1, 0xB4ED)) return 'C';
	if (Between(val, 0xB4EE, 0xB6E9)) return 'D';
	if (Between(val, 0xB6EA, 0xB7A1)) return 'E';
	if (Between(val, 0xB7A2, 0xB8c0)) return 'F';
	if (Between(val, 0xB8C1, 0xB9FD)) return 'G';
	if (Between(val, 0xB9FE, 0xBBF6)) return 'H';
	if (Between(val, 0xBBF7, 0xBFA5)) return 'J';
	if (Between(val, 0xBFA6, 0xC0AB)) return 'K';
	if (Between(val, 0xC0AC, 0xC2E7)) return 'L';
	if (Between(val, 0xC2E8, 0xC4C2)) return 'M';
	if (Between(val, 0xC4C3, 0xC5B5)) return 'N';
	if (Between(val, 0xC5B6, 0xC5BD)) return 'O';
	if (Between(val, 0xC5BE, 0xC6D9)) return 'P';
	if (Between(val, 0xC6DA, 0xC8BA)) return 'Q';
	if (Between(val, 0xC8BB, 0xC8F5)) return 'R';
	if (Between(val, 0xC8F6, 0xCBF0)) return 'S';	
	if (Between(val, 0xCBFA, 0xCDD9)) return 'T';
	if (Between(val, 0xCDDA, 0xCEF3)) return 'W';
	if (Between(val, 0xCEF4, 0xD188)) return 'X';
	if (Between(val, 0xD1B9, 0xD4D0)) return 'Y';
	if (Between(val, 0xD4D1, 0xD7F9)) return 'Z';

	return char(0);
}
  • 最後實現一個取得中文字符串的函數。
     字符串中有可能存在非漢字字符,對它們不作任何處理,直接保留。組成漢字ASCII碼的兩個char值都是小於0的,因此很容易判斷字符是不是漢字。

string GetAllPinyinHeads(const char * pszText)
{
	string rst, temp;
	string strText = pszText;
	for (int i = 0; i < strText.length(); i++)
	{
		if (strText[i] >= 0) // 大於等於0說明非漢字
		{
			rst += strText[i];
		}
		else
		{
			temp += strText[i];
			if (temp.length() == 2)
			{
				rst += GetPinyinHead(temp.c_str());
				temp.clear();
			}
		}
	}

	return rst;
}
  • 測試一下。
int _tmain(int argc, _TCHAR* argv[])
{
	string strTxt;
	while (cin>>strTxt)
	{
		cout<<GetAllPinyinHeads(strTxt.c_str())<<endl;
	}
	
	return 0;
}


結果不必截圖了吧,非常OK!
  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章