問題:
如圖所示 咋眼看去兩個一樣的中文字符串“後勤保障部”,但一個長度爲21 一個爲15。
首先直覺可能會認爲是編碼方式不一樣導致的,
通過mb_detect_encoding()
函數查看兩個字符串的編碼方式 代碼如下
<?php
header("Content-Type: text/html;charset=utf-8");
$data[0]=$str1="後勤保障部";
$data[1]=$str2="後勤保障部";
var_dump($data);
//查看編碼方式
$encode1 = mb_detect_encoding($str1, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
echo "str1='".$str1."'"." 編碼:".$encode1."</br>";
echo "str2='".$str2."'"." 編碼:".$encode2."</br>";
?>
但輸出結果都是UTF-8
那麼是什麼原因呢 ,我們在輸出看下具體字符長度
<?php
header("Content-Type: text/html;charset=utf-8");
$data[0]=$str1="後勤保障部";
$data[1]=$str2="後勤保障部";
var_dump($data);
//查看編碼方式
$encode1 = mb_detect_encoding($str1, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
//當mb_strlen的內碼選擇爲UTF-8的時候,則會將中文字符當成一個字符
//strlen,得到的是字符串所佔的字節數
echo "str1='".$str1."'".": 字符長度:".mb_strlen($str1).": 字節長度:".strlen($str1)." 編碼:".$encode1."</br>";
echo "str2='".$str2."'".": 字符長度:".mb_strlen($str2).": 字節長度:".strlen($str2)." 編碼:".$encode2."</br>";
?>
輸出結果如下:
發現字符串str1有7箇中文字符,但實際只顯示了5個,也就是“後勤保障部”
通過截取str1最後兩個字符查看
//截取str1後面兩個未顯示字符
$res=mb_substr($str1, 5,2);
echo "最後兩字符:".$res."</br>";
echo mb_strlen($res);
無法echo顯示,但確實佔有兩個字符
如果實際要求這看上去一樣的字符串就相等的話,需要進行處理,處理就是剔除非中文字符:
//剔除str1字串中未顯示的字符(非中文字符)
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str1, $matches);
$str1 = join('', $matches[0]);
最終代碼如下
<?php
header("Content-Type: text/html;charset=utf-8");
$data[0]=$str1="後勤保障部";
$data[1]=$str2="後勤保障部";
var_dump($data);
//查看編碼方式
$encode1 = mb_detect_encoding($str1, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
//當mb_strlen的內碼選擇爲UTF-8的時候,則會將中文字符當成一個字符
//strlen,得到的是字符串所佔的字節數
echo "str1='".$str1."'".": 字符長度:".mb_strlen($str1).": 字節長度:".strlen($str1)." 編碼:".$encode1."</br>";
echo "str2='".$str2."'".": 字符長度:".mb_strlen($str2).": 字節長度:".strlen($str2)." 編碼:".$encode2."</br>";
//截取str1後面兩個未顯示字符
echo "</br>------------------截取str1後面兩個未顯示字符---------------------</br>";
$res=mb_substr($str1, 5,2);
echo "str1最後兩字符: ".$res."</br>";
echo "str1長度: ".mb_strlen($res)."</br>";
//比較
echo "</br>--------------------------相等比較----------------------------------</br>";
echo "str1 與 str2比較: ";
echo strcomp($str1,$str2)."</br>";
echo "str2 與 str2比較: ";
echo strcomp($str2,$str2)."</br>";
//剔除str1字串中非中文
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str1, $matches);
$str1 = join('', $matches[0]);
echo "</br>---------------------剔除str1字串中非中文後----------------------</br>";
echo "str1='".$str1."'".": 字符長度:".mb_strlen($str1).": 字節長度:".strlen($str1)." 編碼:".$encode1."</br>";
echo "str1 與 str2比較: ";
echo strcomp($str1,$str2)."</br>";
function strcomp($str1,$str2){
if($str1 == $str2){
return "相等";
}else{
return "不等";
}
}
?>
運行結果
注:
將21字節的str1複製到phpmyadmin的sql輸入框,顯示如下
嗯 就是多的那兩個字符