php 中字符串一樣但長度不等的問題

原創

Casionx

2020-06-17 15:14

問題：

如圖所示咋眼看去兩個一樣的中文字符串“後勤保障部”，但一個長度爲21 一個爲15。

首先直覺可能會認爲是編碼方式不一樣導致的，
通過mb_detect_encoding()函數查看兩個字符串的編碼方式代碼如下

<?php
header("Content-Type: text/html;charset=utf-8"); 

$data[0]=$str1="後勤保障部‍";
$data[1]=$str2="後勤保障部";
var_dump($data);

//查看編碼方式
$encode1 = mb_detect_encoding($str1,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
echo "str1='".$str1."'"."&emsp;編碼:".$encode1."</br>";
echo "str2='".$str2."'"."&emsp;編碼:".$encode2."</br>";
?>

但輸出結果都是UTF-8

那麼是什麼原因呢，我們在輸出看下具體字符長度

<?php
header("Content-Type: text/html;charset=utf-8"); 

$data[0]=$str1="後勤保障部‍";
$data[1]=$str2="後勤保障部";
var_dump($data);

//查看編碼方式
$encode1 = mb_detect_encoding($str1,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));

//當mb_strlen的內碼選擇爲UTF-8的時候，則會將中文字符當成一個字符
//strlen,得到的是字符串所佔的字節數
echo "str1='".$str1."'".":&emsp;字符長度:".mb_strlen($str1).":&emsp;字節長度:".strlen($str1)."&emsp;編碼:".$encode1."</br>";
echo "str2='".$str2."'".":&emsp;字符長度:".mb_strlen($str2).":&emsp;字節長度:".strlen($str2)."&emsp;編碼:".$encode2."</br>";
?>

輸出結果如下：

發現字符串str1有7箇中文字符，但實際只顯示了5個，也就是“後勤保障部”

通過截取str1最後兩個字符查看

//截取str1後面兩個未顯示字符
$res=mb_substr($str1, 5,2);
echo "最後兩字符:".$res."</br>";
echo mb_strlen($res);

無法echo顯示，但確實佔有兩個字符

如果實際要求這看上去一樣的字符串就相等的話，需要進行處理，處理就是剔除非中文字符：

//剔除str1字串中未顯示的字符（非中文字符）
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str1, $matches);
$str1 = join('', $matches[0]);

最終代碼如下

<?php
header("Content-Type: text/html;charset=utf-8"); 

$data[0]=$str1="後勤保障部‍";
$data[1]=$str2="後勤保障部";
var_dump($data);

//查看編碼方式
$encode1 = mb_detect_encoding($str1,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));
$encode2 = mb_detect_encoding($str2,  array("ASCII","UTF-8","GB2312","GBK","BIG5"));

//當mb_strlen的內碼選擇爲UTF-8的時候，則會將中文字符當成一個字符
//strlen,得到的是字符串所佔的字節數
echo "str1='".$str1."'".":&emsp;字符長度:".mb_strlen($str1).":&emsp;字節長度:".strlen($str1)."&emsp;編碼:".$encode1."</br>";
echo "str2='".$str2."'".":&emsp;字符長度:".mb_strlen($str2).":&emsp;字節長度:".strlen($str2)."&emsp;編碼:".$encode2."</br>";

//截取str1後面兩個未顯示字符
echo "</br>------------------截取str1後面兩個未顯示字符---------------------</br>";
$res=mb_substr($str1, 5,2);
echo "str1最後兩字符:&emsp;".$res."</br>";
echo "str1長度:&emsp;".mb_strlen($res)."</br>";

//比較
echo "</br>--------------------------相等比較----------------------------------</br>";
echo "str1 與 str2比較:&emsp;";
echo strcomp($str1,$str2)."</br>";
echo "str2 與 str2比較:&emsp;";
echo strcomp($str2,$str2)."</br>";


//剔除str1字串中非中文
preg_match_all('/[\x{4e00}-\x{9fff}]+/u', $str1, $matches);
$str1 = join('', $matches[0]);

echo "</br>---------------------剔除str1字串中非中文後----------------------</br>";
echo "str1='".$str1."'".":&emsp;字符長度:".mb_strlen($str1).":&emsp;字節長度:".strlen($str1)."&emsp;編碼:".$encode1."</br>";
echo "str1 與 str2比較:&emsp;";
echo strcomp($str1,$str2)."</br>";

function strcomp($str1,$str2){ 
  if($str1 == $str2){ 
    return "相等"; 
  }else{ 
    return "不等"; 
  } 
} 

?>

運行結果

注：
將21字節的str1複製到phpmyadmin的sql輸入框，顯示如下

嗯就是多的那兩個字符

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

php 中字符串一樣但長度不等的問題

python gdal 安裝使用（Windows， python 3.6.8）

方格紅與黑

計算直線的交點方案數

整數分解方法

php 中字符串一樣但長度不等的問題

C/C++的一些知識點歸納(一)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結