UTF-8 和 GB2312 截取固定长度字符串的处理
我曾发过一篇 《高效的固定长度字符串的截取函数》 ,可是这个方法只适用于 GB2312 的编码。因为在 GB2312 下,汉字占两个字符,在页面中刚好也是占两倍的地方显示。
可是在 UTF-8 编码中,汉字却是占2-3个字符。这个不确定性给截取造成了挺大的麻烦。目前我用的方法只能是循环:
<?
function toFixLen($str, $len) { // 固定长度字符串的截取,UTF-8
$str=trim($str);
$pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
preg_match_all($pa, $str, $t_string);
$lt = count($t_string[0]);
$str = '';
$l = 0 ;
foreach($t_string[0] as $k=>$s){
$l += (strlen($s)==1?1:2);
if($l>=$len-3 && $k!=$lt){
$str .= '...';
break;
}else{
$str .= $s;
}
}
return $str;
}
?>
- 上一篇: MySQL 读写时差导致的重复处理问题
- 下一篇: 关于 iconv() 函数