纯粹空间 - 韩国欧美酷站教程设计素材美女壁纸下载论坛免费博客

UTF-8 和 GB2312 截取固定长度字符串的处理

作者:faisun 发布日期:2007-03-23

我曾发过一篇《高效的固定长度字符串的截取函数》，可是这个方法只适用于 GB2312 的编码。因为在 GB2312 下，汉字占两个字符，在页面中刚好也是占两倍的地方显示。

可是在 UTF-8 编码中，汉字却是占2-3个字符。这个不确定性给截取造成了挺大的麻烦。目前我用的方法只能是循环：

<?
function toFixLen($str, $len) { // 固定长度字符串的截取,UTF-8
$str=trim($str);

$pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
preg_match_all($pa, $str, $t_string);

$lt = count($t_string[0]);
$str = '';
$l = 0 ;
foreach($t_string[0] as $k=>$s){
$l += (strlen($s)==1?1:2);
if($l>=$len-3 && $k!=$lt){
$str .= '...';
break;
}else{
$str .= $s;
}
}
return $str;
}

?>

[技术探讨] :: 评论 (2) :: 得分 (8)

上一篇: MySQL 读写时差导致的重复处理问题
下一篇: 关于 iconv() 函数

-= 文章分类 =-

文章搜索