GD输出汉字的函数的分析

2016-01-29 13:32 3 1 收藏

GD输出汉字的函数的分析,GD输出汉字的函数的分析

【 tulaoshi.com - PHP 】

    很早以前找到一个把GB码转化为UTF-8的函数，配合一个GB到UNICODE的对照表（gb2312.txt），用于在GD中输出汉字。后来发现在欲输出的内容中含有西文字符时，会出现混乱。后来找到了修改后的代码，解决了问题。现将两个函数做一对比分析如下。

首先，这是一个UNICODE到UTF-8编码转换的函数，这一部分修改前后没有变化：
function u2utf8($c)
{
for($i=0;$i<count($c);$i++)
$str="";
if ($c < 0x80) {
$str.=$c;
}
else if ($c < 0x800) {
$str.=(0xC0 | $c6);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x10000) {
$str.=(0xE0 | $c12);
$str.=(0x80 | $c6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
else if ($c < 0x200000) {
$str.=(0xF0 | $c18);
$str.=(0x80 | $c12 & 0x3F);
$str.=(0x80 | $c6 & 0x3F);
$str.=(0x80 | $c & 0x3F);
}
return $str;
}

这里完全是按照UTF-8编码的规则，通过判断字符属于不同的UNICODE编码段范围，进行不同的移位和位与操作，以转化为UTF-8编码。关于该规则可参考http://www.utf8.org/上的说明。

这是修改前的GB转化为UTF-8编码的函数，其中调用了上面的u2utf8函数。
function gb2utf8($gb)     /* Program writen by sadly www.phpx.com  */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8.=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
}
else
{
$gb=substr($gb,1,strlen($gb));
$utf8.=u2utf8(substr($gb,0,1));
}
}

$ret="";
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));

return $ret;
}
函数中while循环部分，把汉字逐个按照对照表转化为UNICODE，再通过u2utf8函数转化为UTF-8。但从中可以看出，while循环结束后，又用一个for循环，把每三个字节合成了一个UTF-8字符（见http://www.utf8.org/上的规则说明，每个汉字的UTF-8编码为三字节），没有考虑到其中的西文字符（西文字符的UTF-8编码为一字节）。所以，如果欲输出的内容中不论是开始时出现西文字符，或是汉字当中穿插西文字符，转化为UTF-8后，都会被按照每三个字节截取的方式截开，导致乱码。

以下是修改后的函数：
function gb2utf8($gb)    /* Program writen by sadly   modified by agun */
{
if(!trim($gb))
return $gb;
$filename="gb2312.txt";
$tmp=file($filename);
$codetable=array();
while(list($key,$value)=each($tmp))
$codetable[hexdec(substr($value,0,6))]=substr($value,7,6);

$ret="";
$utf8="";
while($gb)
{
if (ord(substr($gb,0,1))127)
{
$this=substr($gb,0,2);
$gb=substr($gb,2,strlen($gb));
$utf8=u2utf8(hexdec($codetable[hexdec(bin2hex($this))-0x8080]));
for($i=0;$i<strlen($utf8);$i+=3)
$ret.=chr(substr($utf8,$i,3));
}
else
{
$ret.=substr($gb,0,1);
$gb=substr($gb,1,strlen($gb));
}
}
return $ret;
}

修改后的函数将 GB转化为UNICODE、UNICODE转化为UTF-8、几个字节合成一个UTF-8字符，这三个步骤在一个循环里完成，尤其是几个字节合成一个UTF-8字符这一步骤，放在判断了字符属于西文还是属于汉字的条件分支里，据此决定截取一个字节还是三个字节。于是结果正确了！

来源:https://www.tulaoshi.com/n/20160129/1490539.html

上一篇：使DATAGRID中的日期按长日期格式显示
下一篇：《仙境传说奥德赛》FAQ

看过《GD输出汉字的函数的分析》的人还看了以下文章更多>>

显示左边的n个字符(自动识别汉字)函数

标签： ASP

rem 显示左边的n个字符(自动识别汉字) Function LeftTrue(str,n) If len(str)<=n/2 Then LeftTrue=str Else &nb...

Java语言编程技术中汉字问题的分析及解决

标签：编程语言网络编程

在基于 Java 语言的编程中，我们经常碰到汉字的处理及显示的问题。一大堆看不懂的乱码肯定不是我们愿意看到的显示效果，怎样才能够让那些汉字正确显示呢？Java语言默认的编码方式是UNICODE，而我们中国人通常使用的文件和数据库都是基于GB2312或者BIG5等方式编码的，怎样才能够恰当地选择汉字编码方式并正确地处理汉字的编码呢？本文将从汉字编...

PHP中一个控制字符串输出的函数

标签： PHP

// php 中一个控制字符串输出的函数（中英文），每行显示多少字数，避免英文的影响 // $str 字符串 // $len 每行显示的字数（汉字×2） function rep($str,$len) { $strlen=strlen($str); $i=0; $finstr="...

Oracle分析函数学习笔记2

标签：编程语言网络编程

环境：windows 2000 server + Oracle8.1.7 + sql*plus 目的：以oracle自带的scott模式为测试环境，主要通过试验体会分析函数的用法。 2.rank()、dense_rank() 的使用原表信息： SQL break on deptno skip 1 -- 为效果更明显，把不同部门的数据隔段显示。 SQL select deptno,ename,sal 2 from emp 3 or...

Oracle和SQL Server分析挖掘函数

标签：编程语言网络编程

文中提及函数并非Oracle及SQL Server 的全部功能，尤其分析挖掘函数，并未完全涵盖，请以实际解决问题优先，勿妄谈二者优劣。 1.绝对值 S:select abs(-1) value O:select abs(-1) value from dual 2.取整(大) S:select ceiling(-1.001) value O:select ceil(-1.001) value from dual 3.取整（小） S:select...

查看更多精彩>>