随笔分类(74)

文章分类(2)

Learn Php(2) (rss)

相册

友逹們

NS团队 (rss)
关注PHP，关于程序，团队工作，WEB开发，2.0技术研究
st.MadMaN的勃客 (rss)
BT的域名，BT的勃客
幻影飞狐的BLOG (rss)
狐狸的BLOG
来须苍真 (rss)
小来的日记本
百思家家居网站 (rss)
百思家家居网站
简单中国 (rss)
简单中国，人生简单，PHP研发，ajax技术研究，WEB2.0探讨
自恋的奥特慢 (rss)
关键字：PP、奥特慢、小帅歌、胖胖、自恋、凹凸曼

搜索

评论排行榜

关于 PHP 中的 iconv 函数的一点小问题[转]

作者：andot，来自：www.coolcode.cn，出处：http://www.coolcode.cn/show-41-1.html

原文如下

昨天在调试 WAP 网站时发现，在增加了 GB2312 到 UTF-8 转化以后，有些页面显示不正常了——有些页面只有一半的内容，另一半被截掉了。因为被截掉的部分包含了<p>的后半个标签</p>，因此整个页面都显示不出来，而报告错误。经过猜测、尝试，最后终于把问题集中在了 iconv 函数上。在经过高人指点以后，发现这个函数的第二个参数，除了可以指定要转化到的编码以外，还可以增加两个后缀：//TRANSLIT 和 //IGNORE，其中 //TRANSLIT 会自动将不能直接转化的字符变成一个或多个近似的字符，//IGNORE 会忽略掉不能转化的字符，而默认效果是从第一个非法字符截断。但是我尝试了//TRANSLIT 和 //IGNORE 这两个后缀，效果还是不对。于是我想问题可能不是出在这里。从 GB2312 到 UTF-8 转化应该不会有不能转化的字符，因为 UTF-8 的字符集完全包含了 GB2312 中的字符，所以我想大概是前面要转化的字符集指定错了，于是我尝试着把 GB2312 改成 GBK，问题解决！虽然那两个后缀在这里没派上用场，不过也算学了一招，以后肯定会用到的。补记：改成 GBK 后，发现仍然有一封邮件的内容解析不正确。在另一位高人指点下，先换成 GB18030，问题依旧，然后改用 mb_convert_encoding 进行转换，问题解决！不知道是 mb_convert_encoding 问题，还是我的系统问题，我用 mb_convert_encoding 时不支持 GB18030 编码。另外，用 GBK 或者GB18030 作为输入编码，并在输出编码中加上 //IGNORE 后缀，用 iconv 函数也能解决那封含有错误编码的邮件内容解析不正确的问题。不过用 mb_convert_encoding 可以指定多种输入编码，它会根据内容自动识别，这个比 iconv 要好的多。

其实，同事在生成图片文字水印的时候也遇到了这种问题，同事最初用的是GB2312字符集，结果直接报错，说是字符串的offset有问题，但仔细检查后却没有这种问题。后来才发现是直接调用的这个iconv转换出错了。
原来的转换是从gb2312往 UTF8转换，表面上确实没有什么问题，然而，现在的人特别爱装酷，受影响的那位同志，用的是繁体字，繁体字的字库大多情况是属于GBK的，所以后来换成GBK后就正常了。
估计以后再遇上用火星文的朋友，就真的只能使用andot提出的这种方法了。转换成18030，再使用ignore参数。哈哈

mbstring好象最初的版本里没有使用，如果换成这个，估计代码工作量非常大，先将就着点了

posted on 2008-08-02 20:23 简单人生阅读(242) 评论(0) 编辑收藏引用

只有注册用户登录后才能发表评论。

导航

常用链接

留言簿(19)

随笔分类(74)

文章分类(2)

相册

友逹們

搜索

最新评论

评论排行榜