kenlistian

勤学多思

IT博客 :: 首页 :: 新随笔 :: :: 聚合

:: 管理 ::

412 随笔 :: 0 文章 :: 23 评论 :: 0 Trackbacks

2022年10月

日

一

二

三

四

五

六

常用链接

留言簿(3)

随笔分类

随笔档案

搜索

积分与排名

积分 - 252373
排名 - 17

阅读排行榜

ruby编码问题的困扰

1. Java：内部字符串用Unicode保存，基本上不用关注这个问题。正则表达式、字符计数和字串截取都工作正常。

2. Perl: 存在两种字符模式，一个是传统的面向字节的，另一个是面向unicode字符的。在后面一种情况下，Perl在内部用UTF-8编码存储字符串。对于 UTF-8字符串，可以使用传统的字符串操作函数，比如length，substr，也可以使用正则表达式，结果确保正确。Perl使用哪种字符模式，主要取决于流的设置，这个设置是通过binmode函数来进行的。对于在程序文本中出现的字符串，当然是以文件本身的编码方式存储的。经常发生的情况是，程序本身用ANSI编码编写（比如CP936），但是处理汉字的时候需要转换成UTF-8，这时候可以用Encode模块里的decode函数讲字符串转成 UTF-8。反过来，encode函数可以把UTF-8编码的Perl字符串转换成CP936，这样就能够在控制台上打印出来。

3. Python: 为了支持Unicode，整个做了一个Unicode内建对象，把string对象的全部方法重新实现了一遍。Python对Unicode的支持比较简单。比如 s = unicode('给他5个dollar!", 'gbk')，就能得到一个unicode对象。上面调用中的'gbk'参数是说传过去的字符串是用GBK编码的。对于得到的这个unicode对象，调用string同名方法，所有的结果都是正确的。

4. Ruby：Ruby对于Unicode的支持最差，或者说根本没有支持。Ruby始终只是把String看成是字节序列。使用Ruby处理中文，要用 iconv库转来转去。Ruby的正则表达式对unicode不友好。新加入Rails的一个库据称可以解决Ruby unicode支持的问题，不过代价是三十倍的性能下降。

来自：http://blog.csdn.net/myan/archive/2007/01/25/1493288.aspx

这是2007的，不知道ruby1.8.6如何，

posted on 2008-03-25 22:51 kenlistian 阅读(727) 评论(0) 编辑收藏引用

只有注册用户登录后才能发表评论。