UTF.COM.CN

文本编辑器的编码问题

作者:佚名 | 来源:网络 | 添加时间:2007-03-28 12:45:23 | 人气:1983

文本编辑器的编码问题

一、Win2K的记事本
     Win2k的记事本提供了四种编码方式供用户保存其编辑的文本:ANSI编码方式、Unicode编码方式、Unicode big endian编码方式、UTF-8编码方式。
说明如下:
1、这里的Unicode是UTF-16。
2、这里的UTF-8是UTF-8 litte endian。little-endian、big-endian是不同CPU架构下两种不同数据存储方式。big-endian CPU处理双八位字节时先处理位于内存中低地址的高位字节,当将其输出到磁盘或者到网络接口的时候(线性化),高位字节也就先出现在数据流中;而与此相对应的是,little-endian CPU先处理低位字节。Windows下的CPU一般是little-endian,Macintosh下的CPU是Big-endian,所以,big endian编码的文档一般给Mac下使用,windows下编码默认为little endian方式。所以,完整的说,四种编码方式分别为:ANSI、UTF-16 little endian、UTF-16 big endian、UTF-8 little endian。
3、ASCII字符集定义了128个字符,扩展后的ASCII字符集定义了256个字符,后来每个国家定义了自己的MBCS(多字节字符系统),被统称为ANSI字符集。所以这里的ANSI编码方式与操作系统默认的编码方式一致。故中文Windows记事本的ANSI编码方式实际上采用的GBK编码(代码页936),英文Windows 记事本的ANSI编码方式实际上采用的Latin 1(代码页1252)编码。

二、UltraEdit-32 11.10+2
     UltraEdit11.10与10.00a比较,11.10在保存文件时可以选择文件保存的编码方式。它提供了5种编码方式保存文本,分别是:ANSI/ASCII、UTF-8、UTF-16、UTF-8 - NO BOM、UTF-16 - NO BOM。
说明如下:
1、第二、三种编码方式都为little endian编码方式。
2、第四、五种编码方式为不带字节顺序标志BOM的编码方式。对于UTF-8,其编码字节流开头字节将没有EF BB BF三个字节;对于UTF-16,其编码字节流开头字节将没有FE FF或FF FE两个字节,既可以被解释为big-endian文本,也能够被解释为little-endia文本。不知道到底有什么实际应用?

责任编辑:冬天来了
【字号: 】【去论坛讨论】【发表评论】【打印本文】【告诉好友】【关闭窗口
网友评论(评论内容只代表网友观点,与本站立场无关!)

姓名:

验证码: 点击刷新