UTF.COM.CN

ANSI和UTF-8文本编码的体积比较

作者:佚名 | 来源:网络 | 添加时间:2007-07-01 21:33:50 | 人气:2131

ANSI和UTF-8文本编码的体积比较

语言设置指的是<meta>这里的charset,如简体中文是charset=gb2312,UTF-8是charset=utf-8;文本编码指的是文件的储存格式,我们新建的文本文件默认都是ANSI格式,所以不能含有如©、®这类字符。为了不让网页出现乱码,语言设置和文本编码应该相对应,简体中文的文本编码格式是gb2312,UTF-8文本编码格式是UTF-8。语言设置和文本编码对于任何客户端网页都适用,如.htm、.asp、.php、.jsp、.aspx的网页。

ANSI和UTF-8文本编码的体积,我这里做了一些实验,同一个字符重复N次,如下表:

字符 编码格式 重复次数 文件体积
英文、半角字符:
a ANSI 100次 100 bytes
A ANSI 100次 100 bytes
a UTF-8 100次 103 bytes
a UTF-8 1000次 1003 bytes
a UTF-8 10000次 10003 bytes
汉字、全角字符:
ANSI 100次 200 bytes
ANSI 100次 200 bytes
UTF-8 100次 303 bytes
® UTF-8 100次 203 bytes
UTF-8 100次 303 bytes
UTF-8 1000次 3003 bytes
UTF-8 10000次 30003 bytes
Unicode编码格式:
a Unicode 100次 202 bytes
Unicode 100次 202 bytes
® Unicode 100次 202 bytes
Unicode 100次 202 bytes
Unicode 1000次 2002 bytes

总结:(以下的byte就是字节)

1、半角的字符,如英文、数字、半角符号,ANSI和UTF-8文本编码的体积比是1:1,UTF-8格式会多出3个byte。
2、中文字符,ANSI和UTF-8文件的体积比是1:2,UTF-8格式多出3个byte。
3、©、®这2个字符,在UTF-8格式下,与中文字符的体积一样。
4、韩文字符不能使用ANSI格式。韩文在UTF-8格式下,一个字符占用3个byte;韩文在Unicode格式下,一个字符占用2个byte;
5、Unicode码则比较折中,所有字符都占用2个byte。

总之,英文、数字、半角符号,在ANSI和UTF-8编码格式下都占用1个byte;中文,全角标点,在ANSI下占用2个byte,在UTF-8下占用3个byte。

ANSI和UTF-8文本编码的体积,我这里做了一些实验,同一个字符重复N次,如下表:

字符 编码格式 重复次数 文件体积
英文、半角字符:
a ANSI 100次 100 bytes
A ANSI 100次 100 bytes
a UTF-8 100次 103 bytes
a UTF-8 1000次 1003 bytes
a UTF-8 10000次 10003 bytes
汉字、全角字符:
ANSI 100次 200 bytes
ANSI 100次 200 bytes
UTF-8 100次 303 bytes
® UTF-8 100次 203 bytes
UTF-8 100次 303 bytes
UTF-8 1000次 3003 bytes
UTF-8 10000次 30003 bytes
Unicode编码格式:
a Unicode 100次 202 bytes
Unicode 100次 202 bytes
® Unicode 100次 202 bytes
Unicode 100次 202 bytes
Unicode 1000次 2002 bytes

总结:(以下的byte就是字节)

1、半角的字符,如英文、数字、半角符号,ANSI和UTF-8文本编码的体积比是1:1,UTF-8格式会多出3个byte。
2、中文字符,ANSI和UTF-8文件的体积比是1:2,UTF-8格式多出3个byte。
3、©、®这2个字符,在UTF-8格式下,与中文字符的体积一样。
4、韩文字符不能使用ANSI格式。韩文在UTF-8格式下,一个字符占用3个byte;韩文在Unicode格式下,一个字符占用2个byte;
5、Unicode码则比较折中,所有字符都占用2个byte。

总之,英文、数字、半角符号,在ANSI和UTF-8编码格式下都占用1个byte;中文,全角标点,在ANSI下占用2个byte,在UTF-8下占用3个byte。

责任编辑:冬天来了
【字号: 】【去论坛讨论】【发表评论】【打印本文】【告诉好友】【关闭窗口
网友评论(评论内容只代表网友观点,与本站立场无关!)
  • vbadvisor 发表于:2008-05-01 00:24:06
    should be:
    3、©、®这2个字符,在UTF-8格式下,一个字符占用2个byte。

姓名:

验证码: 点击刷新