首页 > 其他 > 详细

Coded Character Set

时间:2015-01-03 18:30:31      阅读:268      评论:0      收藏:0      [点我收藏+]

ASCII -> GB2312 -> GBK

ASCII -> Unicode( Universal Multiple-octet Coded Character Set, Abbreviation:UCS)

UTF: UCS Transformation Format

 

UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

 

UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:

例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。  

 

BOM: byte order mark

 

 

Windows 32和64, java, Net framework 都是2bytes, UTF-16编码.  类Unix下都是4bytes, UTF-32编码

Coded Character Set

原文:http://www.cnblogs.com/faeriesoft/p/4199723.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!