字符编码关系总结

时间：2019-05-08 18:10:01 阅读：149 评论：0 收藏：0 [点我收藏+]

ASCII

ASCII，是American Standard Code for Information Interchange缩写，即“美国信息交换标准码”。这是美国早期制定的编码规范，一个ASCII码占一个字节，不过只用到前七位来表示字符，最高位为校验位，所以只能表示128个字符，包括英文字符、阿拉伯数字、西文字符以及32个控制字符。

拓展ASCII

本着能薅羊毛就使劲薅的科学专研精神，业界把一个字节的八位都用来表示字符了，所以向ASCII表继续扩充到256个符号，这样就可以存储一些英文的制表符、部分音标字符等等的一些其它符号。

GB2312

计算机进入中国之后，我们发现洋人的东西好是好，但是不适合国情，啥都白搭。ASCII码撑死也就256个字符，还不够一本千字文用的。所以勤劳的中国人民对 ASCII 编码进行了中文扩充改造，产生了 GB2312 编码，每个字占据2bytes，可以表示6000多个常用汉字。

GBK
GBK 由于GB2312只有6763个汉字，而中华文明文化底蕴深不可测，汉字实在是太多，各种繁体和字符，GB2312 编码完全不都塞牙缝的。于是便产生了 GBK 编码，它包括了 GB2312 中的编码，同时扩充了很多。经过GBK编码后，可以表示的汉字达到了20902个，另有984个汉语标点符号、部首等。值得注意的是这20902个汉字还包含了繁体字。

GB18030
中国是个多民族国家，各个民族几乎都有自己独立的语言系统，为了表示那些字符，继续把 GBK 编码扩充为 GB18030 编码。GB18030多出来的汉字使用4bytes编码，GB18030编码的中文文件已经有七万多个汉字了，包含了多种少数民族文字。

UNICODE

GB18030编码基本可以解决国内字符编码问题，然后新问题来了，现在是地球村时代了，大家都是要互联交流的，但是全世界有各种各样的编码，如果你不安装相应的编码，就无法解释相应编码想表达的内容。为了解决编码混乱的问题，某个神秘的国际组织创造

了一种编码 UNICODE ，这种编码非常大，大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统，无论是全球哪种文字，只需要保存文件的时候，保存成 UNICODE 编码就可以被其他电脑正常解释。
UNICODE 在网络传输中，出现了两个标准 UTF-8 和 UTF-16，分别每次传输 8个位和 16个位。于是就会有人产生疑问，UTF-8 既然能保存那么多文字、符号，为什么国内还有这么多使用 GBK 等编码的人？因为 UTF-8 等编码体积比较大，占电脑空间比较多，如果面向的使用人群绝大部分都是中国人，用 GBK 等编码也可以。

原文：https://blog.csdn.net/m0_38080253/article/details/78841280

字符编码关系总结

原文：https://www.cnblogs.com/iMX8mm/p/10832896.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)