ASCII
ASCII,是American Standard Code for Information Interchange缩写,即“美国信息交换标准码”。这是美国早期制定的编码规范,一个ASCII码占一个字节,不过只用到前七位来表示字符,最高位为校验位,所以只能表示128个字符,包括英文字符、阿拉伯数字、西文字符以及32个控制字符。
拓展ASCII
本着能薅羊毛就使劲薅的科学专研精神,业界把一个字节的八位都用来表示字符了,所以向ASCII表继续扩充到256个符号,这样就可以存储一些英文的制表符、部分音标字符等等的一些其它符号。
GB2312
计算机进入中国之后,我们发现洋人的东西好是好,但是不适合国情,啥都白搭。ASCII码撑死也就256个字符,还不够一本千字文用的。所以勤劳的中国人民对 ASCII 编码进行了中文扩充改造,产生了 GB2312 编码,每个字占据2bytes,可以表示6000多个常用汉字。
GBK
GBK 由于GB2312只有6763个汉字,而中华文明文化底蕴深不可测,汉字实在是太多,各种繁体和字符,GB2312 编码完全不都塞牙缝的。于是便产生了 GBK 编码,它包括了 GB2312 中的编码,同时扩充了很多。经过GBK编码后,可以表示的汉字达到了20902个,另有984个汉语标点符号、部首等。值得注意的是这20902个汉字还包含了繁体字。
GB18030
中国是个多民族国家,各个民族几乎都有自己独立的语言系统,为了表示那些字符,继续把 GBK 编码扩充为 GB18030 编码。GB18030多出来的汉字使用4bytes编码,GB18030编码的中文文件已经有七万多个汉字了,包含了多种少数民族文字。
UNICODE
GB18030编码基本可以解决国内字符编码问题,然后新问题来了,现在是地球村时代了,大家都是要互联交流的,但是全世界有各种各样的编码,如果你不安装相应的编码,就无法解释相应编码想表达的内容。为了解决编码混乱的问题,某个神秘的国际组织创造
了一种编码 UNICODE ,这种编码非常大,大到可以容纳世界上任何一个文字和标志。所以只要电脑上有 UNICODE 这种编码系统,无论是全球哪种文字,只需要保存文件的时候,保存成 UNICODE 编码就可以被其他电脑正常解释。
UNICODE 在网络传输中,出现了两个标准 UTF-8 和 UTF-16,分别每次传输 8个位和 16个位。于是就会有人产生疑问,UTF-8 既然能保存那么多文字、符号,为什么国内还有这么多使用 GBK 等编码的人?因为 UTF-8 等编码体积比较大,占电脑空间比较多,如果面向的使用人群绝大部分都是中国人,用 GBK 等编码也可以。
原文:https://blog.csdn.net/m0_38080253/article/details/78841280
原文:https://www.cnblogs.com/iMX8mm/p/10832896.html