字符编码小知识

　　最近常见有人对GB、GBK、GB18030、Unicode等编码概念不清，再掺杂上Ext-A、Ext-B、Ext-C等，更混乱了。所以特别整理一些知识贴出来给大家。

1、GB、BIG5、GBK、GB18030

　　字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码，为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的BIG5。

　　GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

　　GB2312 支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。

　　从ASCII、GB2312、 GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

　　有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符（就是Ext-A部分），普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。

2、Unicode、UCS和UTF

　　前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA。

　　Unicode 也是一种字符编码方法，不过它是由国际组织设计，可以容纳全世界所有语言文字的编码方案。Unicode的学名是”Universal Multiple-Octet Coded Character Set”，简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。

　　根据维基百科全书(http://zh.wikipedia.org/wiki/)的记载：历史上存在两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。ISO开发了ISO 10646项目，Unicode协会开发了Unicode项目。

　　在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从Unicode2.0开始，Unicode项目采用了与ISO 10646-1相同的字库和字码。

　　目前两个项目仍都存在，并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003。

　　UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码，是由UTF(UCS Transformation Format)规范规定的，常见的UTF规范包括UTF-8、UTF-7、UTF-16。

　　IETF 的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。IETF是 Internet Engineering Task Force的缩写。IETF负责维护的RFC是Internet上一切规范的基础。

所以从汉字包含来看，简单地可以说：
　　GB2312＝ASCII＋常用汉字＋符号
　　GBK＝GB2312＋不常用字（含BIG5繁体汉字）＋图形符号
　　GB18030＝GBK＋Ext-A＋图形符号
　　Unicode＝GB18030＋Ext-B＋……（如未发布的Ext-C及其它国家文字）
注意：Unicode的汉字编码与前三者不一样

原创文章，转载请注明出处：代码人生（https://www.code-life.com/）
本文链接地址：https://www.code-life.com/?p=289

代码人生

代码如诗，书写人生

发表评论取消回复

发表评论 取消回复

发表评论取消回复