汉字编码规则汉字编码对照表 gbk汉字编码规则

一：计算机知识：汉字编码的规则？

GB2312中的汉字编码规则

2008-07-26 21:56:10

标签：GB2312 汉字编码规则休闲职场

01-09区为特殊符号。 16-55区为一级汉字，按拼音排序。 56-87区为二级汉字，按部首/笔画排序。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”，第二个字节称为“低位字节”。“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。例如“啊”字在大多数程序中，会以0xB0A1储存。（与区位码对比：0xB0=0xA0+16,0xA1=0xA0+1）。

在附送你个 GB2312 编码表

二：汉字编码原则及分类

汉字编码是"现代汉语"的重要组成部分,因此汉字编码,都应完全贯彻《汉语拼音方案》和《现代汉语通用字笔顺规范》的要求,在一个编码方案的原则下、简便易学、能成为中小学语文的重要的辅助教材及工具,并能够全面进入信息传导等领域,不但编码能在计算机大键盘上使用,也能在小键盘上、电话机、手机上使用,把手写"汉语速记"和计算机速记融为一体并能快速准确的应用,彻底解决"汉语速记"不具有普及性和难学难记的缺点,并且能进行汉字非键盘输入、支持汉字手写识别、大字符集处理平台与应用软件.

三：汉字的编码有几种？各有什么用途？

根据应用目的的不同，汉字编码分为外码、交换码、机内码和字形码。

1.外码（输入码）

外码也叫输入码，是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等，一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点，每个人可根据自己的需要进行选择。

2.交换码(国标码)

计算机内部处理的信息，都是用二进制代码表示的，汉字也不例外。而二进制代码使用起来是不方便的，于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》，即国标码。

区位码是国标码的另一种表现形式，把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵，分为94个“区”，每区包含94个“位”，其中“区”的序号由01至94，“位”的序号也是从01至94。94个区中位置总数=94×94=8836个，其中7445个汉字和图形字符中的每一个占一个位置后，还剩下1391个空位，这1391个位置空下来保留备用。

3.机内码

根据国标码的规定，每一个汉字都有了确定的二进制代码，在微机内部汉字代码都用机内码，在磁盘上记录汉字代码也使用机内码。

4.汉字的字形码

字形码是汉字的输出码，输出汉字时都采用图形方式，无论汉字的笔画多少，每个汉字都可以写在同样大小的方块中。通常用16×16点阵来显示汉字。

5.汉字地址码

汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。它与汉字内码有着简单的对应关系，以简化内码到地址码的转换。

四：UTF-8是按拼音顺序进行汉字编码的吗

不是按照拼音顺序，而是按照CJK编码顺序

UTF-8的的具体编码结构需参考ISO/IEC 10646标准

ISO/IEC 10646将其第一个平面（00组中的00平面）称作Basic Multilingual Plane(基本多文种平面)，简称BMP。

BMP中的 I区就是我们的汉字编码区域,原则是按照CJK统一编码的

I- Zone（4E至9F行）为表意文字编码区，我们将其称作汉字区，通常人们所说的CJK统一编码汉字就放在这个区域，从4E00到9FA5共20902个编码汉字。

五：词组分为哪几种?编码规则是什么

1、从词类分：

动词短语,look for

名词短语,day and night

形容词短语,black and blue

介词短语,above all

分词短语talking and laughing

不定式短语,to get a good mark

还可以从形式上分类,在此不一一赘述.

2、五笔字型单字编码规则

一、五笔字型编码歌诀

掌握汉字的编码规则，熟悉每个汉字的编码，是五笔字型输入的基础，下面提供的单个字的五笔字型编码规则歌忘记诀：

五笔字型均直观，依照笔顺把码编；键名汉字打四下，基本字根请照搬；

一二三末取四码，顺序拆分大优先；不足四码要注意，交叉识别补后边。

从这歌诀就可以看出五笔字型编码规则的大致面貌，同时口诀也概括了五笔字型拆字取码的五项原则：

1、从形取其顺序按书写规则，即从左到右、从上到下、从外到内；

2、以130多个字根为基本单位；

3、对于字根数超过四个的汉字，按一二三末字根的顺序，最多只取四码；

4、单体结构拆分取大优先；

5、末笔与字型交叉识别。

下图是五笔字型编码流程图，以方便读者了解整个编码方案的概貌：

二、键名汉字的编码规则

五笔字型中规定的键名汉字共有25个，"王土大木工目日口田山禾白月人金言立水火之已子女又纟"

25个键名汉字与25个字母键相应，这些字的编码相当简单，它们的编码就是4个所在字母键字母，如："言"字的编码为"YYYY"，"纟"字的编码为"XXXX"，等等。输入键名汉字时，只要连续击四次该字所在的字母键即可。

三、成字字根的编码规则

在五笔字型字根键盘的每个字母键上，除了一个键名字根外，还有一些其它类型的字根。有些字根其本身就是一个汉字，这样的字根称为成字字根。成字字根的编码是按下面公式进行的：

键名码+首笔码+次笔码+末笔码

当成字字根仅为两笔时，编码只有三码，公式为：

键名码+首笔码+末笔码

例如："石"，字根所在的键为D，第一笔划为 "横"的编码是G，第二笔为 "撇"的编码是T键，末笔"横"的编码也是G键，所以这个字的五笔编码就是DGTG。再比如"虫"字，这个字根是在J键，第一笔是竖H，第二笔是折N，最末一笔是捺(在五笔里"点"做为"捺")Y，所以"虫"的五笔编码就是JHNY。

四、键外字的编码规则

国标GB2312-80中，上述的键名和成字字根这样的键面字总共才有一百多个，绝大部分汉字都不是成字字根，这些才是我们在使用当中用得最多的。

五笔字型汉字编码主要是键外字的编码，编码可以分为两类，纯字根码和识别码。如果一个汉字的字根是四个或超过四个，就用前三后一总共四个字根码组成编码。

不足四个字根的汉字需补一个字型结构识别码，以增加区分汉字的信息量。

1、字根码

每个字根都分派在一个字母键上，其所在键上的英文就是该字根的"字根码"。凡含四个或超过四个字根的汉字，取其第一、二、三、末四个字根码组成键外字的输入编码。第一字根编码+第二字根编码+第三字根编码+最末一个字根编码这里一、二、三、末应按正常书写顺序，先左后右，先上后下，先外后内。......余下全文>>

六：国家标准代码的国家汉字标准代码

GB 2312 - 80信息交换用汉字编码字符集基本集（又称为GB0）GB 13000 - 93信息技术通用多八位编码字符集（UCS）第一部分GB 18030 - 2000信息技术信息交换用汉字编码字符集基本集的扩充其他中华人民共和国发布有关汉字标准代码列表：GB/T 12345 - 90信息交换用汉字编码字符集第一辅助集（又称为GB1）GB/T 7589 - 87信息交换用汉字编码字符集第二辅助集（又称为GB2）GB 13131 - 91信息交换用汉字编码字符集第三辅助集（又称为GB3）GB/T 7590 - 87信息交换用汉字编码字符集第四辅助集（又称为GB4）GB 13132 - 91信息交换用汉字编码字符集第五辅助集（又称为GB5）GB/T 16500 - 1998信息交换用汉字编码字符集第七辅助集国家推荐标准以 /T 来表示并非强制执行。由于GB 2312-80只收录了6763个汉字，未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字，所以发布了以上的辅助集。其中，GB/T 12345-90辅助集是GB 2312-80基本集的繁体字版本；GB 13131-91是GB/T 7589-87的繁体字版本；GB 13132-91是GB/T 7590-87的繁体字版本。而GB/T 16500-1998是繁体字版本，它并无对应的简体字版本。鉴于第二辅助集及第四辅助集，有不少汉字均是“类推简化汉字”，实用性不高，因而较少人采用。中华人民共和国国家标准总局于2000年推出强制性的GB 18030-2000标准。于2001年8月31日后发布或出厂的产品，必须符合GB 18030-2000的相关要求。中华人民共和国国家标准ISO/IEC 2022 ^ ISO 10646 收录的是其非简化形式（unsimplified forms），见中日韩统一表意文字#字源^ 向 ISO 10646 提交汉字时称为 G8^ 一说8443（Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82）^ 4.0 4.1 简体中文版 Windows 95 “GBK 内码输入法”帮助文件，1995年^ 在 ISO 10646 文件中称为 GE；本应称为“GB7”，但中国向 ISO 10646 提交汉字时将《现代汉语通用字表》称为 G7^ 在 ISO 10646 文件中称为 G9 下表是一些与信息处理相关的一些国家标准。国家标准强制标准冠以“GB”。推荐标准冠以“GB/T”。标准号采用程度中文名称强制标准　　　　GB 2312-80 　　信息交换用汉字编码字符集基本集 GB 3100-93 EQV ISO 1000：1992 国际单位制及其应用 GB 3101-93 EQV ISO 31-0:1992 有关量、单位和符号的一般原则 GB 3259-92 　　中文书刊名称汉语拼音拼写法 GB 3304-91 　　中国各民族名称的罗马字母拼写法和代码 GB 5768-1999 　　道路交通标志和标线 GB 6513-86 　　文献书目信息交换用数学字符编码字符集 GB 8045-87 　　信息交换用蒙古文七位编码和八位编码字符集 GB 12050-89 　　信息处理信息交换用维吾尔文编码图形字符集 ......余下全文>>

七：汉字编码标准有什么区别和联系

汉字编码

相对西文字符集的定义，汉字编码字符集的定义有两大困难：选字难和排序难。选字难是因为汉字字量大(包括简体字、繁体字、日本汉字、韩国汉字)，而字符集空间有限。排序难是因为汉字可有多种排序标准(拼音、部首、笔画等等)，而具体到每一种排序标准，往往还存在不少争议，如对一些汉字还没有一致认可的笔画数。

二、汉字编码国家标准

1984年“全国计算机与信息处理标准化技术委员会”提出编码字符集的繁体字和简体字对应编码的原则，并做出了制定六个信息交换用汉字编码字符集的计划。这六个集分别命名为基本集、第一辅助集(辅一)、第二辅助集(辅二)、第三辅助集(辅三)、第四辅助集(辅四)、第五辅助集(辅五)。其中，基本集、辅二集、辅四集是简体字集，辅一集、辅三集、辅五集分别是基本集、辅二集、辅四集的繁体字映射集，且简/繁字在两个字符集中同码(个别简/繁关系为一对多的汉字除外)。

国家标准GB 2312-80《信息交换用汉字编码字符集基本集》已于1980年发布使用，它奠定了我国中文信息处理技术的发展。

这六个集均采用双七位编码方式，但为了避开ASCII表中的控制码，每个七位只选取了94个编码位置。所以每张代码表分94个区和94个位。其中前15区作为拼音文字及符号区或保留未用，16区到94区为汉字区。

1. 基本集GB 2312-80

收入汉字信息交换用的基本图形字符，采用一字一码的原则，具体包括：一般符号，序号，数字，拉丁字母，日文假名，希腊字母，俄文字母，汉语拼音符号，汉语注音字母及简化汉字6763个。总计7445个图形字符。

2. 其他五个辅助汉字集

辅二集(GB 7589-87)和辅四集(GB 7590-87)是作为基本集的补充而编制的，均收通用规范的简体汉字，分别收字7237和7039个，都以部首为序排列，部首次序按笔画数排列，同部首字按部首以外的笔画数排列，同笔画数的字以笔形顺序(横、直、撇、点、折)为序。

这两个集都不收异体字，共约有4200多个字是经过类推简化得到的，提高了整个字符集的规范性，但降低了字符集的实用性。

比较而言辅二集所收汉字具有较高通用性和实用性。

辅一集(GB 12345-90)已于1990年发布，是与基本集对应的繁体字集，共收图形字符7583个，其中前15区除收集了GB 2312中前15区内收的全部字符外，又增收了35个竖排标点符号和汉语拼音符号。从16区至91区共收6866个繁体汉字。一级汉字数和二级汉字数都与GB2312相同，另有103个繁体字是属于简/繁为一对多的字。对于简/繁一对多的情况，则选一个最通用的繁体字码置于与基本集中该字相对应的码位，其余的则按拼音序编码于88和89区。

辅三集和辅五集分别是辅二集和辅四集的一一对应的繁体字符集，比辅二集和辅四集中的字有更多的使用机会。

三、中国台湾定义的汉字字符集

台湾、香港等地使用的汉字是繁体字，台湾已经定义的汉字字符集只收繁体字。

在台湾，用于中文信息交换的标准有：

CCCII：中文资讯交换码

CNS 11643：通用汉字标准交换码

其中，CNS 11643实用面更广，使用者更多。

八：求教大神【汉字编码问题】，由6位16进制表示一个汉字是什么编码规则？

UTF-8

www.mytju.com/...f8.asp

九：汉字的国家标准编码原则是一个汉字表示占用节数为

一个汉字占2个字节！

汉字编码规则