汉字编码规则

一:计算机知识:汉字编码的规则?

GB2312中的汉字编码规则

2008-07-26 21:56:10

标签:GB2312 汉字编码规则 休闲 职场

01-09区为特殊符号。 16-55区为一级汉字,按拼音排序。 56-87区为二级汉字,按部首/笔画排序。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”,第二个字节称为“低位字节”。“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上0xA0)。例如“啊”字在大多数程序中,会以0xB0A1储存。(与区位码对比:0xB0=0xA0+16,0xA1=0xA0+1)。

在附送你个 GB2312 编码表

二:汉字编码原则及分类

汉字编码是"现代汉语"的重要组成部分,因此汉字编码,都应完全贯彻《汉语拼音方案》和《现代汉语通用字笔顺规范》的要求,在一个编码方案的原 则下、简便易学、能成为中小学语文的重要的辅助教材及工具,并能够全面进入信息传导等领域,不但编码能在计算机大键盘上使用,也能在小键盘上、电话机、手 机上使用,把手写"汉语速记"和计算机速记融为一体并能快速准确的应用,彻底解决"汉语速记"不具有普及性和难学难记的缺点,并且能进行汉字非键盘输入、 支持汉字手写识别、大字符集处理平台与应用软件.

三:汉字的编码有几种?各有什么用途?

根据应用目的的不同,汉字编码分为外码、交换码、机内码和字形码。

1.外码(输入码)

外码也叫输入码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。

2.交换码(国标码)

计算机内部处理的信息,都是用二进制代码表示的,汉字也不例外。而二进制代码使用起来是不方便的,于是需要采用信息交换码。中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,即国标码。

区位码是国标码的另一种表现形式,把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8836个,其中7445个汉字和图形字符中的每一个占一个位置后,还剩下1391个空位,这1391个位置空下来保留备用。

3.机内码

根据国标码的规定,每一个汉字都有了确定的二进制代码,在微机内部汉字代码都用机内码,在磁盘上记录汉字代码也使用机内码。

4.汉字的字形码

字形码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。通常用16×16点阵来显示汉字。

5.汉字地址码

汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。它与汉字内码有着简单的对应关系,以简化内码到地址码的转换。

四:UTF-8是按拼音顺序进行汉字编码的吗

不是按照拼音顺序,而是按照CJK编码顺序

UTF-8的的具体编码结构需参考ISO/IEC 10646标准

ISO/IEC 10646将其第一个平面(00组中的00平面)称作Basic Multilingual Plane(基本多文种平面),简称BMP。

BMP中的 I区就是我们的汉字编码区域,原则是按照CJK统一编码的

I- Zone(4E至9F行)为表意文字编码区,我们将其称作汉字区,通常人们所说的CJK统一编码汉字就放在这个区域,从4E00到9FA5共20902个编码汉字。

五:词组分为哪几种?编码规则是什么

1、从词类分:

动词短语,look for

名词短语,day and night

形容词短语,black and blue

介词短语,above all

分词短语talking and laughing

不定式短语,to get a good mark

还可以从形式上分类,在此不一一赘述.

2、五笔字型单字编码规则

一、五笔字型编码歌诀

掌握汉字的编码规则,熟悉每个汉字的编码,是五笔字型输入的基础,下面提供的单个字的五笔字型编码规则歌忘记诀:

五笔字型均直观,依照笔顺把码编;键名汉字打四下,基本字根请照搬;

一二三末取四码,顺序拆分大优先;不足四码要注意,交叉识别补后边。

从这歌诀就可以看出五笔字型编码规则的大致面貌,同时口诀也概括了五笔字型拆字取码的五项原则:

1、从形取其顺序按书写规则,即从左到右、从上到下、从外到内;

2、以130多个字根为基本单位;

3、对于字根数超过四个的汉字,按一二三末字根的顺序,最多只取四码;

4、单体结构拆分取大优先;

5、末笔与字型交叉识别。

下图是五笔字型编码流程图,以方便读者了解整个编码方案的概貌:

二、键名汉字的编码规则

五笔字型中规定的键名汉字共有25个,"王土大木工目日口田山禾白月人金言立水火之已子女又纟"

25个键名汉字与25个字母键相应,这些字的编码相当简单,它们的编码就是4个所在字母键字母,如:"言"字的编码为"YYYY","纟"字的编码为"XXXX",等等。输入键名汉字时,只要连续击四次该字所在的字母键即可。

三、成字字根的编码规则

在五笔字型字根键盘的每个字母键上,除了一个键名字根外,还有一些其它类型的字根。有些字根其本身就是一个汉字,这样的字根称为成字字根。成字字根的编码是按下面公式进行的:

键名码+首笔码+次笔码+末笔码

当成字字根仅为两笔时,编码只有三码,公式为:

键名码+首笔码+末笔码

例如:"石",字根所在的键为D,第一笔划为 "横"的编码是G,第二笔为 "撇"的编码是T键,末笔"横"的编码也是G键,所以这个字的五笔编码就是DGTG。再比如"虫"字,这个字根是在J键,第一笔是竖H,第二笔是折N,最末一笔是捺(在五笔里"点"做为"捺")Y,所以"虫"的五笔编码就是JHNY。

四、键外字的编码规则

国标GB2312-80中,上述的键名和成字字根这样的键面字总共才有一百多个,绝大部分汉字都不是成字字根,这些才是我们在使用当中用得最多的。

五笔字型汉字编码主要是键外字的编码,编码可以分为两类,纯字根码和识别码。如果一个汉字的字根是四个或超过四个,就用前三后一总共四个字根码组成编码。

不足四个字根的汉字需补一个字型结构识别码,以增加区分汉字的信息量。

1、字根码

每个字根都分派在一个字母键上,其所在键上的英文就是该字根的"字根码"。 凡含四个或超过四个字根的汉字,取其第一、二、三、末四个字根码组成键外字的输入编码。第一字根编码+第二字根编码+第三字根编码+最末一个字根编码这里一、二、三、末应按正常书写顺序,先左后右,先上后下,先外后内。......余下全文>>

六:国家标准代码的国家汉字标准代码

GB 2312 - 80信息交换用汉字编码字符集 基本集(又称为GB0)GB 13000 - 93信息技术 通用多八位编码字符集(UCS)第一部分GB 18030 - 2000信息技术 信息交换用汉字编码字符集 基本集的扩充其他中华人民共和国发布有关汉字标准代码列表:GB/T 12345 - 90信息交换用汉字编码字符集 第一辅助集(又称为GB1)GB/T 7589 - 87信息交换用汉字编码字符集 第二辅助集(又称为GB2)GB 13131 - 91信息交换用汉字编码字符集 第三辅助集(又称为GB3)GB/T 7590 - 87信息交换用汉字编码字符集 第四辅助集(又称为GB4)GB 13132 - 91信息交换用汉字编码字符集 第五辅助集(又称为GB5)GB/T 16500 - 1998信息交换用汉字编码字符集 第七辅助集国家推荐标准以 /T 来表示并非强制执行。由于GB 2312-80只收录了6763个汉字,未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字,所以发布了以上的辅助集。其中,GB/T 12345-90辅助集是GB 2312-80基本集的繁体字版本;GB 13131-91是GB/T 7589-87的繁体字版本;GB 13132-91是GB/T 7590-87的繁体字版本。而GB/T 16500-1998是繁体字版本,它并无对应的简体字版本。鉴于第二辅助集及第四辅助集,有不少汉字均是“类推简化汉字”,实用性不高,因而较少人采用。中华人民共和国国家标准总局于2000年推出强制性的GB 18030-2000标准。于2001年8月31日后发布或出厂的产品,必须符合GB 18030-2000的相关要求。 中华人民共和国国家标准ISO/IEC 2022 ^ ISO 10646 收录的是其非简化形式(unsimplified forms),见中日韩统一表意文字#字源^ 向 ISO 10646 提交汉字时称为 G8^ 一说8443(Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82)^ 4.0 4.1 简体中文版 Windows 95 “GBK 内码输入法”帮助文件,1995年^ 在 ISO 10646 文件中称为 GE;本应称为“GB7”,但中国向 ISO 10646 提交汉字时将《现代汉语通用字表》称为 G7^ 在 ISO 10646 文件中称为 G9 下表是一些与信息处理相关的一些国家标准。国家标准强制标准冠以“GB”。推荐标准冠以“GB/T”。 标准号 采用程度 中文名称 强制标准     GB 2312-80   信息交换用汉字编码字符集 基本集 GB 3100-93 EQV ISO 1000:1992 国际单位制及其应用 GB 3101-93 EQV ISO 31-0:1992 有关量、单位和符号的一般原则 GB 3259-92   中文书刊名称汉语拼音拼写法 GB 3304-91   中国各民族名称的罗马字母拼写法和代码 GB 5768-1999   道路交通标志和标线 GB 6513-86   文献书目信息交换用数学字符编码字符集 GB 8045-87   信息交换用蒙古文七位编码和八位编码字符集 GB 12050-89   信息处理 信息交换用维吾尔文编码图形字符集 ......余下全文>>

七:汉字编码标准有什么区别和联系

汉字编码

相对西文字符集的定义,汉字编码字符集的定义有两大困难:选字难和排序难。选字难是因为汉字字量大(包括简体字、繁体字、日本汉字、韩国汉字),而字符集空间有限。排序难是因为汉字可有多种排序标准(拼音、部首、笔画等等),而具体到每一种排序标准,往往还存在不少争议,如对一些汉字还没有一致认可的笔画数。

二、汉字编码国家标准

1984年“全国计算机与信息处理标准化技术委员会”提出编码字符集的繁体字和简体字对应编码的原则,并做出了制定六个信息交换用汉字编码字符集的计划。这六个集分别命名为基本集、第一辅助集(辅一)、第二辅助集(辅二)、第三辅助集(辅三)、第四辅助集(辅四)、第五辅助集(辅五)。其中,基本集、辅二集、辅四集是简体字集,辅一集、辅三集、辅五集分别是基本集、辅二集、辅四集的繁体字映射集,且简/繁字在两个字符集中同码(个别简/繁关系为一对多的汉字除外)。

国家标准GB 2312-80《信息交换用汉字编码字符集基本集》已于1980年发布使用,它奠定了我国中文信息处理技术的发展。

这六个集均采用双七位编码方式,但为了避开ASCII表中的控制码,每个七位只选取了94个编码位置。所以每张代码表分94个区和94个位。其中前15区作为拼音文字及符号区或保留未用,16区到94区为汉字区。

1. 基本集GB 2312-80

收入汉字信息交换用的基本图形字符,采用一字一码的原则,具体包括:一般符号,序号,数字,拉丁字母,日文假名,希腊字母,俄文字母,汉语拼音符号,汉语注音字母及简化汉字6763个。总计7445个图形字符。

2. 其他五个辅助汉字集

辅二集(GB 7589-87)和辅四集(GB 7590-87)是作为基本集的补充而编制的,均收通用规范的简体汉字,分别收字7237和7039个,都以部首为序排列,部首次序按笔画数排列,同部首字按部首以外的笔画数排列,同笔画数的字以笔形顺序(横、直、撇、点、折)为序。

这两个集都不收异体字,共约有4200多个字是经过类推简化得到的,提高了整个字符集的规范性,但降低了字符集的实用性。

比较而言辅二集所收汉字具有较高通用性和实用性。

辅一集(GB 12345-90)已于1990年发布,是与基本集对应的繁体字集,共收图形字符7583个,其中前15区除收集了GB 2312中前15区内收的全部字符外,又增收了35个竖排标点符号和汉语拼音符号。从16区至91区共收6866个繁体汉字。一级汉字数和二级汉字数都与GB2312相同,另有103个繁体字是属于简/繁为一对多的字。对于简/繁一对多的情况,则选一个最通用的繁体字码置于与基本集中该字相对应的码位,其余的则按拼音序编码于88和89区。

辅三集和辅五集分别是辅二集和辅四集的一一对应的繁体字符集,比辅二集和辅四集中的字有更多的使用机会。

三、中国台湾定义的汉字字符集

台湾、香港等地使用的汉字是繁体字,台湾已经定义的汉字字符集只收繁体字。

在台湾,用于中文信息交换的标准有:

CCCII:中文资讯交换码

CNS 11643:通用汉字标准交换码

其中,CNS 11643实用面更广,使用者更多。

八:求教大神【汉字编码问题】,由6位16进制表示一个汉字是什么编码规则?

UTF-8

www.mytju.com/...f8.asp

九:汉字的国家标准编码原则是一个汉字表示占用节数为

一个汉字占2个字节!

扫一扫手机访问

发表评论