GB 18030-2022 信息技术 中文编码字符集 含2024年第1号修改单.pdf

信息化,字符,标准化,结构,编码,强制性国家标准
文档页数:800
文档大小:156.2MB
文档格式:pdf
文档分类:强制性国家标准
上传会员:
上传日期:
最后更新:

中华人民共和国国家标准

GB18030-2022代替GB18030-2005

信息技术 中文编码字符

Information technology-Chinese codedcharacter set

国家市场监督管理总局 国家标准化管理委员会 发布

目次

前言1范围2规范性引用文件3术语和定义4字汇5总体结构6字符的排列顺序8部分字符和代码的说明 7码位分配9实现的级别附录A(规范性)双字节字符表附录B(规范性) 表意文字描述符 16附录C(规范性) 四字节字符表 92附录D(资料性)部分字符和代码的说明 546附录E(资料性)《通用规范汉字表》汉字的代码位置 549参考文献 743

前言

本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草.

本文件代替GB18030一2005《信息技术中文编码字符集》,与GB18030一2005相比,除结构调整和编辑性改动外,主要技术变化如下:

a)增加了本文件适用对象(见第1章);b)在双字节编码区更改了10个竖排标点和8个汉字构件所对应的GB/T13000代码位置,并删除了6个重复编码的汉字构件和9个重复编码的汉字(见附录D,2005年版的附录A);c)在四字节编码区更改了18个GB/T13000代码位置(见附录D,2005年版的附录D);d)在四字节编码0x82358F33~0x82359636部分增加了CJK统一汉字新增的66个汉字(见附录C); e)在四字节编码0x9835F738~0x98399E36部分增加了CJK统一汉字扩充C的4149个汉字(见附录C);f)在四字节编码0x98399F38~0x9839B539部分增加了CJK统一汉字扩充D的222个汉字(见附录C);g)在四字节编码0x9839B632~0x9933FE33部分增加了CJK统一汉字扩充E的5762个汉字 (见附录C);h)在四字节编码0x99348138~0x9939F730部分增加了CJK统一汉字扩充F的7473个汉字(见附录C);i)在四字节编码0x81398B32~0x8139A035部分增加了康照部首214个(见附录C);j)在四字节编码0x8134F932~0x81358437部分增加了83个西双版纳新傣文字符(见附录C); k)在四字节编码0x81358B32~0x81359933部分增加了127个西双版纳老傣文字符(见附录C);1)在四字节编码0x82369535~0x82369A32部分增加了48个镖文字符(见附录C);m)在四字节编码0x9034C538~0x9034C730部分增加了13个蒙古文BIRGA符号(见附录C);n)在四字节编码0x9232C636~0x9232D635部分增加了149个滇东北苗文字符(见附录C);o)删除了附录“追加的汉字及部首/部件"(见2005年版的附录C); p)增加了“实现的级别”一章(见第9章);q)增加了资料性附录“《通用规范汉字表》汉字的代码位置"(见附录E).请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别专利的责任.本文件由中华人民共和国工业和信息化部提出并归口.本文件及其所代替文件的历次版本发布情况为: -2000年首次发布为GB18030-2000.2005年第一次修订;本次为第二次修订.

信息技术中文编码字符集

1范围

本文件规定了信息技术用的中文图形字符及其二进制编码的十六进制表示.

本文件适用于中文和其他文字图形字符信息的处理、交换、存储、传输、显现、输人和输出.

于以输人法、光学字符识别(OCR)、编辑校对、机器翻译、语音合成、文字转写、智能写作等为代表的软 本文件适用于为具备中文和其他文字图形字符信息化处理及交换功能的技术类产品,包括但不限件产品,以及以计算机、通信终端设备、电子书阅读器、学习机等为代表的硬件产品.

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.其中,注日期的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本文件.

GB/T2312-1980信息交换用汉字编码字符集基本集GB/T11383一1989信息处理信息交换用八位代码结构和编码规则

GB/T13000信息技术通用多八位编码字符集(UCS)

3术语和定义

下列术语和定义适用于本文件.

3.2编码字符codedcharacter字符(3.1)及其编码表示.

3.3 用户自定义区private use area使用符合本文件的产品的使用者可以自行规定的区域.

3.4字汇repertoire用编码字符(3.2)集表示的一个指定的字符(3.1)集合.

3.5 保留区reserved zone留作未来本文件规定的区域.

4字汇

4.1概述

本文件收录的字符以单字节、双字节或四字节编码.

4.2单字节部分

单字节部分收录了GB/T11383-1989的0x00~0x7F全部128个字符.

4.3双字节部分

双字节部分收录了GB/T2312-1980中的全部图形字符、GB/T13000中的CJK统一汉字以及部分图形字符.双字节部分的字符按照附录A的规定,其中,表意文字描述符的图形、代码位置和功能应符合附录B的规定.

4.4四字节部分

四字节部分收录了上述双字节字符之外的GB/T13000中的66个CJK统一汉字(9FA6~9FEF,不包括9FB4~9FBB的8个字符)、CJK统一汉字扩充A、CJK统一汉字扩充B、CJK统一汉字扩充C、CJK统一汉字扩充D、CJK统一汉字扩充E、CJK统一汉字扩充F和已经在GB/T13000中编码的少数民族文字的字符.四字节部分的字符按照附录C的规定.

5总体结构

正文中凡数字前标有0x的表示采用十六进制,未标有0x的表示采用十进制.附录中凡编码的表示均采用十六进制,其他数字的表示均采用十进制.

双字节部分采用两个八位二进制位串表示一个字符,其首字节码位从0x81~0xFE,尾字节码位分别是0x40~0x7E和0x80~0xFE.

四字节部分采用GB/T11383-1989未采用的0x30~0x39作为对双字节编码扩充的后级,编码范围为0x81308130~0xFE39FE39.四字节字符的第一个字节编码范围为0x81~0xFE;第二个字节编码范围为0x30~0x39:第三个字节编码范围为0x81~0xFE:第四个字节编码范围为0x30~0x39.即:

0x81308130~0x81308139; 0x81308230~0x81308239;0x8130FE30~0x8130FE39;0x81318130~0x81318139;0x8131FE30~0x8131FE39;0x82308130~0x82308139;

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)