中华人民共和国国家标准
GB/T 34798-2017
核酸数据库序列格式规范
Formats specifications of nucleotide sequence database
中国国家标准化管理委员会 中华人民共和国国家质量监督检验检疫总局 发布
目次
前言2规范性引用文件3术语和定义4缩略语.5核酸序列格式规范制定的总则6核酸序列描述规范 .8核酸序列格式规范 7核酸序列特征描述规范9核酸序列文件整体格式规范附录A(资料性附录)核苷酸含义表附录B(资料性附录)与核酸相关的特征关键词表附录C(资料性附录)密码子表“ 10附录D(资料性附录)修饰碱基表 11附录E(资料性附录)限定词中英文对照表 13附录F(资料性附录)核酸序列文件样例 14附录G(资料性附录)行首大写字母含义表 15参考文献 16
前言
本标准按照GB/T1.1-2009给出的规则起草.
本标准由全国生化检测标准化技术委员会(SAC/TC387)提出并归口.
品质量监督检验研究院. 本标准起草单位:深圳华大基因研究院、深圳华大基因科技有限公司、广东省标准化研究院、广东产
本标准主要起草人:魏晓锋、陈风珍、刘克、杜佳婷、李倩一、沈维燕、李启沅、谢强、王娟、谭嘉力、宋祚银、黄江勇.
核酸数据库序列格式规范
1范围
本标准规定了核酸数据库的序列格式,包括生物体基因组核酸序列特征规范制定的总则、序列描述格式规范、序列特征描述规范和序列格式规范等.
本标准适用于生物体基因组核酸数据库序列文件的编写.
2规范性引用文件
件,凡是不注日期的引用文件,其最新版本(包括的修改单)适用于本文件. 下列文件对于本文件的应用是必不可少的.凡是注日期的引用文件,仅注日期的版本适用于本文
GB/T29859生物信息学术语
ZC0003核昔酸和/或氨基酸序列表和序列表电子文件标准
3术语和定义
GB/T29859界定的以及下列术语和定义适用于本文件.
核酸数据库nucleic aciddatabase
以核酸序列为基本内容,并附有核酸序列注释信息的数据库.
3.2编码序列coding sequence
编码一段蛋白产物的序列,始于起始密码子,终于终止密码子.
序列组装sequence assembly
基因组长序列打断之后形成较短的序列,通过算法和计算机的帮助,把这些短的序列组装起来成为一条完整有序的序列的过程.
甲基化methylation
蛋白质和核酸的一种重要的修饰,调节基因的表达和关闭.
3.5识别码identifier某个体系中相对唯一的编码.
一个或一段碱基在另一段较长碱基上的相对坐标位置.
3.7特征限定词feature qualifier
用来进一步描述序列的某一类特征的词.
修饰碱基modified base
核酸中主要碱基(腺嘌呤、鸟原呤、尿嘧啶、胞嘧啶等)的修饰化合物,核酸转录之后经甲基化、乙酰化、氢化、氯化以及硫化面成,多半是主要碱基的甲基衍生物.
4缩略语
下列缩略语适用于本文件.CDS:编码序列(coding sequence) DDBJ:日本核酸数据库(DNA data bank of Japan)EMBL:欧洲分子生物学实验室(european molecular biology laboratory))HIV:人类免疫缺陷病毒(human immunodeficiency virus)ID:识别码(identifier)Medline:医学文戴资料库(medlars on line) NCBl:美国国立生物技术信息中心(national center for biotechnology information)RNA:核糖核酸(ribonucleic acid)UTR:非翻译区(untranslated regions)
5核酸序列格式规范制定的总则
5.1核酸序列文件应能够与NCBI、EMBL、DDBJ等数据库进行共享.5.2核酸序列特征描述具有准确性、清晰性、简洁性和明确性,参见GB/T29859.5.3核酸序列特征内容具有实用性.
6核酸序列描述规范
6.1序列名称
序列名称应符合以下要求:
b)序列的物种名称命名参考林奈的《自然系统》一书中的生物学命名方式: a)序列名称应为简短的序列描述,包含序列的物种名、基因或蛋白名称及序列功能的简单描述;c)除人类免疫缺陷病毒可用HIV1和HIV2表示,其他种属应给出属和种的全名,不宜使用通用名如(human)或属名缩写(如代表Homo sapiens 的H.sapiens).
6.2序列编号
序列编号应保证一个序列号码对应一个核酸序列,具有唯一性.序列编号由两个字母加下划线加123456),蛋白序列字母为NP(如NP_123456),整个染色体、质粒等的基因组序列为NC(如NC_据库中已经存在,序列将不能被提交. 123456).提交一个新的序列会系统产生一个新的序列编号,为保证序列的唯一性,当提交的序列在数
6.3序列版本号
序列的版本号是由序列编号加一个点号加版本号(如序列编号.版本号,NM_123456.1),当一个序列改变,相应的版本号加1.