GB/T 38548.5-2020
内容资源数字化加工 第5部分:质量控制
1范围 GB/T38548的本部分规定了内容资源数字化加工的质量控制对象、质量要求、质量检测和质量评 定的方法等。
本部分适用于内容资源数字化的质量控制和管理。
2术语和定义 下列术语和定义适用于本文件。
2.1 差错error 算出的、观察的或测量的值或状况,与真的、规定的或理论上正确的值或状况之间的差异。
[GB/T 38548.1-2020,定义 5.17] 2.2 版式文件fixed-layout document 排版后生成的,包含版面固化呈现需要的全部数据的一种文件。
[GB/T 38548.1-2020,定义5.10] 2.3 流式文件reflowing document 按照内容逻辑顺序,内容呈现可适应终端设备屏幕或窗口变化的一种文件。
[GB/T 38548.1-2020,定义5.11] 3质量控制对象 内容资源数字化加工质量控制对象包括: a)文本文件; b)图像文件; c)版式文件; d)结构化文件; e)流式文件: f)音频文件; g)视频文件。
4质量要求 4.1完整性要求 4.1.1类型完整 加工结果数据的文件类型应与内容资源数字化加工目标的要求保持一致,不允许出现缺漏和错误。
GB/T 38548.5-2020
4.1.2内容完整 加工结果数据的内容范围与数量应与内容资源数字化加工目标的要求保持一致,不允许出现缺漏 和乱序等错误。
4.1.3文档完整 加工结果数据质量管理文档应至少包括: a)质量检测方案; b)质量检测报告。
4.2规范性要求 4.2.1存储格式要求 加工结果数据的数据存储文件格式和存储参数应与内容资源数字化加工的要求保持一致,加工结 果数据的数据存储文件常用格式见表1。
表1加工结果数据的数据存储文件常用格式 序号文件类型面向长期保存采用格式面向发布应用采用格式 1文本文件TXT,XML HTML 2图像文件TIFF JEPG 3版式文件PDF PDF 4 结构化文件XML XML 5流式文件EPUB EPUB 6音频文件BWF,WAV MP3,AAC 7视频文件AVI MP4
4.2.2数据文件命名 加工结果数据的命名应与内容资源数字化加工要求一致,命名方式建议为:由数据类型的类别信息 与内容资源的ID信息组合构成。
示例:01-9787501346950(01为数据类型编码) 4.2.3数据存储 加工结果数据的存储应以与内容资源数字化加工的要求保持一致,通常以加工对象基本单位为存 储文件夹,其下分类存储此加工对象的各类加工结果数据,存储目录结构示例见图1。
GB/T 38548.5-2020
(文件夹)资源唯一标识符
图像数据图像文件
结构化数据XML文件
对象数据文件 版式数据PDF文作
流式数据Epb文择
各频数据音频文件
视频数据视频文件
图1加工结果数据存储目录结构示例
4.3有效性要求 加工结果数据应能通过相关软件及系统读出,不应出现数据损坏、异常报错、无法打开等错误。
读 出的数据应完整,不允许出现编码混乱、图像失真等无法使用的错误。
4.4准确性要求 加工结果数据的质量准确性应与内容资源数字化加工的要求保持一致,包括: a)文字准确; b)标引准确。
5质量检测 5.1检测原则 5.1.1定性原则 规范性和有效性应满足内容资源数字化加工的定性指标要求。
5.1.2定量原则 完整性和准确性应满足内容资源数字化加工的定量指标要求。
GB/T 38548.5-2020
5.2检测范围 检测范围应包括加工结果数据的全部文件及成品交付相关管理文档。
5.3检测方法 5.3.1点验 内容资源数字化加工中完整性要求,进行定量检验的方法。
应根据要求逐一清点加工结果数据各 类型文件提交的数量是否满足要求。
点验可采用计算机程序自动批处理检验或人工检验的方式。
5.3.2批处理数据校验 针对内容资源数字化加工中规范性要求,进行定性检验的方法。
按照质量要求,对成本数据进行匹 配性检验,批处理校验宜采用计算机程序辅助进行。
5.3.3应用环境模拟校验 内容资源数字化加工中有效性要求,进行定性检测的方法。
对不同类型的加工结果数据可采用相 应的计算机程序或应用系统,进行加载、人库以确定内容是否有效。
5.3.4抽样检测 针对内容资源数字化加工中准确性要求,进行定量检测的方法。
按照一定的比例从交付的加工结 nc果数据中随机抽取数据样本并根据准确性要求进行检测。
抽样检测一般采用人工检验或计算机程序 辅助检验的方法。
5.4检测工作 加工结果数据质量检测工作宜分批进行并在接收数据后规定时间内完成。
5.5完整性检测 5.5.1加工结果数据数量 通过点验方式,核对提交的加工结果数据是否与加工资源所要求的数量一致。
5.5.2加工结果数据类型 通过点验的方式,核对加工结果数据类型是否正确且齐全,包括内容结构化数据、版式数据、流式数 据、对象数据和管理文档等。
5.6规范性检测 5.6.1文件格式及版本 通过批处理校验的方式,检测加工结果数据中各类文件的文件格式及版本是否与要求一致。
5.6.2文件参数 通过批处理校验的方式,检测加工结果数据中各类文件的相关参数是否与要求一致,如图像分辨 率、PDF压缩算法、字符集编码等。
GB/T38548.5-2020
5.6.3内客结构 通过批处理校验的方式,检测加工结果数据中内容结构化数据的结构规范是否与要求一致。
5.7有效性检测 5.7.1文件有效性 通过批处理校验方式,检测加工结果数据中各类文件是否损坏。
5.7.2应用有效性 通过应用环境模拟的方式,检测加工结果数据在应用环境中是否有效。
5.8准确性检测 5.8.1检测点分布 加工结果数据中各类文件的准确性检测点分布见表2. 表2检测点分布 文件类型文字图像结构化链接样式语音 结构化文件-- 版式文件< 流式文件<< 音颜文件 视颜文件 注:√表示必选;一表示不可选。
5.8.2检测取样 检测取样比率,是指从一个检测批次中随机提取的检测样本的数量与该检测批次总数量的比值。
通常情况下,加工结果数据中各类文件的准确性检测点在不同文件类型中取样比率应不低于表3 中的数值。
表3检测点取样比率 文件类型文字图像结构化链接样式语音 结构化文件5%50%30%- 版式文件5%20%30%20% 流式文件5%20%30%20%- 音颜文件5%-20% 视频文件5%20%20% 注:一表示不可选。
...