T/CFEII 0015.3-2023 内容安全检测人工智能系统鲁棒性测评规范第3部分：文本.pdf

文档页数：11

文档大小：1.61MB

文档格式：pdf

文档分类：团体标准

上传会员：匿名用户

上传日期：2026-05-29

最后更新：2026-05-29

内容安全检测人工智能系统鲁棒性测评规范第3部分：文本

Robustness evaluation specification for artificialintelligence systems for content security detection-Part3:Text

目次..1范围... 前2规范性引用文件，3术语和定义，4缩略语...5文本内容安全检测人工智能系统测试样本分级6文本内容安全检测人工智能系统鲁棒性分级要求7文本内容安全检测人工智能系统鲁棒性性能测评方法 7.1测试样本7.2测试流程7.3测试方法..7.4综合评价方法，附录A（资料性）违法信息和不良信息附录B（资料性）扰动方式示例参考文献.

前言

《内容安全检测人工智能系统鲁棒性测评规范》分为以下4个部分：

第1部分：图像：第2部分：视频：第4部分：音频：第3部分：文本；

本部分为《内容安全检测人工智能系统鲁棒性测评规范》的第3部分.

请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别专利的责任.

本标准由中国电子信息行业联合会提出并归口.

中移互联网有限公司、蚂蚁科技集团股份有限公司、同方知网数字出版技术股份有限公司、中科院自本标准起草单位：国家工业信息安全发展研究中心、国家语音及图像识别产品质量检验检测中心、动化所、北京信源电子信息技术有限公司吉安分公司、北京信源电子信息技术有限公司大同分公司、大同市数字政府服务中心、北京瑞莱智慧科技有限公司、中国科学院信工所、罗克佳华科技集团股份有限公司、京东科技控股股份有限公司、北京信工博特智能科技有限公司.

本标准主要起草人：朱倩倩、刘永东、李关桃、倪邦杰、王英潮、王冠麟、林冠辰、简藏玲、鲍晟霖、黄奔辉、刘雨帆、乔思渊、苏进军、韩杰、马国斌、胡嵩智、韦云霞、马多贺、琚敬成、薛学琴、侯韶君、刘宇光、狄帅、陈鹏、李阳.

内容安全检测人工智能系统鲁棒性测评规范第3部分：文本

1范围

本文件规定了用于检测文本内容安全的人工智能系统鲁棒性分级要求和性能测评方法.

性开展测试评估. 本文件适用于第三方检验检测机构、技术生产方和技术应用方对内容安全检测人工智能系统鲁棒

注：本文件对文本内容安全检测人工智能系统附带的语料库、知识库规模不做限制要求.

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.其中，注日期的引用文件，仅该日期对应的版本适用于本文件：不注日期的引用文件，其最新版本（包括的修改单）适用于本文件.

GB/T41867-2022信息技术人工智能术语

3术语和定义

GB/T41867-2022界定的以及下列术语和定义适用于本文件.

3.1

内容安全检测人工智能系统artificialintelligence systems for contentsecuritydetection

使用机器学习算法自动识别图像、视频、文本、语音中的违法信息和不良信息的系统.

注：违法信息和不良信息参考附录A

3. 2

鲁棒性robustness

人工智能系统在任何情况下都保持其性能水平的特性，攻击样本的检测准确率越高，表示系统的鲁棒性越好.

3.3

原始样本originalsample

通过对真实事物拍摄得到的测试数据.

3. 4

原始无风险样本originalsamplewithoutrisk

不包含违法信息和不良信息的测试数据.

注：原始无风险样本如风景照、日常生活照等.

3.5

原始有风险样本originalsample withrisk

包含违法信息和不良信息的测试数据.

攻击样本attacksample

原始样本通过攻击方法处理后的测试数据.

原始样本检测准确率originalsample accuracyrate

正确检测原始样本数量占已检原始样本数量的比例.

3.8

T/CFEII 0015.3-2023

攻击样本错误接受率attack samplefalseacceptancerate

错误检测攻击样本数量占已检攻击样本数量的比例.

3.9

攻击样本检测准确率attacksample accuracyrate

综合评价正确检测不同等级攻击样本的概率.

4缩略语

下列缩略语适用于本文件.OSAR：原始样本检测准确率（OriginalSample AccuracyRate） ASFAR：攻击样本错误接受率（Attack SampleFalse AcceptanceRate）ASAR：攻击样本检测准确率（Attack Sample AccuracyRate）

5文本内容安全检测人工智能系统测试样本分级

按照测试样本生成方法和数据获取的难易度，对测试样本分为5个等级.L0级原始样本指无数据攻击样本指在不能够获取系统的权重信息和推理结果，仅基于先验条件下生成的攻击样本：L3级攻击漂移的样本：L1级攻击样本指在自然条件下随机发生的变换，可能影响系统性能的攻击样本：L2级指在能够获取系统的权重信息和推理结果条件下生成的攻击样本.LI级攻击样本、L2级攻击样本和样本指在不能够获取系统的权重信息，但能获取系统推理结果条件下生成的攻击样本：L4级攻击样本L3级攻击样本对应文本内容安全检测人工智能系统鲁棒性攻击方法见表1.

注：考虑被测单位提供信息真实性对测试结果的影响，本文件在测评方法中未列入L4级攻击样本.

注：文本扰动方式示例见附录B.

表1文本内容安全检测人工智能系统鲁棒性攻击方法

攻击样本等级攻击方法攻击方法说明算法示例L1 随机变换文本在自然情况下产生的错拼、删减等 Python库变化. replace0等字符级攻击按照设定的扰动比例，选择单词内的字符进行文本扰动变化. Python 库 VIPER等按照设定的扰动比例，抽取出文本中关L2 单词级攻击键词进行文本扰动变化. TF-IDF等句子级攻击按照设定的扰动比例，选择文本中的短 NdS句进行语序调整等变化.基于优化的黑盒使用优化的对抗攻击技术对文本添加扰攻击动. 遗传算法等基于重要性的黑使用梯度或文本特性设计评分函数锁定L3 盒攻击关键词对文本添加扰动. m8inqx1基于神经网络的使用训练神经网络模型自动学习对抗样可迁移FGSM等黑盒攻击本的特征对文本添加扰动.

6文本内容安全检测人工智能系统鲁棒性分级要求

当OSAR≥95%，系统鲁棒性性能等级对应分级要求见表2.

注：系统鲁棒性性能用ASAR表示.

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成，用以平摊存储及运营成本。本站仅为用户提供资料分享平台，且会员之间资料免费共享（平台无费用分成），不提供其他经营性业务。

投稿会员：匿名用户