Robustness evaluation specification for artificialintelligence systems for content security detection-Part3:Text
目次
目次..1范围... 前2规范性引用文件,3术语和定义,4缩略语...5文本内容安全检测人工智能系统测试样本分级6文本内容安全检测人工智能系统鲁棒性分级要求7文本内容安全检测人工智能系统鲁棒性性能测评方法 7.1测试样本7.2测试流程7.3测试方法..7.4综合评价方法,附录A(资料性)违法信息和不良信息 附录B(资料性)扰动方式示例参考文献.
前言
《内容安全检测人工智能系统鲁棒性测评规范》分为以下4个部分:
第1部分:图像:第2部分:视频:第4部分:音频: 第3部分:文本;
本部分为《内容安全检测人工智能系统鲁棒性测评规范》的第3部分.
请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别专利的责任.
本标准由中国电子信息行业联合会提出并归口.
中移互联网有限公司、蚂蚁科技集团股份有限公司、同方知网数字出版技术股份有限公司、中科院自 本标准起草单位:国家工业信息安全发展研究中心、国家语音及图像识别产品质量检验检测中心、动化所、北京信源电子信息技术有限公司吉安分公司、北京信源电子信息技术有限公司大同分公司、大同市数字政府服务中心、北京瑞莱智慧科技有限公司、中国科学院信工所、罗克佳华科技集团股份 有限公司、京东科技控股股份有限公司、北京信工博特智能科技有限公司.
本标准主要起草人:朱倩倩、刘永东、李关桃、倪邦杰、王英潮、王冠麟、林冠辰、简藏玲、鲍晟霖、黄奔辉、刘雨帆、乔思渊、苏进军、韩杰、马国斌、胡嵩智、韦云霞、马多贺、琚敬成、薛学琴、侯韶君、刘宇光、狄帅、陈鹏、李阳.
内容安全检测人工智能系统鲁棒性测评规范第3部分:文本
1范围
本文件规定了用于检测文本内容安全的人工智能系统鲁棒性分级要求和性能测评方法.
性开展测试评估. 本文件适用于第三方检验检测机构、技术生产方和技术应用方对内容安全检测人工智能系统鲁棒
注:本文件对文本内容安全检测人工智能系统附带的语料库、知识库规模不做限制要求.
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.其中,注日期的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适 用于本文件.
GB/T41867-2022信息技术人工智能术语
3术语和定义
GB/T41867-2022界定的以及下列术语和定义适用于本文件.
3.1
内容安全检测人工智能系统artificialintelligence systems for contentsecuritydetection
使用机器学习算法自动识别图像、视频、文本、语音中的违法信息和不良信息的系统.
注:违法信息和不良信息参考附录A
3. 2
鲁棒性robustness
人工智能系统在任何情况下都保持其性能水平的特性,攻击样本的检测准确率越高,表示系统的鲁棒性越好.
3.3
原始样本originalsample
通过对真实事物拍摄得到的测试数据.
3. 4
原始无风险样本originalsamplewithoutrisk
不包含违法信息和不良信息的测试数据.
注:原始无风险样本如风景照、日常生活照等.
3.5
原始有风险样本originalsample withrisk
包含违法信息和不良信息的测试数据.
攻击样本attacksample
原始样本通过攻击方法处理后的测试数据.
原始样本检测准确率originalsample accuracyrate
正确检测原始样本数量占已检原始样本数量的比例.
3.8
T/CFEII 0015.3-2023
攻击样本错误接受率attack samplefalseacceptancerate
错误检测攻击样本数量占已检攻击样本数量的比例.
3.9
攻击样本检测准确率attacksample accuracyrate
综合评价正确检测不同等级攻击样本的概率.
4缩略语
下列缩略语适用于本文件.OSAR:原始样本检测准确率(OriginalSample AccuracyRate) ASFAR:攻击样本错误接受率(Attack SampleFalse AcceptanceRate)ASAR:攻击样本检测准确率(Attack Sample AccuracyRate)
5文本内容安全检测人工智能系统测试样本分级
按照测试样本生成方法和数据获取的难易度,对测试样本分为5个等级.L0级原始样本指无数据攻击样本指在不能够获取系统的权重信息和推理结果,仅基于先验条件下生成的攻击样本:L3级攻击 漂移的样本:L1级攻击样本指在自然条件下随机发生的变换,可能影响系统性能的攻击样本:L2级指在能够获取系统的权重信息和推理结果条件下生成的攻击样本.LI级攻击样本、L2级攻击样本和 样本指在不能够获取系统的权重信息,但能获取系统推理结果条件下生成的攻击样本:L4级攻击样本L3级攻击样本对应文本内容安全检测人工智能系统鲁棒性攻击方法见表1.
注:考虑被测单位提供信息真实性对测试结果的影响,本文件在测评方法中未列入L4级攻击样本.
注:文本扰动方式示例见附录B.
表1文本内容安全检测人工智能系统鲁棒性攻击方法
攻击样本等级 攻击方法 攻击方法说明 算法示例L1 随机变换 文本在自然情况下产生的错拼、删减等 Python库变化. replace0等字符级攻击 按照设定的扰动比例,选择单词内的字 符进行文本扰动变化. Python 库 VIPER等按照设定的扰动比例,抽取出文本中关L2 单词级攻击 键词进行文本扰动变化. TF-IDF等句子级攻击 按照设定的扰动比例,选择文本中的短 NdS句进行语序调整等变化.基于优化的黑盒使用优化的对抗攻击技术对文本添加扰 攻击 动. 遗传算法等基于重要性的黑使用梯度或文本特性设计评分函数锁定L3 盒攻击 关键词对文本添加扰动. m8inqx1基于神经网络的使用训练神经网络模型自动学习对抗样 可迁移FGSM等黑盒攻击 本的特征对文本添加扰动.
6文本内容安全检测人工智能系统鲁棒性分级要求
当OSAR≥95%,系统鲁棒性性能等级对应分级要求见表2.
注:系统鲁棒性性能用ASAR表示.