跨队列研究数据融合质量控制要求
Quality Control Requirements of Data Fusion for Cross-cohort Study
北京慢性病防治与健康教育研究会 发布
目次
前言,1范围...2规范性引用文件3术语和定义4融合准备.4.1融合的目的. 4.2队列数据集概述.4.3数据可用性评估. 25融合中的规范.5.1清理拟融合的原始队列数据 35.2数据融合规则, 5.3根据设定的数据融合标准评估所需的变量并进行定量评分. .55.4验证融合结果, 56融合后的要求, 56.1过程记录.. 6.2确保过程的可追溯性和透明度,6.3定期评估和更新数据集,7数据安全要求.
前言
起草 本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别专利的责任.
本文件由北京大学第六医院提出,
本文件由北京慢性病防治与健康教育研究会归口.
本文件起草单位:北京大学第六医院、中国医学科学院肿瘤医院、北京大学、中国疾病预防控制中心、山东大学齐鲁医院、天津市安定医院、北京大学第一医院、中国电子技术标准化研究院.
本文件主要起草人:刘肇瑞、张婷婷、魏文强、孙可欣、陈冬雪、黄雨、陈园生、丁若溪、罗雅、吕明、徐广明、李明慧、黄悦勤、邓咏妍、张媛、李航、尹慧芳、李瑞琪、王悦、张同超、白倩倩、葛红敏、潘鹏、颜国利.
跨队列研究数据融合质量控制要求
1范围
本文件规定了跨队列研究实施过程中数据融合的质控要求等内容.列、针对某一疾病种类或基于特殊机构建立的人群队列. 本文件适用于指导拟开展跨队列研究的数据融合工作,包括但不限于社区人群队列、区城性人群队
2规范性引用文件
下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.其中,注日期的引用文件,仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本文件.
WS/T306-2023卫生健康信息数据集分类与编码规则WS363-2011卫生信息数据元目录(系列标准)WS364-2011卫生信息数据元值城代码(系列标准) WS365-2011城乡居民健康档案基本数据集WS/T370-2022卫生健康信息基本数据集编制标准WS372-2012疾病管理基本数据集 WS375-2012疾病控制基本数据集(系列标准)GB/T37973-2019信息安全技术大数据安全管理指南GB/T39725-2020信息安全技术健康医疗数据安全指南
3术语和定义
下列术语和定义适用于本文件,
3.1
根据某个或某些共同特征而组建的一组特定人群.注:特征包括:暴露因素、疾病或健康状态、出生时间或年代、地域、干预措施.
跨队列cross-cohort
队列(3.1)间进行特征数据比较、融合和分析.注:跨队列形式包括:a)横向跨队列:在不同元数据的队列间进行比较、融合和分析;b)纵向跨队列:在相同 元数据的队列间进行比较、融合和分析,
数据融合datafusion
将来自不同来源和不同格式的数据进行整合和合并.
数据集中最基本的元素,用于存储数据.
4融合准备
4.1融合的目的
性、广泛性或统计效能.
4.2队列数据集概述
4.2.1队列数据集的基本信息
根据数据的可靠性、适用性和完整性,结合数据融合的目的,确定拟融合的队列数据集,并收集相关信息,包括数据来源和研究起止日期,包括数据来源的多样性和可靠性评估,如数据来源单位、研究起止日期、负责人、经费、数据采集的起始和完成日期等.
4.2.2研究目的
明确队列数据的研究目的,明确研究内容与预期结果.
4.2.3研究背景
合在解决当前研究问题中的作用和必要性. 说明数据融合涉及的研究背景,包括研究领城、研究现状以及相关的科学或社会意义,概述数据融
4.2.4研究设计
明确队列数据的研究设计类型,包括但不限于:现况调查、诊断试验、病例对照研究、队列研究、纵向研究、实验性研究等,对于每种研究设计类型,给出相应的定义,以明确其特征、方法以及类型之间的区别和联系,根据不同的研究设计类型,记录相应的设计要素,包括抽样方法、随机方法、暴露因 素、观测指标、干预措施、结局指标等内容.
4.2.5研究对象
明确研究对象的人口学、表现等信息特征、纳人标准、排除标准以及随访的期限.随访期限应根据研究设计类型、研究目标及数据的可获取性进行合理设定,通常,随访期限应不低于数据收集的最短周期,并与研究假设相一致.
4.2.6变量
相关数据集的标准WS/T306、WS363、WS364(部分)、WS365、WS/T370、WS372.3-2012、 明确队列数据中的变量定义、数据类型、表示格式、数据单位以及取值范围,数据应符合卫生健康WS375(部分).
4.2.7样本量
根据研究目的选择样本,评估样本量是否足够满足研究要求,包括统计学检验、结果精度和效能分析.确保样本量的选择符合研究设计的总体目标.
4.3数据可用性评估
据清单、数据质量、核心变量和其他变量、队列研究信息、知情同意. 根据队列数据集的数据特征,评估拟进行数据融合的队列数据的可用性,评估内容包括但不限于数
4.3.1数据清单
创建一个清单,列出拟进行融合数据的队列数据源,包括其来源、格式、结构和可用性,从面对数据的整体情况进行全面了解,
4.3.2缺失数据
对每个数据源进行缺失数据的识别和分析.确定每个数据源中缺失数据的变量数量、比例以及缺失原因,原因包括但不限于记录不完整、人为错误、技术问题或其他因素.
4.3.3核心变量和其他变量
在研究过程中,应明确区分核心变量与其他变量:
a)评估变量的重要性:评估每个变量对研究间题的贡献,分析其是否为主要观测指标,明确哪些变量对研究目标至关重要,哪些为次要变量.b) 核心变量与其他变量的分类:确定核心变量和辅助变量,核心变量直接影响主要结果,辅助变 量对研究起到补充作用.