当前位置:主页 > 临床指南 > 文章内容

人工智能囊胚形态评估数据集构建与质控专家共识

作者:中华医学网发布时间:2026-03-18 08:06浏览:

人工智能囊胚形态评估数据集构建与质控专家共识(2024)解读

 
本共识由中华医学会生殖医学分会、中国食品药品检定研究院联合制定,发表于《中华生殖与避孕杂志》2024 年第 7 期,核心是建立标准化、可量化、可溯源的囊胚 AI 评估数据集全流程规范,统一数据采集、标注、质控与管理,保障 AI 模型训练的可靠性与临床适用性。
 

 

一、核心定义与适用范围

 

1. 核心定义

 
  • 囊胚形态 AI 评估数据集:以体外培养囊胚显微图像为核心,含标注信息、元数据、临床信息,可被计算机处理,用于 AI 模型训练、测试、验证的数据集合。
  • 标注对象:透明带、卵周隙、内细胞团(ICM)、滋养外胚层(TE)、囊胚腔、碎片、扩张程度等,依据Gardner 评分、Istanbul 共识
 

2. 适用范围

 
  • 适用于囊胚形态 AI 评估医疗器械(独立软件 / 软件组件)研发、注册、临床验证全流程。
  • 覆盖静态图像、时差培养视频两类数据,含训练集、验证集、测试集构建与质控。
 

 

二、数据集构建全流程规范

 

1. 数据采集规范(基础质控)

 

(1)采集设备与参数

 
  • 设备:时差培养箱、倒置显微镜,覆盖主流品牌 / 型号,保证设备多样性。
  • 参数:固定放大倍数(200–400×)、焦距、光照强度、曝光时间,图像分辨率≥1024×768,格式为JPG/TIFF/PNG(无损优先)。
  • 视频:帧率≥1 帧 / 10 分钟,时长覆盖囊胚发育关键期(D5–D6)。
 

(2)样本纳入与排除

 
  • 纳入:D5–D6 人类囊胚,含优质、中等、劣质囊胚,覆盖不同扩张程度、ICM/TE 分级、碎片率。
  • 排除:动物胚胎、模糊 / 过曝 / 欠曝图像、标注不全、重复数据、伦理不合规数据
 

(3)临床元数据采集(必备)

 
  • 患者信息:年龄、不孕病因、促排卵方案、受精方式(IVF/ICSI)。
  • 胚胎信息:培养天数、受精时间、移植 / 冷冻结局、临床妊娠率。
  • 设备信息:培养箱型号、显微镜型号、采集参数、操作人员。
 

(4)伦理与合规

 
  • 必须获得伦理委员会批准,签署知情同意,去标识化处理(匿名化),符合《个人信息保护法》《医疗器械数据安全指南》。
 

2. 标注规范(核心质控)

 

(1)标注人员资质

 
  • 核心标注:≥5 年经验的资深胚胎学家(Gardner 评分一致性 κ≥0.8)。
  • 复核标注:≥2 名资深胚胎学家独立标注,不一致时第三方仲裁,最终形成金标准标注
 

(2)标注内容与标准(强制统一)

 
  • 扩张程度(1–6 级)、ICM 分级(A/B/C)、TE 分级(A/B/C)、碎片率(%)、囊胚径线、透明带厚度、是否有腔、是否冷冻。
  • 标注工具:支持轮廓勾画、关键点标注、分级选择,标注结果可溯源至原始图像。
 

(3)标注质量要求

 
  • 一致性:组内 κ≥0.85,组间 κ≥0.80,不合格需重新培训标注。
  • 完整性:标注率 100%,无缺失项;准确性:与金标准符合率≥95%。
 

3. 数据集划分与规模

 
  • 划分比例:训练集 70%、验证集 15%、测试集 15%,按囊胚分级、患者特征分层随机划分,保证分布一致。
  • 最小规模:训练集≥10,000 例囊胚图像,测试集≥2,000 例,覆盖全部分级与临床场景。
 

 

三、数据集质量控制指标(可量化)

 

1. 数据质量核心指标

 
表格
指标 定义 质控目标
图像合格率 清晰 / 无伪影 / 参数合规图像数 / 总图像数 ≥98%
标注完整率 标注项齐全的图像数 / 总标注图像数 100%
标注准确率 与金标准一致的标注数 / 总标注数 ≥95%
标注一致性 组内 / 组间 κ 值 组内≥0.85,组间≥0.80
数据代表性 覆盖囊胚分级、临床特征、设备类型 100% 覆盖
数据合规率 伦理 / 去标识化 / 无重复数据数 / 总数据数 100%
 

2. 质控流程(全生命周期)

 
  1. 采集质控:实时核查图像质量、参数、元数据完整性。
  2. 标注质控:预标注培训→盲标→复核→仲裁→验收。
  3. 数据集质控:划分后核查分布均衡性、无数据泄露。
  4. 定期质控:每季度抽检≥10% 数据,更新质控报告。
 

 

四、数据集管理与安全

 

1. 存储与溯源

 
  • 存储:加密服务器 / 云平台,分级权限管理,备份≥2 份。
  • 溯源:建立数据 ID、采集 ID、标注 ID、人员 ID全链路溯源,可追溯至原始图像与标注记录。
 

2. 版本与更新

 
  • 版本管理:每次更新生成新版本,记录更新内容、时间、人员。
  • 更新频率:每年至少 1 次,补充新设备、新临床场景数据,淘汰不合格数据。
 

3. 安全要求

 
  • 数据传输:加密传输,防止泄露;访问:双因素认证,操作留痕;销毁:按规定流程不可逆销毁。
 

 

五、临床验证与应用要求

 

1. 验证数据集要求

 
  • 独立测试集:与训练集无交叉、来源不同中心、设备不同,保证外部有效性。
  • 验证指标:AI 评估与金标准符合率≥90%,κ≥0.85,临床结局预测一致性达标。
 

2. 临床应用边界

 
  • AI 为辅助工具,不能替代胚胎学家决策;仅用于形态评估,不涉及染色体 / 基因检测。
  • 应用场景:胚胎筛选、质量评级、移植决策辅助,需结合临床信息综合判断。
 

 

六、共识核心要点速记

 
  1. 数据采集:设备标准化、参数固定、样本多样、伦理合规。
  2. 标注规范:资深专家、双盲复核、κ≥0.8、100% 完整。
  3. 质控指标:图像 / 标注 / 一致性 / 代表性 / 合规性全达标。
  4. 数据集划分:70/15/15 分层随机,规模达标。
  5. 管理安全:加密存储、全链路溯源、定期更新。
  6. 临床应用:辅助决策、不替代专家、验证达标。
 

 

七、与国际标准对比

 
  • 本共识:更强调全流程质控、可量化指标、临床合规、溯源管理,贴合国内 AI 医疗器械注册要求。
  • 国际标准:侧重标注一致性与数据集规模,对质控流程与合规要求较少。