人工智能囊胚形态评估数据集构建与质控专家共识(2024)解读
本共识由中华医学会生殖医学分会、中国食品药品检定研究院联合制定,发表于《中华生殖与避孕杂志》2024 年第 7 期,核心是建立标准化、可量化、可溯源的囊胚 AI 评估数据集全流程规范,统一数据采集、标注、质控与管理,保障 AI 模型训练的可靠性与临床适用性。
一、核心定义与适用范围
1. 核心定义
-
囊胚形态 AI 评估数据集:以体外培养囊胚显微图像为核心,含标注信息、元数据、临床信息,可被计算机处理,用于 AI 模型训练、测试、验证的数据集合。
-
标注对象:透明带、卵周隙、内细胞团(ICM)、滋养外胚层(TE)、囊胚腔、碎片、扩张程度等,依据Gardner 评分、Istanbul 共识。
2. 适用范围
-
适用于囊胚形态 AI 评估医疗器械(独立软件 / 软件组件)研发、注册、临床验证全流程。
-
覆盖静态图像、时差培养视频两类数据,含训练集、验证集、测试集构建与质控。
二、数据集构建全流程规范
1. 数据采集规范(基础质控)
(1)采集设备与参数
-
设备:时差培养箱、倒置显微镜,覆盖主流品牌 / 型号,保证设备多样性。
-
参数:固定放大倍数(200–400×)、焦距、光照强度、曝光时间,图像分辨率≥1024×768,格式为JPG/TIFF/PNG(无损优先)。
-
视频:帧率≥1 帧 / 10 分钟,时长覆盖囊胚发育关键期(D5–D6)。
(2)样本纳入与排除
-
纳入:D5–D6 人类囊胚,含优质、中等、劣质囊胚,覆盖不同扩张程度、ICM/TE 分级、碎片率。
-
排除:动物胚胎、模糊 / 过曝 / 欠曝图像、标注不全、重复数据、伦理不合规数据。
(3)临床元数据采集(必备)
-
患者信息:年龄、不孕病因、促排卵方案、受精方式(IVF/ICSI)。
-
胚胎信息:培养天数、受精时间、移植 / 冷冻结局、临床妊娠率。
-
设备信息:培养箱型号、显微镜型号、采集参数、操作人员。
(4)伦理与合规
-
必须获得伦理委员会批准,签署知情同意,去标识化处理(匿名化),符合《个人信息保护法》《医疗器械数据安全指南》。
2. 标注规范(核心质控)
(1)标注人员资质
-
核心标注:≥5 年经验的资深胚胎学家(Gardner 评分一致性 κ≥0.8)。
-
复核标注:≥2 名资深胚胎学家独立标注,不一致时第三方仲裁,最终形成金标准标注。
(2)标注内容与标准(强制统一)
-
扩张程度(1–6 级)、ICM 分级(A/B/C)、TE 分级(A/B/C)、碎片率(%)、囊胚径线、透明带厚度、是否有腔、是否冷冻。
-
标注工具:支持轮廓勾画、关键点标注、分级选择,标注结果可溯源至原始图像。
(3)标注质量要求
-
一致性:组内 κ≥0.85,组间 κ≥0.80,不合格需重新培训标注。
-
完整性:标注率 100%,无缺失项;准确性:与金标准符合率≥95%。
3. 数据集划分与规模
-
划分比例:训练集 70%、验证集 15%、测试集 15%,按囊胚分级、患者特征分层随机划分,保证分布一致。
-
最小规模:训练集≥10,000 例囊胚图像,测试集≥2,000 例,覆盖全部分级与临床场景。
三、数据集质量控制指标(可量化)
1. 数据质量核心指标
|
指标 |
定义 |
质控目标 |
|
图像合格率 |
清晰 / 无伪影 / 参数合规图像数 / 总图像数 |
≥98% |
|
标注完整率 |
标注项齐全的图像数 / 总标注图像数 |
100% |
|
标注准确率 |
与金标准一致的标注数 / 总标注数 |
≥95% |
|
标注一致性 |
组内 / 组间 κ 值 |
组内≥0.85,组间≥0.80 |
|
数据代表性 |
覆盖囊胚分级、临床特征、设备类型 |
100% 覆盖 |
|
数据合规率 |
伦理 / 去标识化 / 无重复数据数 / 总数据数 |
100% |
2. 质控流程(全生命周期)
-
采集质控:实时核查图像质量、参数、元数据完整性。
-
标注质控:预标注培训→盲标→复核→仲裁→验收。
-
数据集质控:划分后核查分布均衡性、无数据泄露。
-
定期质控:每季度抽检≥10% 数据,更新质控报告。
四、数据集管理与安全
1. 存储与溯源
-
存储:加密服务器 / 云平台,分级权限管理,备份≥2 份。
-
溯源:建立数据 ID、采集 ID、标注 ID、人员 ID全链路溯源,可追溯至原始图像与标注记录。
2. 版本与更新
-
版本管理:每次更新生成新版本,记录更新内容、时间、人员。
-
更新频率:每年至少 1 次,补充新设备、新临床场景数据,淘汰不合格数据。
3. 安全要求
-
数据传输:加密传输,防止泄露;访问:双因素认证,操作留痕;销毁:按规定流程不可逆销毁。
五、临床验证与应用要求
1. 验证数据集要求
-
独立测试集:与训练集无交叉、来源不同中心、设备不同,保证外部有效性。
-
验证指标:AI 评估与金标准符合率≥90%,κ≥0.85,临床结局预测一致性达标。
2. 临床应用边界
-
AI 为辅助工具,不能替代胚胎学家决策;仅用于形态评估,不涉及染色体 / 基因检测。
-
应用场景:胚胎筛选、质量评级、移植决策辅助,需结合临床信息综合判断。
六、共识核心要点速记
-
数据采集:设备标准化、参数固定、样本多样、伦理合规。
-
标注规范:资深专家、双盲复核、κ≥0.8、100% 完整。
-
质控指标:图像 / 标注 / 一致性 / 代表性 / 合规性全达标。
-
数据集划分:70/15/15 分层随机,规模达标。
-
管理安全:加密存储、全链路溯源、定期更新。
-
临床应用:辅助决策、不替代专家、验证达标。
七、与国际标准对比
-
本共识:更强调全流程质控、可量化指标、临床合规、溯源管理,贴合国内 AI 医疗器械注册要求。
-
国际标准:侧重标注一致性与数据集规模,对质控流程与合规要求较少。