尘肺病数据标注规范与质量控制专家共识(2020 年版)核心解读
本共识由中国生物医学工程学会医学人工智能分会胸部影像及职业病标准组制定,发表于《环境与职业医学》2020 年第 6 期(DOI:10.13213/j.cnki.jeom.2020.20113)。核心目标是建立尘肺病 DR 胸片 AI 标注的统一标准与质控体系,为 AI 尘肺病筛查 / 诊断模型训练提供高质量、标准化数据集,解决人工阅片效率低、一致性差的问题。
一、核心术语定义(基础框架)
|
术语 |
定义 |
|
AI 尘肺病筛查 |
基于三级及以上合格 DR 胸片,AI 模型判断是否为尘肺,用于大规模体检与医生诊断交叉验证 |
|
数据脱敏 |
对 DICOM 数据中姓名、身份证号等个人信息变形处理,保护隐私 |
|
数据清洗 |
删除重复、纠正错误,提升数据一致性 |
|
标注数据库 |
脱敏、清洗后的数据,经资质医师标注形成 |
|
训练集 / 测试集 |
标注数据库拆分,训练集≥10000 张,测试集占 10%–30% |
二、尘肺病影像学核心特征(标注依据,GBZ 70—2015)
1. 基本影像特征
-
小阴影(直径 / 宽度≤10 mm):
-
圆形:p(≤1.5 mm)、q(1.5–3 mm)、r(3–10 mm)
-
不规则:s(≤1.5 mm)、t(1.5–3 mm)、u(3–10 mm)
-
小阴影聚集:局部小阴影聚集成簇,未形成大阴影
-
大阴影:长径≥20 mm、短径>10 mm,多由小阴影聚集发展而来
-
胸膜斑:非肺尖 / 肋膈角处、厚度>5 mm 的局限性胸膜增厚 / 钙化(石棉肺特征)
2. 小阴影密集度(四大级十二小级)
-
0 级:0/-、0/0、0/1(无 / 极少)
-
1 级:1/0、1/1、1/2(一定数量)
-
2 级:2/1、2/2、2/3(多量)
-
3 级:3/2、3/3、3/+(极多)
3. 尘肺病分期(标注核心结论)
-
壹期:总体密集度 1 级,分布≥2 个肺区;或石棉肺伴胸膜斑
-
贰期:总体密集度 2 级(分布>4 肺区)或 3 级(分布≥4 肺区);或石棉肺伴广泛胸膜斑
-
叁期:出现大阴影;或总体密集度 3 级 + 小阴影聚集 / 大阴影;或石棉肺伴广泛胸膜斑累及心缘
三、数据要求(数据集构建标准)
1. 伦理与隐私
-
必须获得伦理批准 / 豁免,签订数据使用协议,严格脱敏,禁止修改原始 DICOM 数据
2. 影像质量
-
仅纳入胸片质量三级及以上DR 胸片(参考附录 A),原始 DICOM 格式、无损存储
3. 数据多样性(关键质控)
-
来源:≥10 省市、≥10 家机构,每家≥5% 样本,覆盖不同设备厂商
-
病种:覆盖 12 种法定尘肺病,矽肺 + 煤工尘肺≥85%,石棉肺≥5%
-
分期:壹期≥20%、贰期≥10%、叁期≥5%,阳性样本 35%–50%
-
鉴别:纳入肺结核、肿瘤、慢阻肺等,提升 AI 鉴别能力
4. 数据量要求
-
标注数据库:≥12000 张合格 DR 胸片
-
训练集:≥10000 张,测试集:10%–30%(分布与训练集一致)
四、标注规范(核心操作流程)
1. 标注医师资质(准入门槛)
-
主治医师及以上,持有尘肺病诊断医师资格
-
≥15 年尘肺病阅片经验,** 一致性率≥90%** 方可入选
2. 标注内容(全参数覆盖)
必须标注以下 11 项:
-
胸片质量(1–4 级)
-
小阴影形态(如 p/q、s/t)
-
6 个肺区小阴影密集度(十二小级)
-
病变范围(≥0/1 的肺区数)
-
总体密集度(0–3 级)
-
小阴影聚集(有无 + 肺区)
-
大阴影(有无 + 肺区)
-
胸膜斑(有无)
-
心影蓬乱(石棉肺叁期特征)
-
附加符号(如 tb = 结核、em = 肺气肿)
-
最终诊断(无尘肺 / 壹 / 贰 / 叁期 / 非尘肺阳性 / 不做诊断)
3. 标注流程与一致性控制
-
流程:分组交叉标注→多轮一致性评定→仲裁(专家会诊)→最终入库
-
一致性要求:尘肺异常标注一致性率 **≥88%,分期一致性率≥84.68%**
-
读片要求:≥300 万像素医学灰阶屏,全程对照标准片,每 1–1.5 小时休息一次
五、质量控制体系(全流程质控)
1. 数据质控
-
入库前:脱敏、清洗、质量分级,仅三级及以上纳入
-
多样性:按来源、病种、分期、鉴别诊断分层抽样,避免偏倚
2. 标注质控
-
医师准入:** 一致性率≥90%** 方可参与标注
-
过程质控:双盲交叉标注 + 多轮迭代,不一致病例专家仲裁
-
结果质控:最终标注一致性率 **≥90%** 方可入库
3. 数据集质控
-
训练 / 测试集独立、分布一致,无数据泄露
-
定期更新:随 GBZ 70 与 AI 技术迭代更新标注规则
六、临床与 AI 应用价值
-
AI 模型训练:提供标准化、高质量标注数据,提升模型准确性、一致性、泛化能力
-
大规模筛查:AI 辅助阅片,效率提升 10 倍以上,降低漏诊 / 误诊
-
质量控制:统一标注标准,解决不同机构、医师阅片差异问题
-
科研支撑:为尘肺病 AI 诊断、流行病学研究提供可靠数据基础
七、核心要点速记
-
数据门槛:三级及以上 DR 胸片、≥12000 张、矽肺 + 煤工尘肺≥85%
-
标注医师:15 年 + 经验、一致性率≥90%、双盲交叉标注
-
标注核心:小阴影(形态 / 密集度 / 分布)、大阴影、胸膜斑、分期、附加符号
-
质控底线:一致性率≥88%–90%,数据集分层抽样、无偏倚