实体瘤病理数据集建设和数据标注质量控制专家意见(2019)精简解读
核心定位:国内首个病理 AI 数据规范,明确标本、团队、规则、流程、质控、疑难处理六大核心环节,为病理 AI 模型训练提供权威标注标准。
一、标本来源与伦理(基础前提)
1. 数据来源
-
公开数据:TCGA 等公共数据库,无需重复伦理审批
-
临床数据:三甲医院病理科存档蜡块 / 切片,必须伦理批准 + 脱敏(去姓名、病案号)
-
标本要求:
-
肿瘤类型:肺癌、胃癌、肝癌、乳腺癌、结直肠癌等常见实体瘤
-
质量:切片完整、无折叠、无污染、染色均匀(HE 标准)
-
数量:每病种≥1000 例,覆盖不同分化、分期、治疗状态
2. 伦理与隐私
-
签署知情同意或获伦理豁免
-
数据匿名化处理,严禁泄露患者信息
二、标注团队组建(核心保障)
四级专业架构(必须严格执行):
-
标注医师:三甲医院病理科 **≥5 年阅片 **、主治 / 高年资住院医,独立发报告
-
审核专家:副高及以上,负责抽检、修正标注错误
-
权威专家:正高 / 学科带头人,解决疑难争议病例
-
技术人员:负责软件操作、图像数字化、质控技术支持
前置要求:全员统一培训 + 考核,熟悉标注规则与软件操作。
三、标注核心规则(关键标准)
1. 标注对象
-
肿瘤区域:勾勒癌巢边界,区分肿瘤 / 正常 / 坏死组织
-
细胞特征:核异型、核分裂、脉管侵犯、神经侵犯、坏死
-
亚类标注:
-
分化程度:高 / 中 / 低分化
-
病理亚型:如肺腺癌(贴壁 / 腺泡 / 乳头)
-
关键指标:Ki-67 指数、PD-L1 表达、淋巴结转移状态
2. 精度要求
-
轮廓精度:癌巢边缘误差≤10μm,完整勾勒
-
分级标准:严格遵循 WHO 肿瘤分类与病理诊断规范
-
术语统一:采用国际病理术语标准,禁止自定义名称
四、标准标注流程(五步闭环)
-
数据预处理
-
切片扫描:40× 全视野数字化切片(WSI),格式SVS/TIFF
-
筛选:剔除破损、染色差、模糊切片
-
标注实施
-
工具:专业病理标注软件(如 QuPath、Aperio)
-
方式:多边形勾勒肿瘤区域,分层标注(肿瘤、间质、正常)
-
一级审核
-
审核专家100% 抽检,修正漏标 / 错标,** 合格率≥95%** 方可进入下一轮
-
二级复核
-
数据入库
-
标注数据与图像一一对应,建立唯一 ID 索引,加密存储
五、质量控制体系(核心质控指标)
1. 过程质控
-
标注一致性:Kappa 系数 **≥0.85**(医师间一致性)
-
准确率:肿瘤区域识别 **≥98%,细胞分型≥95%**
-
完整率:关键特征(核分裂、脉管癌栓)无遗漏
2. 质控指标
-
切片合格率:≥90%(排除不合格标本)
-
标注准确率:≥95%(审核修正后)
-
重复标注误差率:≤3%
-
疑难病例率:≤5%(需专家会诊)
3. 质控方法
-
双盲标注:2 名医师独立标注,不一致则专家仲裁
-
定期复测:每月随机抽取 **5%** 数据重标,验证稳定性
-
误差分析:记录错标类型(边界、分型、特征),持续优化规则
六、疑难病例处理方案
-
边界不清:免疫组化(CK、Vimentin)辅助区分肿瘤 / 间质
-
分型困难:加做分子检测(如 EGFR、HER2)或专家会诊
-
小样本 / 罕见癌:多中心联合标注,扩大参考病例
-
治疗后标本:区分肿瘤残留、坏死、纤维化,结合治疗史判断
七、核心价值与意义
-
行业规范:填补国内病理 AI 数据标注空白,统一标准
-
模型可靠:高标注质量保障AI 诊断准确率
-
临床转化:助力病理 AI合规研发、注册、临床落地
八、速记要点
-
团队:5 年病理医师 + 副高审核 + 正高仲裁
-
精度:肿瘤勾勒 **≤10μm 误差 **,Kappa**≥0.85**
-
流程:预处理→标注→双审→入库
-
质控:准确率 **≥95%,一致性≥0.85**
-
疑难:免疫组化 + 分子 + 专家会诊