当前位置:主页 > 临床指南 > 文章内容

实体瘤病理数据集建设和数据标注质量控制专家意见(2019)

作者:中华医学网发布时间:2026-04-02 08:12浏览:

实体瘤病理数据集建设和数据标注质量控制专家意见(2019)精简解读

 
核心定位:国内首个病理 AI 数据规范,明确标本、团队、规则、流程、质控、疑难处理六大核心环节,为病理 AI 模型训练提供权威标注标准。
 

 

一、标本来源与伦理(基础前提)

 

1. 数据来源

 
  • 公开数据:TCGA 等公共数据库,无需重复伦理审批
  • 临床数据:三甲医院病理科存档蜡块 / 切片,必须伦理批准 + 脱敏(去姓名、病案号)
  • 标本要求
    • 肿瘤类型:肺癌、胃癌、肝癌、乳腺癌、结直肠癌等常见实体瘤
    • 质量:切片完整、无折叠、无污染、染色均匀(HE 标准)
    • 数量:每病种≥1000 例,覆盖不同分化、分期、治疗状态
     
 

2. 伦理与隐私

 
  • 签署知情同意或获伦理豁免
  • 数据匿名化处理,严禁泄露患者信息
 

 

二、标注团队组建(核心保障)

 
四级专业架构(必须严格执行):
 
  1. 标注医师:三甲医院病理科 **≥5 年阅片 **、主治 / 高年资住院医,独立发报告
  2. 审核专家副高及以上,负责抽检、修正标注错误
  3. 权威专家正高 / 学科带头人,解决疑难争议病例
  4. 技术人员:负责软件操作、图像数字化、质控技术支持
 
前置要求:全员统一培训 + 考核,熟悉标注规则与软件操作。
 

 

三、标注核心规则(关键标准)

 

1. 标注对象

 
  • 肿瘤区域:勾勒癌巢边界,区分肿瘤 / 正常 / 坏死组织
  • 细胞特征:核异型、核分裂、脉管侵犯、神经侵犯、坏死
  • 亚类标注
    • 分化程度:高 / 中 / 低分化
    • 病理亚型:如肺腺癌(贴壁 / 腺泡 / 乳头)
    • 关键指标:Ki-67 指数、PD-L1 表达、淋巴结转移状态
     
 

2. 精度要求

 
  • 轮廓精度:癌巢边缘误差≤10μm,完整勾勒
  • 分级标准:严格遵循 WHO 肿瘤分类与病理诊断规范
  • 术语统一:采用国际病理术语标准,禁止自定义名称
 

 

四、标准标注流程(五步闭环)

 
  1. 数据预处理
    • 切片扫描:40× 全视野数字化切片(WSI),格式SVS/TIFF
    • 筛选:剔除破损、染色差、模糊切片
     
  2. 标注实施
    • 工具:专业病理标注软件(如 QuPath、Aperio)
    • 方式:多边形勾勒肿瘤区域,分层标注(肿瘤、间质、正常)
     
  3. 一级审核
    • 审核专家100% 抽检,修正漏标 / 错标,** 合格率≥95%** 方可进入下一轮
     
  4. 二级复核
    • 权威专家抽检≥10%,解决争议,疑难病例会诊确认
     
  5. 数据入库
    • 标注数据与图像一一对应,建立唯一 ID 索引,加密存储
     
 

 

五、质量控制体系(核心质控指标)

 

1. 过程质控

 
  • 标注一致性:Kappa 系数 **≥0.85**(医师间一致性)
  • 准确率:肿瘤区域识别 **≥98%,细胞分型≥95%**
  • 完整率:关键特征(核分裂、脉管癌栓)无遗漏
 

2. 质控指标

 
  • 切片合格率:≥90%(排除不合格标本)
  • 标注准确率:≥95%(审核修正后)
  • 重复标注误差率:≤3%
  • 疑难病例率:≤5%(需专家会诊)
 

3. 质控方法

 
  • 双盲标注:2 名医师独立标注,不一致则专家仲裁
  • 定期复测:每月随机抽取 **5%** 数据重标,验证稳定性
  • 误差分析:记录错标类型(边界、分型、特征),持续优化规则
 

 

六、疑难病例处理方案

 
  1. 边界不清:免疫组化(CK、Vimentin)辅助区分肿瘤 / 间质
  2. 分型困难:加做分子检测(如 EGFR、HER2)或专家会诊
  3. 小样本 / 罕见癌多中心联合标注,扩大参考病例
  4. 治疗后标本:区分肿瘤残留、坏死、纤维化,结合治疗史判断
 

 

七、核心价值与意义

 
  1. 行业规范:填补国内病理 AI 数据标注空白,统一标准
  2. 模型可靠:高标注质量保障AI 诊断准确率
  3. 临床转化:助力病理 AI合规研发、注册、临床落地
 

 

八、速记要点

 
  • 团队:5 年病理医师 + 副高审核 + 正高仲裁
  • 精度:肿瘤勾勒 **≤10μm 误差 **,Kappa**≥0.85**
  • 流程:预处理→标注→双审→入库
  • 质控:准确率 **≥95%,一致性≥0.85**
  • 疑难:免疫组化 + 分子 + 专家会诊