药明生物基于开源大模型微调的 NLP 工具主要是基于 Meta Llama 3 等开源框架进行微调的12。这些工具在药物研发中有着重要作用,具体如下1:
-
精准筛选患者亚群:可以分析全球 10 万 + 电子健康记录(EHR)与文献数据,结合药明自研的临床表型图谱模型,在某自身免疫病药物的 III 期临床试验中,使入组时间缩短 45%,试验总成本减少 3000 万美元,试验结果显示亚组患者有效率提升 28%(p<0.001)。
-
合规文档生成:能将实验数据自动转化为申报文件(FDA/EMA 格式),提高了文档生成的效率和准确性,有助于药物研发过程中的合规性管理。
此外,药明生物还可能基于 Hugging Face BERT 等开源框架进行微调,用于生物信息相关的任务,例如从大量生物医学文献中提取关键信息、进行疾病 - 基因关联研究、找出潜在药物靶点及药物相互作用等25。药明生物参与优化的生物信息工具已开源至 GitHub,如非编码 RNA 分析工具包2。