01|一句话读懂这篇论文
作者提出了一个名为BioMedAgent的多智能体大语言模型框架。它的目标不是简单回答问题,而是像一名“AI 数据科学家”一样,能够根据自然语言指令,自动规划分析流程、调用生物信息学工具、编写和执行代码,并在完成任务后总结结果。
更重要的是,BioMedAgent 具备一种“自进化”能力:它会把成功的工具选择、工作流和代码经验记录下来,在遇到类似问题时重新调用,从而逐步提升后续任务的完成能力。
02|为什么需要 BioMedAgent?
✦ 生物医学数据正在爆炸式增长
作者首先指出,现代生物医学研究已经进入大规模数据驱动阶段。研究人员面对的不再只是单一实验结果,而是大量复杂数据,包括:
- 基因组数据
- 转录组数据
- 单细胞 RNA 测序数据
- 医学影像数据
- 电子病历数据
- 多组学联合数据
- 临床预测和统计分析数据
这些数据能够帮助研究人员发现疾病机制、寻找生物标志物、预测治疗反应,甚至辅助临床决策。
✦ 传统分析流程门槛很高
虽然已经有很多成熟的生物信息学工具,例如用于序列比对、突变检测、单细胞分析、差异表达分析、可视化和机器学习建模的工具,但这些工具通常存在几个问题:
1. 工具种类多,学习成本高
一个完整分析流程可能需要组合多个工具,例如 BWA、GATK、Samtools、DESeq2、Seurat 等。非计算背景的研究者很难快速掌握。
2. 流程复杂,步骤容易出错
从原始数据到最终结论,中间往往需要经历质控、比对、过滤、统计检验、模型训练、可视化等多个步骤。
3. 现有平台灵活性不足
Galaxy、Nextflow、DNAnexus 等平台可以帮助用户搭建工作流,但很多流程仍然依赖预定义模板,面对开放式科研问题时不够灵活。
4. 普通 LLM Agent 还不够“懂工具”
普通大模型虽然能写代码、解释概念,但在真实生物医学数据分析中,经常难以正确调用专业工具,也难以把多个工具稳定串成完整流程。
03|作者提出的核心解决方案:BioMedAgent
✦ BioMedAgent 是什么?
BioMedAgent 是一个面向生物医学数据分析的自进化多智能体框架。
它可以接收自然语言问题,例如:
“请根据这些 FASTQ 文件识别致病突变。”
“请分析肿瘤样本和正常样本之间的差异表达基因。”
“请构建一个模型预测患者发生静脉血栓栓塞的风险。”
然后系统会自动完成:
① 理解用户需求
② 规划分析步骤
③ 选择合适工具
④ 编写代码
⑤ 执行分析
⑥ 判断是否成功
⑦ 保存成功经验
⑧ 输出总结报告
这使 BioMedAgent 不只是一个问答工具,而更接近一个能够执行真实科研任务的自动化数据分析系统。
04|BioMedAgent 的系统架构
✦ 三个核心阶段:规划、编码、执行
作者将 BioMedAgent 的工作流程设计为三个主要阶段:
① Planning:规划阶段
在规划阶段,多个智能体会共同理解用户输入的自然语言需求,并判断任务属于哪类分析。例如:
- 是 DNA-seq 分析,还是 RNA-seq 分析?
- 是单细胞分析,还是机器学习建模?
- 是统计检验,还是数据可视化?
- 需要哪些输入文件?
- 应该调用哪些工具?
- 最终应该生成什么结果?
这一阶段的目标是形成一个可执行的分析路线。
② Coding:编码阶段
在编码阶段,系统会根据规划结果生成实际可运行的代码。代码可以调用:
- 本地安装的生物信息学工具
- Python / R 包
- Web API
- 自定义生成的分析脚本
如果已有工具可以完成任务,BioMedAgent 会优先调用本地工具;如果没有现成工具,系统可以生成自定义代码补足分析步骤。
③ Execution:执行阶段
在执行阶段,系统会运行代码、调用工具并生成结果。如果执行失败,智能体会根据错误信息重新调整规划或代码,继续尝试。
这也是 BioMedAgent 与普通“只生成代码”的大模型系统的重要区别:它不仅生成方案,还会真实执行、反馈、修正和总结。
05|系统中的关键智能体
BioMedAgent 并不是由单个大模型直接完成所有工作,而是由多个具有不同职责的智能体协作完成。
✦ Requirement Analyst:需求分析者
负责理解用户输入的自然语言任务,把模糊的科研需求转化为更明确的分析目标。
例如,用户只说“分析肿瘤测序数据并推荐治疗方案”,该智能体需要判断这可能涉及:
- 肿瘤样本与正常样本比对
- 体细胞突变检测
- 突变注释
- 药物或治疗建议
✦ Tool Manager:工具管理者
这是 BioMedAgent 的关键设计之一。Tool Manager 负责维护本地工具和 Web API,并让系统知道:
- 每个工具能做什么
- 输入文件是什么格式
- 输出结果是什么
- 工具依赖哪些环境
- 应该怎样调用工具
作者强调,专业生物信息学工具往往不能靠大模型“凭空重写”。因此,BioMedAgent 的策略不是让大模型重新发明工具,而是让它学会使用已有工具。
✦ Planner:流程规划者
Planner 会把分析目标拆解成多个步骤。例如,在致病突变分析中,流程可能包括:
- 将测序 reads 比对到参考基因组
- 对 BAM 文件进行排序和去重复
- 进行碱基质量校正
- 调用突变
- 注释突变
- 判断致病性
- 生成总结报告
✦ Programmer:程序员
Programmer 负责把规划步骤转化为代码,包括 Python、R 或命令行脚本。
✦ Executor:执行者
Executor 负责真正运行代码、检查结果,并把执行反馈传回系统。如果某一步失败,系统会重新进行交互式探索和修正。
06|三个关键机制:LTU、IE、MR
这篇论文最重要的技术亮点,可以概括为三个缩写:
LTU:Local Tool Usage,本地工具使用
IE:Interactive Exploration,交互式探索
MR:Memory Retrieval,记忆检索
① LTU:让大模型真正会用专业工具
作者在 BioMedAgent 中集成了67 个专业生物信息学工具,主要覆盖组学分析、精准医学分析和机器学习任务。
这些工具显著提高了系统表现。特别是在组学分析、精准医学和机器学习任务中,使用本地工具后,成功率明显提升。
作者还区分了两种能力:
| 能力 | 含义 |
|---|---|
| LTU | 调用已有本地专业工具 |
| CTC | 当缺少现成工具时,生成自定义工具代码 |
在成功任务中,单独使用 LTU 的比例为46.25%,单独使用 CTC 的比例为28.85%,两者结合使用的比例为24.90%。
这说明,BioMedAgent 的能力不是单纯来自大模型写代码,而是来自“已有专业工具 + 自定义代码 + 多智能体协作”的组合。
② IE:通过多智能体协作提高成功率
IE 指的是Interactive Exploration,交互式探索。
作者将这个机制设计成一种类似“团队讨论和反复尝试”的过程。当系统遇到复杂任务时,不是一次性给出固定答案,而是在规划和编码阶段不断探索不同解决方案。
实验结果显示:
- 不使用 IE 时,BioMedAgent 成功率为28%
- 使用 IE 后,成功率提升到52%
- 探索次数从916 次增加到2696 次
- 约60.8%原本失败的任务,在 IE 帮助下转为成功
也就是说,IE 的价值在于:它让系统拥有更多尝试机会,从而提高复杂任务的解决概率。
③ MR:让系统从过去经验中进化
MR 指的是Memory Retrieval,记忆检索。
BioMedAgent 会把成功完成的任务记录为记忆,包括:
- 使用过的工具
- 成功的工作流
- 可复用的代码
- 分析目标与任务类型
当系统遇到新问题时,会通过语义相似度检索最相关的历史经验,并将这些经验用于新任务。
作者设计了两种记忆更新策略:
| 策略 | 含义 |
|---|---|
| CMA | Continuous Memory Accumulation,持续记忆积累,保留所有成功记录 |
| IMF | Iterative Memory Forgetting,迭代记忆遗忘,选择性删除过时或冗余记录 |
实验显示,IMF 收敛更快、稳定性更好,并且需要更少的中间记忆记录,因此更适合长期运行的系统。
通过三轮记忆学习,BioMedAgent 的整体成功率从52%提升到77%。
07|BioMed-AQA:作者构建的新基准
✦ 为什么需要新基准?
作者指出,评估生物医学 AI Agent 很困难,因为真实数据分析任务往往没有唯一答案。同一个问题可能有多种合理工作流,不同软件也可能产生格式不同但科学上等价的结果。
因此,作者构建了一个新的评估基准:
BioMed-AQA
✦ BioMed-AQA 包含什么?
BioMed-AQA 包含327 个生物医学数据分析问题,覆盖五大类别:
| 类别 | 任务方向 |
|---|---|
| O | Omics analysis,组学分析 |
| P | Precision medicine support analysis,精准医学支持分析 |
| M | Machine learning,机器学习 |
| S | Statistical analysis,统计分析 |
| V | Data visualization,数据可视化 |
这些问题进一步覆盖17 种任务类型,包括 DNA、RNA、单细胞、分类、回归、聚类、深度学习、统计检验、可视化、生存分析等。
✦ 问题类型:Clear-step 与 Open-step
作者还将任务分成两种自然语言形式:
Clear-step 问题
用户明确指定分析步骤和工具。例如:
使用 BWA 比对测序数据,使用 GATK Mutect2 调用突变,使用 vcf2maf 注释突变,并根据基因组变异推荐治疗。
Open-step 问题
用户只描述目标,不指定工具和步骤。例如:
对癌症患者测序数据进行突变分析,并推荐治疗方案。
这个设计用于测试 BioMedAgent 是否能从模糊目标中自动规划分析流程。
实验结果显示,BioMedAgent 在 clear-step 和 open-step 问题上的表现没有显著差异,说明它具备较强的自主规划能力。
✦ 数据来源
BioMed-AQA 的数据来自三类来源:
| 来源 | 比例 |
|---|---|
| 模拟数据 | 37.3% |
| 工具教程数据 | 15.9% |
| 文献来源数据 | 46.8% |
这使得该基准既包含可控的模拟任务,也包含更接近真实科研场景的数据任务。
✦ 评估方式:Win score
作者采用Win score来评估任务完成度。
一个任务会被拆成多个关键里程碑。如果系统完成所有里程碑,Win score 为1,表示成功;如果只完成部分步骤,则得到部分分数。
例如,一个任务有 4 个关键步骤,系统只完成 1 个,则 Win score 为0.25。
作者还开发了自动评分智能体,其评分结果与人工评价的一致性达到92.3%,AUC 为0.926。
此外,作者还构建了一个BioMed-AQA-MCQ子集,包含172 道选择题,用于更自动化和客观的评估。
08|整体表现:BioMedAgent 明显优于多个基线
在 BioMed-AQA 上,BioMedAgent 的整体成功率达到77%。
不同任务类别表现如下:
| 任务类别 | 成功率 |
|---|---|
| 组学分析 O | 94% |
| 精准医学 P | 78% |
| 机器学习 M | 90% |
| 统计分析 S | 59% |
| 可视化 V | 65% |
这说明 BioMedAgent 不只适用于某一种任务,而是可以覆盖较广泛的生物医学数据分析场景。
✦ 与其他 LLM Agent 的比较
作者将 BioMedAgent 与多个基线进行了比较,包括 ChatGPT、GPT Assistants、GPT Function Call 等。
主要结果包括:
- GPT Assistants 成功率为39%
- GPT Function Call 成功率为33%
- ChatGPT-4o 成功率为46%
- BioMedAgent 最终成功率为77%
- 使用 DeepSeek v3 作为底层模型时,成功率为77%
- 使用 Qwen3 作为底层模型时,成功率为75%
- 在 MCQ 子集上的准确率为76%
尤其值得注意的是,BioMedAgent 的可分析范围达到100%,而在线 ChatGPT-4o 和 GPT Assistants 的可分析范围分别为68%和65%。
09|面对不同表达方式,BioMedAgent 仍然稳健
真实用户不会总是用标准格式提问。因此,作者让三位医学专家对原始问题进行自然语言改写,再测试 BioMedAgent 的表现。
结果显示:
| 输入来源 | 成功率 |
|---|---|
| 原始 BioMed-AQA | 0.774 |
| 医学专家 1 改写 | 0.761 |
| 医学专家 2 改写 | 0.752 |
| 医学专家 3 改写 | 0.758 |
这说明 BioMedAgent 对自然语言表达变化具有较强鲁棒性。
10|外部验证:BioMedAgent 在 BixBench 上也表现稳定
为了验证系统不是只适应作者自己构建的 BioMed-AQA,作者还在外部基准BixBench上进行测试。
BixBench 包含 50 多个真实分析场景和 296 个问题,是用于评估生物信息学 Agent 的外部基准。
在不依赖领域专用工具、主要依靠自定义代码生成的情况下,BioMedAgent 仍然取得了优于 BixBench 原始基线 Agent 的结果:
| 问题类型 | BioMedAgent | BixBench baseline |
|---|---|---|
| Open questions | 49% | 37% |
| MCQs with refusal | 49% | 42% |
| MCQs without refusal | 63% | 55% |
这说明 BioMedAgent 具有一定跨基准泛化能力。
11|与其他多组学 AI Agent 的比较
作者还将 BioMedAgent 与多个已有多组学 AI Agent 进行系统比较,包括 BioChatter、AutoBA、BIA、BioMaster、OLAF、ChatGPT ADA、GenoTEX、CellAgent、CASSIA 等。
比较维度包括:
- 是否支持规划
- 是否支持编码
- 是否支持执行
- 是否支持自然语言指令
- 支持哪些任务类型
- 是否支持本地工具调用
- 是否支持自定义工具代码
- 是否为多智能体系统
- 是否具备自进化能力
- 是否有大规模基准
- 评估方式是否自动化
作者认为,BioMedAgent 的优势在于:
① 任务覆盖更广
不仅支持组学分析,还支持精准医学、机器学习、统计分析和可视化。
② 工具使用更灵活
既能调用本地工具,也能生成自定义工具代码。
③ 具备自进化机制
可以通过 MR 记忆检索持续复用成功经验。
④ 评估体系更系统
BioMed-AQA 包含开放问题和 MCQ 子集,并结合人工评分与自动评分。
12|真实应用一:非小细胞肺癌跨组学分析
作者使用 BioMedAgent 完成了一个复杂的跨组学问题:
非小细胞肺癌中高度差异表达基因主要来源于哪些细胞类型?
这个问题需要整合:
- bulk RNA-seq 数据
- 单细胞 RNA-seq 数据
- 差异表达分析
- 单细胞聚类
- marker 基因识别
- 跨组学交集分析和可视化
BioMedAgent 根据三条自然语言指令,自动完成了大规模分析流程。
✦ 主要结果
作者使用了:
- 67 个 NSCLC bulk RNA-seq 样本
- 34 个肿瘤样本
- 33 个癌旁正常样本
- 22 个 scRNA-seq 矩阵文件
BioMedAgent 识别出:
- 1831 个差异表达基因
- 其中1309 个上调
- 522 个下调
- 与 GEO2R 在线工具识别结果有78%覆盖一致性
- 识别出8 种细胞类型
- 发现 ABCC3、SERINC2、SEZ6L2 主要在上皮细胞中过表达
这表明 BioMedAgent 能够把 bulk 层面的差异基因结果进一步映射到单细胞层面的细胞来源解释中。
13|真实应用二:ctDNA 与癌症相关静脉血栓风险预测
第二个应用场景是机器学习建模。
作者让 BioMedAgent 复现一项关于循环肿瘤 DNA 与癌症相关静脉血栓栓塞风险预测的研究。
任务目标是评估 ctDNA 是否与 VTE 风险相关,并构建随机生存森林模型进行预测。
✦ BioMedAgent 自动完成的步骤
BioMedAgent 根据自然语言指令自动完成:
- 数据读取
- 模型构建
- 随机生存森林训练
- 验证集预测
- c-index 性能评估
- 多模型比较
- 结论总结
✦ 主要结果
三个模型表现如下:
| 模型 | c-index |
|---|---|
| Khorana score 模型 | 0.61 |
| LB+ 模型 | 0.73 |
| All 模型 | 0.74 |
结果显示,基于液体活检变量的模型明显优于传统 Khorana score 模型。
作者据此说明,BioMedAgent 可以帮助生物医学研究者用自然语言启动复杂机器学习建模流程,降低从临床问题到计算建模之间的技术门槛。
14|真实应用三:病理图像细胞分割与分类
第三个应用场景是病理图像分析。
病理图像中的细胞分割和分类对于病灶识别、肿瘤微环境分析和预后评估都很重要。但低分辨率图像会影响分割准确性。
作者将分辨率增强工具MiHATP v.1.0集成进 BioMedAgent 的本地工具空间,让系统自动规划:
- 数据划分
- 图像分辨率增强
- 细胞分割
- 细胞分类
- Dice 指标评估
✦ 主要结果
与 baseline 相比,BioMedAgent 在多个细胞类型上提升了 Dice 分数,包括:
- inflammatory cells
- epithelial cells
- spindle-shaped cells
- other cells
整体 Dice 绝对提升为+0.86%,同时关闭了29.9%的剩余性能差距。
这说明 BioMedAgent 不仅适用于表格型和组学数据,也可以扩展到医学图像任务。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋
📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~