大语言模型+agent 赋能AI 科研助手再次进化：从“会聊天”到“会做生物医学分析”-迪斯科星球

01｜一句话读懂这篇论文

作者提出了一个名为BioMedAgent的多智能体大语言模型框架。它的目标不是简单回答问题，而是像一名“AI 数据科学家”一样，能够根据自然语言指令，自动规划分析流程、调用生物信息学工具、编写和执行代码，并在完成任务后总结结果。

更重要的是，BioMedAgent 具备一种“自进化”能力：它会把成功的工具选择、工作流和代码经验记录下来，在遇到类似问题时重新调用，从而逐步提升后续任务的完成能力。

02｜为什么需要 BioMedAgent？

✦ 生物医学数据正在爆炸式增长

作者首先指出，现代生物医学研究已经进入大规模数据驱动阶段。研究人员面对的不再只是单一实验结果，而是大量复杂数据，包括：

基因组数据
转录组数据
单细胞 RNA 测序数据
医学影像数据
电子病历数据
多组学联合数据
临床预测和统计分析数据

这些数据能够帮助研究人员发现疾病机制、寻找生物标志物、预测治疗反应，甚至辅助临床决策。

✦ 传统分析流程门槛很高

虽然已经有很多成熟的生物信息学工具，例如用于序列比对、突变检测、单细胞分析、差异表达分析、可视化和机器学习建模的工具，但这些工具通常存在几个问题：

1. 工具种类多，学习成本高

一个完整分析流程可能需要组合多个工具，例如 BWA、GATK、Samtools、DESeq2、Seurat 等。非计算背景的研究者很难快速掌握。

2. 流程复杂，步骤容易出错

从原始数据到最终结论，中间往往需要经历质控、比对、过滤、统计检验、模型训练、可视化等多个步骤。

3. 现有平台灵活性不足

Galaxy、Nextflow、DNAnexus 等平台可以帮助用户搭建工作流，但很多流程仍然依赖预定义模板，面对开放式科研问题时不够灵活。

4. 普通 LLM Agent 还不够“懂工具”

普通大模型虽然能写代码、解释概念，但在真实生物医学数据分析中，经常难以正确调用专业工具，也难以把多个工具稳定串成完整流程。

03｜作者提出的核心解决方案：BioMedAgent

✦ BioMedAgent 是什么？

BioMedAgent 是一个面向生物医学数据分析的自进化多智能体框架。

它可以接收自然语言问题，例如：

“请根据这些 FASTQ 文件识别致病突变。”
“请分析肿瘤样本和正常样本之间的差异表达基因。”
“请构建一个模型预测患者发生静脉血栓栓塞的风险。”

然后系统会自动完成：

① 理解用户需求
② 规划分析步骤
③ 选择合适工具
④ 编写代码
⑤ 执行分析
⑥ 判断是否成功
⑦ 保存成功经验
⑧ 输出总结报告

这使 BioMedAgent 不只是一个问答工具，而更接近一个能够执行真实科研任务的自动化数据分析系统。

04｜BioMedAgent 的系统架构

✦ 三个核心阶段：规划、编码、执行

作者将 BioMedAgent 的工作流程设计为三个主要阶段：

① Planning：规划阶段

在规划阶段，多个智能体会共同理解用户输入的自然语言需求，并判断任务属于哪类分析。例如：

是 DNA-seq 分析，还是 RNA-seq 分析？
是单细胞分析，还是机器学习建模？
是统计检验，还是数据可视化？
需要哪些输入文件？
应该调用哪些工具？
最终应该生成什么结果？

这一阶段的目标是形成一个可执行的分析路线。

② Coding：编码阶段

在编码阶段，系统会根据规划结果生成实际可运行的代码。代码可以调用：

本地安装的生物信息学工具
Python / R 包
Web API
自定义生成的分析脚本

如果已有工具可以完成任务，BioMedAgent 会优先调用本地工具；如果没有现成工具，系统可以生成自定义代码补足分析步骤。

③ Execution：执行阶段

在执行阶段，系统会运行代码、调用工具并生成结果。如果执行失败，智能体会根据错误信息重新调整规划或代码，继续尝试。

这也是 BioMedAgent 与普通“只生成代码”的大模型系统的重要区别：它不仅生成方案，还会真实执行、反馈、修正和总结。

05｜系统中的关键智能体

BioMedAgent 并不是由单个大模型直接完成所有工作，而是由多个具有不同职责的智能体协作完成。

✦ Requirement Analyst：需求分析者

负责理解用户输入的自然语言任务，把模糊的科研需求转化为更明确的分析目标。

例如，用户只说“分析肿瘤测序数据并推荐治疗方案”，该智能体需要判断这可能涉及：

肿瘤样本与正常样本比对
体细胞突变检测
突变注释
药物或治疗建议

✦ Tool Manager：工具管理者

这是 BioMedAgent 的关键设计之一。Tool Manager 负责维护本地工具和 Web API，并让系统知道：

每个工具能做什么
输入文件是什么格式
输出结果是什么
工具依赖哪些环境
应该怎样调用工具

作者强调，专业生物信息学工具往往不能靠大模型“凭空重写”。因此，BioMedAgent 的策略不是让大模型重新发明工具，而是让它学会使用已有工具。

✦ Planner：流程规划者

Planner 会把分析目标拆解成多个步骤。例如，在致病突变分析中，流程可能包括：

将测序 reads 比对到参考基因组
对 BAM 文件进行排序和去重复
进行碱基质量校正
调用突变
注释突变
判断致病性
生成总结报告

✦ Programmer：程序员

Programmer 负责把规划步骤转化为代码，包括 Python、R 或命令行脚本。

✦ Executor：执行者

Executor 负责真正运行代码、检查结果，并把执行反馈传回系统。如果某一步失败，系统会重新进行交互式探索和修正。

06｜三个关键机制：LTU、IE、MR

这篇论文最重要的技术亮点，可以概括为三个缩写：

LTU：Local Tool Usage，本地工具使用
IE：Interactive Exploration，交互式探索
MR：Memory Retrieval，记忆检索

① LTU：让大模型真正会用专业工具

作者在 BioMedAgent 中集成了67 个专业生物信息学工具，主要覆盖组学分析、精准医学分析和机器学习任务。

这些工具显著提高了系统表现。特别是在组学分析、精准医学和机器学习任务中，使用本地工具后，成功率明显提升。

作者还区分了两种能力：

能力	含义
LTU	调用已有本地专业工具
CTC	当缺少现成工具时，生成自定义工具代码

在成功任务中，单独使用 LTU 的比例为46.25%，单独使用 CTC 的比例为28.85%，两者结合使用的比例为24.90%。

这说明，BioMedAgent 的能力不是单纯来自大模型写代码，而是来自“已有专业工具 + 自定义代码 + 多智能体协作”的组合。

② IE：通过多智能体协作提高成功率

IE 指的是Interactive Exploration，交互式探索。

作者将这个机制设计成一种类似“团队讨论和反复尝试”的过程。当系统遇到复杂任务时，不是一次性给出固定答案，而是在规划和编码阶段不断探索不同解决方案。

实验结果显示：

不使用 IE 时，BioMedAgent 成功率为28%
使用 IE 后，成功率提升到52%
探索次数从916 次增加到2696 次
约60.8%原本失败的任务，在 IE 帮助下转为成功

也就是说，IE 的价值在于：它让系统拥有更多尝试机会，从而提高复杂任务的解决概率。

③ MR：让系统从过去经验中进化

MR 指的是Memory Retrieval，记忆检索。

BioMedAgent 会把成功完成的任务记录为记忆，包括：

使用过的工具
成功的工作流
可复用的代码
分析目标与任务类型

当系统遇到新问题时，会通过语义相似度检索最相关的历史经验，并将这些经验用于新任务。

作者设计了两种记忆更新策略：

策略	含义
CMA	Continuous Memory Accumulation，持续记忆积累，保留所有成功记录
IMF	Iterative Memory Forgetting，迭代记忆遗忘，选择性删除过时或冗余记录

实验显示，IMF 收敛更快、稳定性更好，并且需要更少的中间记忆记录，因此更适合长期运行的系统。

通过三轮记忆学习，BioMedAgent 的整体成功率从52%提升到77%。

07｜BioMed-AQA：作者构建的新基准

✦ 为什么需要新基准？

作者指出，评估生物医学 AI Agent 很困难，因为真实数据分析任务往往没有唯一答案。同一个问题可能有多种合理工作流，不同软件也可能产生格式不同但科学上等价的结果。

因此，作者构建了一个新的评估基准：

BioMed-AQA

✦ BioMed-AQA 包含什么？

BioMed-AQA 包含327 个生物医学数据分析问题，覆盖五大类别：

类别	任务方向
O	Omics analysis，组学分析
P	Precision medicine support analysis，精准医学支持分析
M	Machine learning，机器学习
S	Statistical analysis，统计分析
V	Data visualization，数据可视化

这些问题进一步覆盖17 种任务类型，包括 DNA、RNA、单细胞、分类、回归、聚类、深度学习、统计检验、可视化、生存分析等。

✦ 问题类型：Clear-step 与 Open-step

作者还将任务分成两种自然语言形式：

Clear-step 问题

用户明确指定分析步骤和工具。例如：

使用 BWA 比对测序数据，使用 GATK Mutect2 调用突变，使用 vcf2maf 注释突变，并根据基因组变异推荐治疗。

Open-step 问题

用户只描述目标，不指定工具和步骤。例如：

对癌症患者测序数据进行突变分析，并推荐治疗方案。

这个设计用于测试 BioMedAgent 是否能从模糊目标中自动规划分析流程。

实验结果显示，BioMedAgent 在 clear-step 和 open-step 问题上的表现没有显著差异，说明它具备较强的自主规划能力。

✦ 数据来源

BioMed-AQA 的数据来自三类来源：

来源	比例
模拟数据	37.3%
工具教程数据	15.9%
文献来源数据	46.8%

这使得该基准既包含可控的模拟任务，也包含更接近真实科研场景的数据任务。

✦ 评估方式：Win score

作者采用Win score来评估任务完成度。

一个任务会被拆成多个关键里程碑。如果系统完成所有里程碑，Win score 为1，表示成功；如果只完成部分步骤，则得到部分分数。

例如，一个任务有 4 个关键步骤，系统只完成 1 个，则 Win score 为0.25。

作者还开发了自动评分智能体，其评分结果与人工评价的一致性达到92.3%，AUC 为0.926。

此外，作者还构建了一个BioMed-AQA-MCQ子集，包含172 道选择题，用于更自动化和客观的评估。

08｜整体表现：BioMedAgent 明显优于多个基线

在 BioMed-AQA 上，BioMedAgent 的整体成功率达到77%。

不同任务类别表现如下：

任务类别	成功率
组学分析 O	94%
精准医学 P	78%
机器学习 M	90%
统计分析 S	59%
可视化 V	65%

这说明 BioMedAgent 不只适用于某一种任务，而是可以覆盖较广泛的生物医学数据分析场景。

✦ 与其他 LLM Agent 的比较

作者将 BioMedAgent 与多个基线进行了比较，包括 ChatGPT、GPT Assistants、GPT Function Call 等。

主要结果包括：

GPT Assistants 成功率为39%
GPT Function Call 成功率为33%
ChatGPT-4o 成功率为46%
BioMedAgent 最终成功率为77%
使用 DeepSeek v3 作为底层模型时，成功率为77%
使用 Qwen3 作为底层模型时，成功率为75%
在 MCQ 子集上的准确率为76%

尤其值得注意的是，BioMedAgent 的可分析范围达到100%，而在线 ChatGPT-4o 和 GPT Assistants 的可分析范围分别为68%和65%。

09｜面对不同表达方式，BioMedAgent 仍然稳健

真实用户不会总是用标准格式提问。因此，作者让三位医学专家对原始问题进行自然语言改写，再测试 BioMedAgent 的表现。

结果显示：

输入来源	成功率
原始 BioMed-AQA	0.774
医学专家 1 改写	0.761
医学专家 2 改写	0.752
医学专家 3 改写	0.758

这说明 BioMedAgent 对自然语言表达变化具有较强鲁棒性。

10｜外部验证：BioMedAgent 在 BixBench 上也表现稳定

为了验证系统不是只适应作者自己构建的 BioMed-AQA，作者还在外部基准BixBench上进行测试。

BixBench 包含 50 多个真实分析场景和 296 个问题，是用于评估生物信息学 Agent 的外部基准。

在不依赖领域专用工具、主要依靠自定义代码生成的情况下，BioMedAgent 仍然取得了优于 BixBench 原始基线 Agent 的结果：

问题类型	BioMedAgent	BixBench baseline
Open questions	49%	37%
MCQs with refusal	49%	42%
MCQs without refusal	63%	55%

这说明 BioMedAgent 具有一定跨基准泛化能力。

11｜与其他多组学 AI Agent 的比较

作者还将 BioMedAgent 与多个已有多组学 AI Agent 进行系统比较，包括 BioChatter、AutoBA、BIA、BioMaster、OLAF、ChatGPT ADA、GenoTEX、CellAgent、CASSIA 等。

比较维度包括：

是否支持规划
是否支持编码
是否支持执行
是否支持自然语言指令
支持哪些任务类型
是否支持本地工具调用
是否支持自定义工具代码
是否为多智能体系统
是否具备自进化能力
是否有大规模基准
评估方式是否自动化

作者认为，BioMedAgent 的优势在于：

① 任务覆盖更广

不仅支持组学分析，还支持精准医学、机器学习、统计分析和可视化。

② 工具使用更灵活

既能调用本地工具，也能生成自定义工具代码。

③ 具备自进化机制

可以通过 MR 记忆检索持续复用成功经验。

④ 评估体系更系统

BioMed-AQA 包含开放问题和 MCQ 子集，并结合人工评分与自动评分。

12｜真实应用一：非小细胞肺癌跨组学分析

作者使用 BioMedAgent 完成了一个复杂的跨组学问题：

非小细胞肺癌中高度差异表达基因主要来源于哪些细胞类型？

这个问题需要整合：

bulk RNA-seq 数据
单细胞 RNA-seq 数据
差异表达分析
单细胞聚类
marker 基因识别
跨组学交集分析和可视化

BioMedAgent 根据三条自然语言指令，自动完成了大规模分析流程。

✦ 主要结果

作者使用了：

67 个 NSCLC bulk RNA-seq 样本
34 个肿瘤样本
33 个癌旁正常样本
22 个 scRNA-seq 矩阵文件

BioMedAgent 识别出：

1831 个差异表达基因
其中1309 个上调
522 个下调
与 GEO2R 在线工具识别结果有78%覆盖一致性
识别出8 种细胞类型
发现 ABCC3、SERINC2、SEZ6L2 主要在上皮细胞中过表达

这表明 BioMedAgent 能够把 bulk 层面的差异基因结果进一步映射到单细胞层面的细胞来源解释中。

13｜真实应用二：ctDNA 与癌症相关静脉血栓风险预测

第二个应用场景是机器学习建模。

作者让 BioMedAgent 复现一项关于循环肿瘤 DNA 与癌症相关静脉血栓栓塞风险预测的研究。

任务目标是评估 ctDNA 是否与 VTE 风险相关，并构建随机生存森林模型进行预测。

✦ BioMedAgent 自动完成的步骤

BioMedAgent 根据自然语言指令自动完成：

数据读取
模型构建
随机生存森林训练
验证集预测
c-index 性能评估
多模型比较
结论总结

✦ 主要结果

三个模型表现如下：

模型	c-index
Khorana score 模型	0.61
LB+ 模型	0.73
All 模型	0.74

结果显示，基于液体活检变量的模型明显优于传统 Khorana score 模型。

作者据此说明，BioMedAgent 可以帮助生物医学研究者用自然语言启动复杂机器学习建模流程，降低从临床问题到计算建模之间的技术门槛。

14｜真实应用三：病理图像细胞分割与分类

第三个应用场景是病理图像分析。

病理图像中的细胞分割和分类对于病灶识别、肿瘤微环境分析和预后评估都很重要。但低分辨率图像会影响分割准确性。

作者将分辨率增强工具MiHATP v.1.0集成进 BioMedAgent 的本地工具空间，让系统自动规划：

数据划分
图像分辨率增强
细胞分割
细胞分类
Dice 指标评估

✦ 主要结果

与 baseline 相比，BioMedAgent 在多个细胞类型上提升了 Dice 分数，包括：

inflammatory cells
epithelial cells
spindle-shaped cells
other cells

整体 Dice 绝对提升为+0.86%，同时关闭了29.9%的剩余性能差距。

这说明 BioMedAgent 不仅适用于表格型和组学数据，也可以扩展到医学图像任务。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

企业官网建设流程全解析

01｜一句话读懂这篇论文

02｜为什么需要 BioMedAgent？

✦ 生物医学数据正在爆炸式增长

✦ 传统分析流程门槛很高

1. 工具种类多，学习成本高

2. 流程复杂，步骤容易出错

3. 现有平台灵活性不足

4. 普通 LLM Agent 还不够“懂工具”

03｜作者提出的核心解决方案：BioMedAgent

✦ BioMedAgent 是什么？

04｜BioMedAgent 的系统架构

✦ 三个核心阶段：规划、编码、执行

① Planning：规划阶段

② Coding：编码阶段

③ Execution：执行阶段

05｜系统中的关键智能体

✦ Requirement Analyst：需求分析者

✦ Tool Manager：工具管理者

✦ Planner：流程规划者

✦ Programmer：程序员

✦ Executor：执行者

06｜三个关键机制：LTU、IE、MR

① LTU：让大模型真正会用专业工具

② IE：通过多智能体协作提高成功率

③ MR：让系统从过去经验中进化

07｜BioMed-AQA：作者构建的新基准

✦ 为什么需要新基准？

✦ BioMed-AQA 包含什么？

✦ 问题类型：Clear-step 与 Open-step

Clear-step 问题

Open-step 问题

✦ 数据来源

✦ 评估方式：Win score

08｜整体表现：BioMedAgent 明显优于多个基线

✦ 与其他 LLM Agent 的比较

09｜面对不同表达方式，BioMedAgent 仍然稳健

10｜外部验证：BioMedAgent 在 BixBench 上也表现稳定

11｜与其他多组学 AI Agent 的比较

① 任务覆盖更广

② 工具使用更灵活

③ 具备自进化机制

④ 评估体系更系统

12｜真实应用一：非小细胞肺癌跨组学分析

✦ 主要结果

13｜真实应用二：ctDNA 与癌症相关静脉血栓风险预测

✦ BioMedAgent 自动完成的步骤

✦ 主要结果

14｜真实应用三：病理图像细胞分割与分类

✦ 主要结果

学AI大模型的正确顺序，千万不要搞错了

热门文章

文章分类

标签云

相关文章

OBS多平台直播同步推流：obs-multi-rtmp插件架构设计与实战指南

开源机器人任务控制框架：从硬件抽象到状态机的集成实践

ANSYS模拟仿真不锈钢件激光焊接变形量

需要专业的网站建设服务？