ICML 2026 精读 | MLUBench:当多模态大模型「终身遗忘」时,真正的代价是对齐
2026/6/19 3:39:16 网站建设 项目流程

机器遗忘(machine unlearning)这个方向,正在被一个很现实的诉求推着往前走:出于隐私或版权,数据所有者会要求模型删除特定内容。过去大多数研究默认这些请求"一次到齐"——给定一个遗忘集,删一次就完事。但现实并非如此。删除请求往往是随时间陆续到达的,模型必须一边持续遗忘新内容,一边守住此前已经删过的内容、以及自己的通用能力。这就是这篇论文研究的问题:MLLM 终身遗忘(lifelong unlearning)

这篇被 ICML 2026 接收的工作,表面上是"提出了一个更大的 benchmark",但它真正有价值的贡献,是揭示了一个反直觉的事实:多模态模型的遗忘,要交一笔单模态模型不存在的隐藏税——多模态对齐(multimodal alignment)。当你从 MLLM 里删一条知识时,你并不只是丢掉那条知识,你同时还在持续撬动视觉与语言之间的那座桥;桥一旦塌,整个模型一起废掉。下面我们逐层拆开来读。

图 1 | 多模态遗忘的隐藏税:即便只更新单一模态,持续的权重修改也会破坏对齐,最终拖垮整个模型(依据论文 §3.3 与附录 E 重构)

一、为什么需要 MLUBench:现有基准的盲区

作者首先论证了立项的必要性。MLLM 遗忘并非无人研究,但现有评测基准都有结构性的局限,无法支撑"终身"这个设定下的系统性评估。具体来说,MMUBench 只覆盖 20 个概念,规模与多样性都不足;FIUBench 把范围窄化到人脸信息;MLLMU-Bench 则只盯名人画像。更关键的是,这些基准都没有去评估顺序遗忘的累积效应(cumulative effects of sequential requests)——而这恰恰是终身遗忘问题的核心难点所在。一次删除可能只造成轻微损伤,但当损伤被一次次叠加,模型会不会越删越崩?现有工具回答不了这个问题。

MLUBench 就是为填补这个空白而设计的。它包含127 个广为人知的真实世界实体,分属 9 个类别,配套 5,105 张图像和 15,414 个 VQA 对。这些实体被组织成一个顺序遗忘的任务序列,提供了一个评估遗忘算法长期表现的完整平台。

图 2 | MLUBench 的数据构成:9 大类真实实体,"人物"类最多(30 个),合计 127 个实体

一个值得注意的设计取舍是:MLUBench 用的是真实实体的事实知识,而不是像 TOFU、FIUBench 那样的虚构信息。作者的理由很实际——现实场景里,你要遗忘的是模型本来就掌握的知识;如果用虚构数据,使用者还得先在数据集上微调,才能"种"进去再删掉,平添麻烦。

构造流程也体现了对质量的把控。作者从 Wikipedia 选定 9 类实体,通过自动爬虫从 Google Images 下载图片;不为每个实体单独设计问题,而是为每个类别设计一套共享问题集以抓取该类的共性特征(例如对所有电影都问"谁执导了这部影片");随后用 GPT-4o 生成答案并由人工逐一核验。最后一步尤为关键:把每个图文对喂给 LLaVA-v1.6-Vicuna-7B 和 13B,只保留两个模型都答对的样本。这一步保证了"遗忘前模型确实掌握了这些知识"这个前提——否则"遗忘"无从谈起。此外,每个问题还配了 4 个语义等价但措辞不同的变体,用于检验遗忘对 prompt 改写的鲁棒性。

二、问题形式化:终身遗忘到底在优化什么

要读懂这篇论文,必须先看清它的目标函数到底定义了什么。

先看单次的MLLM 遗忘。设MθM_\thetaMθ为参数为θ\thetaθ的 MLLM,fi∈Ff_i \in FfiF表示某个待遗忘实体的遗忘信息,rj∈Rr_j \in RrjR表示某个保留实体的保留信息。一个遗忘任务被定义为t=(Ft,Rt)t = (F_t, R_t)t=(Ft,Rt),其中Ft={f1,…,fn}F_t = \{f_1, \dots, f_n\}Ft={f1,,fn}为遗忘集,Rt={r1,…,rm}R_t = \{r_1, \dots, r_m\}Rt={r1,,rm}为保留集。遗忘后的模型Mθ′M_{\theta'}Mθ需满足两个条件:对任意fi∈Ftf_i \in F_tfiFt,模型不再展现fif_ifi的多模态知识;对任意rj∈Rtr_j \in R_trjRt,模型保持对rjr_jrj的原有行为。

再看MLLM 终身遗忘。给定一串有序任务T={t1,t2,…,tk}T = \{t_1, t_2, \dots, t_k\}T={t1,t2,,tk},模型需逐个顺序遗忘。记θt\theta_tθt为模型仅遗忘任务ttt之后的参数,θT\theta_TθT为顺序遗忘完整个序列后的参数,P(Mθ,t)P(M_\theta, t)P(Mθ,t)为模型在任务ttt上的通用性能度量。终身遗忘的目标是:

min⁡θT∑t∈T(P(Mθt,t)−P(MθT,t))\min_{\theta_T} \sum_{t \in T} \Big( P(M_{\theta_t}, t) - P(M_{\theta_T}, t) \Big)θTmintT(P(Mθt,t)P(MθT,t))

这个式子值得反复体会。它优化的不是遗忘本身的强度,而是「刚遗忘完任务ttt时在ttt上的表现」与「跑完整个序列后在ttt上的表现」之间的差距。作者在脚注里也明确点出:该式聚焦于缓解累积退化(stability,稳定性),而非保证底层遗忘方法的绝对效力(efficacy)。

这是一个很重要的定位。它把问题从"能不能删干净"换成了"删完之后会不会越删越崩"。读后文的实验和方法时,请始终记住这一点——它解释了为什么 LUMoE 这样一个并不真正"删除"知识的方法,能在这个目标下取得高分。

三、核心洞察:多模态对齐这笔隐藏税

这是全文最硬的科学贡献,也是整篇论文的主线。

作者的论点旗帜鲜明:MLLM 终身遗忘不是 LLM 终身遗忘的简单延伸,而是一个独立且更难的问题。核心差异就在多模态对齐。在 MLLM 中,遗忘方法必须同时保住三样东西——语言模型本身、视觉部件(视觉适配器 vision adapter 与多模态投影器 multimodal projector)、以及连接二者的对齐关系。这个约束在单模态 LLM 里根本不存在。

光提论点不算数。作者设计了一个非常干净的拆解实验来证明它,把遗忘过程隔离到单一模态上:

  • Unlearn-LLM-Only:冻结视觉部件,只更新语言主干的权重;
  • Unlearn-Vision-Only:冻结语言模型,只更新视觉部件。

结果(论文表 1)是关键所在:无论隔离到哪一侧,模型整体都会遭受严重的累积退化。在 Unlearn-Vision-Only 设定下,模型在最早的 Task A 上的表现,在遗忘完最后的 Task D 之后掉到接近 0。这说明问题根本无法靠"只搞定一个模态"来解决——因为单模态的持续扰动,就足以破坏跨模态的对齐。

更进一步,作者给出了一个可量化、可直接观测的证据:模态间隙(Modality Gap),即视觉特征质心与语言特征质心之间的 L2 距离。间隙越小,代表对齐越好。在 Qwen3-VL-4B-Instruct 上测量,遗忘后四个任务的模态间隙全部一致变大

图 3 | 对齐崩塌的直接证据:遗忘后四个任务上视觉与语言表征之间的间隙一致扩大(论文表 3,Qwen3-VL-4B-Instruct)

这是这篇论文最有说服力的一张表——它把"对齐被破坏"这句定性论断,变成了一个可测量、可比较的标量。附录 E 的失效分析进一步把损伤拆成三处:在 LLM 侧,持续遗忘不断腐蚀语言权重,而由于知识在 LLM 中是高度纠缠的,删除目标知识时会连带损害整体能力;在视觉侧,持续改写视觉适配器以遗忘特定对象,会退化它对非目标对象的通用特征适配能力;在对齐侧,当视觉表征被持续扰动,视觉与语言之间的对齐就会断裂。三者叠加,模型整体坍缩。

四、评估指标:为什么是"拒答分数"

机器遗忘的"黄金标准"通常被定义为:得到一个与"从未见过遗忘集、从头重训"的模型不可区分的模型。但在 MLUBench 这个设定下,初始 MLLM 本就掌握了这些知识,要重训一个排除 MLUBench 的模型成本高得离谱,黄金标准不再可得。因此,依赖重训模型输出的指标(如 KS-Test)都用不了。作者转而提出了两个基于 GPT-4o 评判的指标。

GPT 拒答分数(Rejection Score)用于度量遗忘质量。核心想法很简单:一个未能拒答的回复,要么是幻觉,要么泄露了被遗忘实体的事实知识,而一个高质量的拒答能同时杜绝这两种情况。给定问题、回复和标准答案,GPT-4o 从{0,1,2}\{0, 1, 2\}{0,1,2}打分,2 分代表高质量拒答。作者特别指出,这个指标可能比其他指标更严格——因为模型只有在输出高质量拒答时才能拿高分,一个幻觉答案在别的指标(如 KS-Test)下可能得分不低,但在拒答分数下直接归零。

GPT 正确性分数(Correctness Score)用于度量模型效用,评估模型在保留集上回答的准确性。同样由 GPT-4o 从{0,1,2}\{0, 1, 2\}{0,1,2}打分,2 分代表准确、相关且高质量的回答。

每个任务的最终得分为:模型得分之和除以最大可能得分之和。

这里我先埋一个伏笔:拒答分数这个度量,对后文将要登场的 LUMoE 是天然友好的。我们在批判性评估一节会回到这一点。

五、LUMoE:用"隔离"保护对齐

既然反复修改权重会破坏对齐,作者的解法干脆利落:那就别动主模型。

LUMoE(Lifelong Unlearning with a Mixture-of-Experts)的设计原则,是把遗忘带来的改动隔离在稳定的 MLLM 之外——不去反复改写主模型,而是"挂载"轻量的、任务专属的模块来处理遗忘请求。这一思路借鉴了混合专家(MoE)框架,并结合 LoRA 这类参数高效微调(PEFT)方法来落地。

图 4 | LUMoE:路由器判断输入是否命中遗忘集——命中则挂载对应 LoRA 专家,未命中则交还冻结的原模型(依据论文 §5 重构)

整个方法分两步。第一步是训练 LoRA 适配器作为专家。作者把每个 LoRA 适配器当作 MoE 框架里的一个专门专家,对每个任务单独执行遗忘以获得对应的适配器。具体训练方式沿用 Maini et al. 的 PO(Preference Optimization)——它是对 DPO 的改造,专注于把模型对齐到"拒绝回答遗忘集相关查询"上,从而让模型倾向于输出拒答(如"抱歉,我无法回答这个问题")。

第二步是门控路由。这是 LUMoE 的关键元件。作者用 GLM-4V-Plus 这个 SOTA 商用 MLLM 作为路由器,分两步走:先做实体抽取,提示模型从输入中抽出相关实体名;再做任务匹配,把抽出的实体名与此前已遗忘任务关联的实体作比对。如果命中某个任务的遗忘集,就把对应 LoRA 适配器合并进基座模型来处理输入;如果没有匹配(即属于保留集),输入就直接交给原始 MLLM 处理,从而保住模型效用。若一个请求同时命中多个适配器,则可以把它们一起合并而互不干扰。此外还有错误处理机制:当路由器对实体不确定时,指示其输出 “None”,这类问题被归为保留问题,交给原模型处理。

作者自己很克制地把 LUMoE 定位为"一个有效的基线方法,而非终极或完美的解决方案"。它的简洁性来自那个核心洞察——通过隔离任务专属改动来保护多模态对齐。

六、实验结果:现有方法集体崩盘,LUMoE 近乎满分

实验用的 MLLM 为 LLaVA-v1.6-7B、LLaVA-v1.6-13B 和 Qwen3-VL-4B-Instruct;基线为四种广泛使用的遗忘方法:梯度上升 GA、梯度差分 GD、KL 最小化 KL、负偏好优化 NPO。所有模型按 Task A → B → C → D 的顺序遗忘,每遗忘完一个任务保存检查点,并在已遗忘的任务上测试。

6.1 顺序遗忘导致严重的累积退化

这是一个很强的负面结果。所有基线在终身遗忘过程中,遗忘质量和模型效用都出现了显著的累积退化。以 LLaVA-7B 上的 GA 为例,它在 Task A 上初始遗忘质量为 0.38,但在遗忘完 Task D 之后,它在所有此前已遗忘任务上的遗忘质量和模型效用都接近完全退化,逼近 0。最戏剧性的是NPO:它在 Task A 上拿到了 0.420 的最高遗忘质量,但仅仅多遗忘一个 Task B,就直接坍塌到 0.005,效用从 0.238 归零。

图 5 | 顺序遗忘下的性能坍塌:以最早的任务 A 为例,权重修改类方法在数步内几乎归零,LUMoE 全程贴近上限(论文表 2,LLaVA-7B)

下表给出 LLaVA-7B 上各方法在 Task A 上随顺序遗忘的退化轨迹(“X-UY” 表示遗忘完任务 Y 之后、在任务 X 上的表现):

方法A-UAA-UBA-UCA-UD
GA(遗忘质量)0.3800.1950.0350.010
GD(遗忘质量)0.3300.1150.0150.000
KL(遗忘质量)0.2800.1100.0000.000
NPO(遗忘质量)0.4200.0050.0000.005
LUMoE(遗忘质量)1.0001.0001.0001.000
LUMoE(模型效用)0.9300.9300.9300.930

这一趋势在 Qwen3-VL-4B-Instruct 上同样成立(附录 G):GD 在 Task A 上初始遗忘质量为 0.54,遗忘完 Task B 后崩到 0.115。跨模型族的一致性,强化了"现有方法在终身设定下集体失效"这一发现。

6.2 语言能力被实打实地摧毁

论文图 1(b) 给了一个直观的例子。LLaVA-7B 被要求识别一部知名电影的导演:遗忘前,模型能输出正确答案;经过 1 次 GD 遗忘后,模型开始回避作答,但仍然连贯;而在对其他任务进行 3 次 GD 遗忘之后,模型输出的是"image image image…"这样无意义的重复内容。这表明遗忘操作不只删掉了目标知识,还腐蚀了模型的核心语言能力。

这种损伤还会蔓延到完全无关的通用能力上。作者在 TruthfulQA(一个评估常识理解的数据集)上测了基线方法的退化:GD 的得分从首步遗忘后的 0.528,到第二步暴跌至 0.155,第三步坍塌到 0.005,到最后一步所有基线归零。相比之下,LUMoE 在跑完整个终身遗忘序列后,TruthfulQA 仅从 41.25% 掉到 40.75%(下降 0.50%),在 MMBench-EN/CN、CCBench 等一系列通用基准上的掉幅一致低于 0.6%。这是 LUMoE"隔离主模型"思路最有力的回报之一。

6.3 LUMoE 的稳健性矩阵

作者把鲁棒性验证做得相当充分,几乎堵住了审稿人可能提出的所有质疑:换路由器模型(GLM-4V-Plus 最佳,其次 Gemini,再次 GPT-4o);换小型开源路由器(Qwen3-VL-4B 平均路由准确率 97.1%,Qwen3-VL-8B 为 98%);换评判模型(在 Gemini 与 Claude 评判下,LUMoE 遗忘质量仍 >0.9、效用 >0.85,而 GA/GD 等基线一致低于 0.4);换基准(在 MLLMU-Bench 的 153 个名人画像、3 任务设定下,LUMoE 依旧强劲);换任务顺序与任务数量(5 任务设定下 LUMoE 各指标仍 >0.88,基线则一两步后完全坍塌);甚至用 AutoDAN 的越狱提示攻击——遗忘质量仍保持在 0.95 及以上,最大跌幅仅 0.05。

6.4 一个优雅的附录发现:拒答适配器加性合并不冲突

附录 F 有一个我个人很欣赏的结果。直觉上,把为不同任务训练的多个 LoRA 适配器加性合并,可能引发破坏性干扰。但作者把五个拒答适配器逐步合并(A+B、A+B+C…直到 A+B+C+D+E)后发现,合并后每个任务上的遗忘质量不降反升,甚至超过单独适配器。原因很巧妙——不同于标准微调里 LoRA 模块各自学习互相冲突的事实(任务 A 学"答案是 X",任务 B 学"答案是 Y"),LUMoE 的这些适配器学的都是同一个"拒答"行为,因此彼此不打架。这个解释干净利落,也顺带印证了 LUMoE 的可扩展性边界来自别处(见下文)。

效率方面(表 9),训练一个 LoRA 适配器约 11 分钟,单个 QA 对的任务匹配约 2 秒,缓存后合并适配器约 4 秒,单个适配器约 170MB。

七、批判性评估:这篇论文的真正分量与软肋

前面是论文做了什么。这一节是我作为读者的判断——哪些是扎实的真东西,哪些是值得追问的地方。我会尽量把两者分开讲。

第一,也是最该追问的:LUMoE 严格说不是"遗忘",而是"门禁"。它从头到尾没有修改主模型的任何一个权重——知识完完整整地留在基座模型里,只是路由器拦截了"敏感问题"并改道到拒答适配器。但论文自己引用的黄金标准是"模型与从未见过该数据、从头重训的模型不可区分"。LUMoE 离这个标准十万八千里:只要你能拿到基座模型的权重,知识一字未删。如果数据所有者的诉求是"我的数据不能存在于你的模型里",那么 LUMoE 根本没有回应这个诉求。本质上,论文把问题从"删除"悄悄换成了"拒绝回答"——这两件事不是一回事。作者在附录 N 也坦承了这一点:一旦路由模型开源,整套防护在白盒攻击下就会失效。

第二,比较的天平是倾斜的。LUMoE 实际上在推理管线里额外塞进了一整个商用 MLLM(GLM-4V-Plus)作为路由器,而基线方法只能修改自己那一个模型的权重。这是拿"系统级方案"去碾压"方法级方案"。它接近 1.0 的遗忘质量,很大程度上来自"路由器 + 拒答适配器"这套组合极其擅长产出干净的拒答——这并不完全是一次对等的较量。

第三,指标设计对 LUMoE 天然友好,存在循环论证的风险。GPT 拒答分数奖励高质量拒答,而 LUMoE 本质上就是一个被工程化设计来产出拒答的系统(PO 训练的目标就是拒答)。一个为产出拒答而生的系统,在一个奖励拒答的指标上拿满分——这里有循环论证的味道。那些试图真正降解知识的基线方法,产出的是幻觉或乱码,在这个指标下得 0。作者用人工标注做了交叉验证(附录 H,两名计算机博士生标注,与 GPT-4o 评判高度一致)来缓解这一担忧,这点值得肯定;但指标对方法的结构性偏好是客观存在的,写稿或复现时不应忽略。

第四,漏检即泄漏。整套系统的命门在于路由器能否正确识别实体。错误处理逻辑是"不确定 → 归为保留集 → 走原模型",这意味着任何一次假阴性(false negative)都会把本该遗忘的知识原样吐出来。97%–98% 的路由准确率听起来很高,但对隐私或版权这种高风险场景,2%–3% 的泄漏率可能就是不可接受的。

第五,可扩展性,作者也承认了。每个任务一个约 170MB 的适配器,在百万级请求规模下并不可行——论文明确把这列为"开放问题"。而且一旦遇到细粒度请求(如"只忘掉《星球大战》的导演,但保留演员"),适配器数量会进一步膨胀。

话说回来,这篇论文有几样东西是扎实的真贡献,不应被上述批评淹没。多模态对齐这笔隐藏税的洞察是真东西,模态间隙的量化测量优雅而有说服力;Unlearn-LLM-Only / Unlearn-Vision-Only 的单模态拆解实验设计得非常干净;MLUBench 在规模和多样性上确实超过了此前的基准;而"所有现有方法在终身多模态设定下集体崩盘"这个负面结果本身就极具价值——它清楚地暴露了当前方法有多脆。

从某种意义上说,MLUBench 最大的作用是一座"坟场",它把现有方法的脆弱性彻底摆上了台面;而 LUMoE 之所以"赢",恰恰是因为它聪明地绕开了那个真正最难的问题——如何在不破坏对齐的前提下,真正地从权重里抹掉知识。

八、对从业者的意义

如果你在做模型隐私或合规相关的工程,这篇论文有几点直接的启示。

其一,在多模态模型上做遗忘,不能把它当成 LLM 遗忘的简单照搬。视觉与语言之间的对齐是一个独立且脆弱的约束,任何持续改写权重的方案——哪怕只动单侧模态——都有把整个模型拖垮的风险。模态间隙是一个轻量、可监控的对齐健康度指标,值得在你的遗忘流水线里挂上。

其二,"隔离改动"是一个在工程上非常实用的范式。即便你不认同 LUMoE 算不算真正的"遗忘",它"冻结主模型、用可插拔适配器处理请求"的架构,在"必须保住核心能力"的高风险场景下有明确的工程价值——效用保留几乎是免费的(未命中就走原模型),新请求也能通过训练新适配器来线性扩展。

其三,想清楚你的合规目标到底是"不输出"还是"不存在"。如果监管或数据方要求的是后者(知识必须从权重中消失),那么 LUMoE 这类门禁式方案并不达标,你需要的是真正的权重级遗忘——而这篇论文恰恰说明,在多模态终身设定下,真正的权重级遗忘仍是一个远未解决的开放难题。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询