ICML 2026 精读 | MLUBench：当多模态大模型「终身遗忘」时，真正的代价是对齐-迪斯科星球

机器遗忘（machine unlearning）这个方向，正在被一个很现实的诉求推着往前走：出于隐私或版权，数据所有者会要求模型删除特定内容。过去大多数研究默认这些请求"一次到齐"——给定一个遗忘集，删一次就完事。但现实并非如此。删除请求往往是随时间陆续到达的，模型必须一边持续遗忘新内容，一边守住此前已经删过的内容、以及自己的通用能力。这就是这篇论文研究的问题：MLLM 终身遗忘（lifelong unlearning）。

这篇被 ICML 2026 接收的工作，表面上是"提出了一个更大的 benchmark"，但它真正有价值的贡献，是揭示了一个反直觉的事实：多模态模型的遗忘，要交一笔单模态模型不存在的隐藏税——多模态对齐（multimodal alignment）。当你从 MLLM 里删一条知识时，你并不只是丢掉那条知识，你同时还在持续撬动视觉与语言之间的那座桥；桥一旦塌，整个模型一起废掉。下面我们逐层拆开来读。

_{图 1 ｜多模态遗忘的隐藏税：即便只更新单一模态，持续的权重修改也会破坏对齐，最终拖垮整个模型（依据论文 §3.3 与附录 E 重构）}

一、为什么需要 MLUBench：现有基准的盲区

作者首先论证了立项的必要性。MLLM 遗忘并非无人研究，但现有评测基准都有结构性的局限，无法支撑"终身"这个设定下的系统性评估。具体来说，MMUBench 只覆盖 20 个概念，规模与多样性都不足；FIUBench 把范围窄化到人脸信息；MLLMU-Bench 则只盯名人画像。更关键的是，这些基准都没有去评估顺序遗忘的累积效应（cumulative effects of sequential requests）——而这恰恰是终身遗忘问题的核心难点所在。一次删除可能只造成轻微损伤，但当损伤被一次次叠加，模型会不会越删越崩？现有工具回答不了这个问题。

MLUBench 就是为填补这个空白而设计的。它包含127 个广为人知的真实世界实体，分属 9 个类别，配套 5,105 张图像和 15,414 个 VQA 对。这些实体被组织成一个顺序遗忘的任务序列，提供了一个评估遗忘算法长期表现的完整平台。

_{图 2 ｜ MLUBench 的数据构成：9 大类真实实体，"人物"类最多（30 个），合计 127 个实体}

一个值得注意的设计取舍是：MLUBench 用的是真实实体的事实知识，而不是像 TOFU、FIUBench 那样的虚构信息。作者的理由很实际——现实场景里，你要遗忘的是模型本来就掌握的知识；如果用虚构数据，使用者还得先在数据集上微调，才能"种"进去再删掉，平添麻烦。

构造流程也体现了对质量的把控。作者从 Wikipedia 选定 9 类实体，通过自动爬虫从 Google Images 下载图片；不为每个实体单独设计问题，而是为每个类别设计一套共享问题集以抓取该类的共性特征（例如对所有电影都问"谁执导了这部影片"）；随后用 GPT-4o 生成答案并由人工逐一核验。最后一步尤为关键：把每个图文对喂给 LLaVA-v1.6-Vicuna-7B 和 13B，只保留两个模型都答对的样本。这一步保证了"遗忘前模型确实掌握了这些知识"这个前提——否则"遗忘"无从谈起。此外，每个问题还配了 4 个语义等价但措辞不同的变体，用于检验遗忘对 prompt 改写的鲁棒性。

二、问题形式化：终身遗忘到底在优化什么

要读懂这篇论文，必须先看清它的目标函数到底定义了什么。

先看单次的MLLM 遗忘。设MθM_\thetaMθ为参数为θ\thetaθ的 MLLM，fi∈Ff_i \in Ffi∈F表示某个待遗忘实体的遗忘信息，rj∈Rr_j \in Rrj∈R表示某个保留实体的保留信息。一个遗忘任务被定义为t=(Ft,Rt)t = (F_t, R_t)t=(Ft,Rt)，其中Ft={f1,…,fn}F_t = \{f_1, \dots, f_n\}Ft={f1,…,fn}为遗忘集，Rt={r1,…,rm}R_t = \{r_1, \dots, r_m\}Rt={r1,…,rm}为保留集。遗忘后的模型Mθ′M_{\theta'}Mθ′需满足两个条件：对任意fi∈Ftf_i \in F_tfi∈Ft，模型不再展现fif_ifi的多模态知识；对任意rj∈Rtr_j \in R_trj∈Rt，模型保持对rjr_jrj的原有行为。

再看MLLM 终身遗忘。给定一串有序任务T={t1,t2,…,tk}T = \{t_1, t_2, \dots, t_k\}T={t1,t2,…,tk}，模型需逐个顺序遗忘。记θt\theta_tθt为模型仅遗忘任务ttt之后的参数，θT\theta_TθT为顺序遗忘完整个序列后的参数，P(Mθ,t)P(M_\theta, t)P(Mθ,t)为模型在任务ttt上的通用性能度量。终身遗忘的目标是：

min⁡θT∑t∈T(P(Mθt,t)−P(MθT,t))\min_{\theta_T} \sum_{t \in T} \Big( P(M_{\theta_t}, t) - P(M_{\theta_T}, t) \Big)θTmint∈T∑(P(Mθt,t)−P(MθT,t))

这个式子值得反复体会。它优化的不是遗忘本身的强度，而是「刚遗忘完任务ttt时在ttt上的表现」与「跑完整个序列后在ttt上的表现」之间的差距。作者在脚注里也明确点出：该式聚焦于缓解累积退化（stability，稳定性），而非保证底层遗忘方法的绝对效力（efficacy）。

这是一个很重要的定位。它把问题从"能不能删干净"换成了"删完之后会不会越删越崩"。读后文的实验和方法时，请始终记住这一点——它解释了为什么 LUMoE 这样一个并不真正"删除"知识的方法，能在这个目标下取得高分。

三、核心洞察：多模态对齐这笔隐藏税

这是全文最硬的科学贡献，也是整篇论文的主线。

作者的论点旗帜鲜明：MLLM 终身遗忘不是 LLM 终身遗忘的简单延伸，而是一个独立且更难的问题。核心差异就在多模态对齐。在 MLLM 中，遗忘方法必须同时保住三样东西——语言模型本身、视觉部件（视觉适配器 vision adapter 与多模态投影器 multimodal projector）、以及连接二者的对齐关系。这个约束在单模态 LLM 里根本不存在。

光提论点不算数。作者设计了一个非常干净的拆解实验来证明它，把遗忘过程隔离到单一模态上：

Unlearn-LLM-Only：冻结视觉部件，只更新语言主干的权重；
Unlearn-Vision-Only：冻结语言模型，只更新视觉部件。

结果（论文表 1）是关键所在：无论隔离到哪一侧，模型整体都会遭受严重的累积退化。在 Unlearn-Vision-Only 设定下，模型在最早的 Task A 上的表现，在遗忘完最后的 Task D 之后掉到接近 0。这说明问题根本无法靠"只搞定一个模态"来解决——因为单模态的持续扰动，就足以破坏跨模态的对齐。

更进一步，作者给出了一个可量化、可直接观测的证据：模态间隙（Modality Gap），即视觉特征质心与语言特征质心之间的 L2 距离。间隙越小，代表对齐越好。在 Qwen3-VL-4B-Instruct 上测量，遗忘后四个任务的模态间隙全部一致变大。

_{图 3 ｜对齐崩塌的直接证据：遗忘后四个任务上视觉与语言表征之间的间隙一致扩大（论文表 3，Qwen3-VL-4B-Instruct）}

这是这篇论文最有说服力的一张表——它把"对齐被破坏"这句定性论断，变成了一个可测量、可比较的标量。附录 E 的失效分析进一步把损伤拆成三处：在 LLM 侧，持续遗忘不断腐蚀语言权重，而由于知识在 LLM 中是高度纠缠的，删除目标知识时会连带损害整体能力；在视觉侧，持续改写视觉适配器以遗忘特定对象，会退化它对非目标对象的通用特征适配能力；在对齐侧，当视觉表征被持续扰动，视觉与语言之间的对齐就会断裂。三者叠加，模型整体坍缩。

四、评估指标：为什么是"拒答分数"

机器遗忘的"黄金标准"通常被定义为：得到一个与"从未见过遗忘集、从头重训"的模型不可区分的模型。但在 MLUBench 这个设定下，初始 MLLM 本就掌握了这些知识，要重训一个排除 MLUBench 的模型成本高得离谱，黄金标准不再可得。因此，依赖重训模型输出的指标（如 KS-Test）都用不了。作者转而提出了两个基于 GPT-4o 评判的指标。

GPT 拒答分数（Rejection Score）用于度量遗忘质量。核心想法很简单：一个未能拒答的回复，要么是幻觉，要么泄露了被遗忘实体的事实知识，而一个高质量的拒答能同时杜绝这两种情况。给定问题、回复和标准答案，GPT-4o 从{0,1,2}\{0, 1, 2\}{0,1,2}打分，2 分代表高质量拒答。作者特别指出，这个指标可能比其他指标更严格——因为模型只有在输出高质量拒答时才能拿高分，一个幻觉答案在别的指标（如 KS-Test）下可能得分不低，但在拒答分数下直接归零。

GPT 正确性分数（Correctness Score）用于度量模型效用，评估模型在保留集上回答的准确性。同样由 GPT-4o 从{0,1,2}\{0, 1, 2\}{0,1,2}打分，2 分代表准确、相关且高质量的回答。

每个任务的最终得分为：模型得分之和除以最大可能得分之和。

这里我先埋一个伏笔：拒答分数这个度量，对后文将要登场的 LUMoE 是天然友好的。我们在批判性评估一节会回到这一点。

五、LUMoE：用"隔离"保护对齐

既然反复修改权重会破坏对齐，作者的解法干脆利落：那就别动主模型。

LUMoE（Lifelong Unlearning with a Mixture-of-Experts）的设计原则，是把遗忘带来的改动隔离在稳定的 MLLM 之外——不去反复改写主模型，而是"挂载"轻量的、任务专属的模块来处理遗忘请求。这一思路借鉴了混合专家（MoE）框架，并结合 LoRA 这类参数高效微调（PEFT）方法来落地。

_{图 4 ｜ LUMoE：路由器判断输入是否命中遗忘集——命中则挂载对应 LoRA 专家，未命中则交还冻结的原模型（依据论文 §5 重构）}

整个方法分两步。第一步是训练 LoRA 适配器作为专家。作者把每个 LoRA 适配器当作 MoE 框架里的一个专门专家，对每个任务单独执行遗忘以获得对应的适配器。具体训练方式沿用 Maini et al. 的 PO（Preference Optimization）——它是对 DPO 的改造，专注于把模型对齐到"拒绝回答遗忘集相关查询"上，从而让模型倾向于输出拒答（如"抱歉，我无法回答这个问题"）。

第二步是门控路由。这是 LUMoE 的关键元件。作者用 GLM-4V-Plus 这个 SOTA 商用 MLLM 作为路由器，分两步走：先做实体抽取，提示模型从输入中抽出相关实体名；再做任务匹配，把抽出的实体名与此前已遗忘任务关联的实体作比对。如果命中某个任务的遗忘集，就把对应 LoRA 适配器合并进基座模型来处理输入；如果没有匹配（即属于保留集），输入就直接交给原始 MLLM 处理，从而保住模型效用。若一个请求同时命中多个适配器，则可以把它们一起合并而互不干扰。此外还有错误处理机制：当路由器对实体不确定时，指示其输出 “None”，这类问题被归为保留问题，交给原模型处理。

作者自己很克制地把 LUMoE 定位为"一个有效的基线方法，而非终极或完美的解决方案"。它的简洁性来自那个核心洞察——通过隔离任务专属改动来保护多模态对齐。

六、实验结果：现有方法集体崩盘，LUMoE 近乎满分

实验用的 MLLM 为 LLaVA-v1.6-7B、LLaVA-v1.6-13B 和 Qwen3-VL-4B-Instruct；基线为四种广泛使用的遗忘方法：梯度上升 GA、梯度差分 GD、KL 最小化 KL、负偏好优化 NPO。所有模型按 Task A → B → C → D 的顺序遗忘，每遗忘完一个任务保存检查点，并在已遗忘的任务上测试。

6.1 顺序遗忘导致严重的累积退化

这是一个很强的负面结果。所有基线在终身遗忘过程中，遗忘质量和模型效用都出现了显著的累积退化。以 LLaVA-7B 上的 GA 为例，它在 Task A 上初始遗忘质量为 0.38，但在遗忘完 Task D 之后，它在所有此前已遗忘任务上的遗忘质量和模型效用都接近完全退化，逼近 0。最戏剧性的是NPO：它在 Task A 上拿到了 0.420 的最高遗忘质量，但仅仅多遗忘一个 Task B，就直接坍塌到 0.005，效用从 0.238 归零。

_{图 5 ｜顺序遗忘下的性能坍塌：以最早的任务 A 为例，权重修改类方法在数步内几乎归零，LUMoE 全程贴近上限（论文表 2，LLaVA-7B）}

下表给出 LLaVA-7B 上各方法在 Task A 上随顺序遗忘的退化轨迹（“X-UY” 表示遗忘完任务 Y 之后、在任务 X 上的表现）：

方法	A-UA	A-UB	A-UC	A-UD
GA（遗忘质量）	0.380	0.195	0.035	0.010
GD（遗忘质量）	0.330	0.115	0.015	0.000
KL（遗忘质量）	0.280	0.110	0.000	0.000
NPO（遗忘质量）	0.420	0.005	0.000	0.005
LUMoE（遗忘质量）	1.000	1.000	1.000	1.000
LUMoE（模型效用）	0.930	0.930	0.930	0.930

这一趋势在 Qwen3-VL-4B-Instruct 上同样成立（附录 G）：GD 在 Task A 上初始遗忘质量为 0.54，遗忘完 Task B 后崩到 0.115。跨模型族的一致性，强化了"现有方法在终身设定下集体失效"这一发现。

6.2 语言能力被实打实地摧毁

论文图 1(b) 给了一个直观的例子。LLaVA-7B 被要求识别一部知名电影的导演：遗忘前，模型能输出正确答案；经过 1 次 GD 遗忘后，模型开始回避作答，但仍然连贯；而在对其他任务进行 3 次 GD 遗忘之后，模型输出的是"image image image…"这样无意义的重复内容。这表明遗忘操作不只删掉了目标知识，还腐蚀了模型的核心语言能力。

这种损伤还会蔓延到完全无关的通用能力上。作者在 TruthfulQA（一个评估常识理解的数据集）上测了基线方法的退化：GD 的得分从首步遗忘后的 0.528，到第二步暴跌至 0.155，第三步坍塌到 0.005，到最后一步所有基线归零。相比之下，LUMoE 在跑完整个终身遗忘序列后，TruthfulQA 仅从 41.25% 掉到 40.75%（下降 0.50%），在 MMBench-EN/CN、CCBench 等一系列通用基准上的掉幅一致低于 0.6%。这是 LUMoE"隔离主模型"思路最有力的回报之一。

6.3 LUMoE 的稳健性矩阵

作者把鲁棒性验证做得相当充分，几乎堵住了审稿人可能提出的所有质疑：换路由器模型（GLM-4V-Plus 最佳，其次 Gemini，再次 GPT-4o）；换小型开源路由器（Qwen3-VL-4B 平均路由准确率 97.1%，Qwen3-VL-8B 为 98%）；换评判模型（在 Gemini 与 Claude 评判下，LUMoE 遗忘质量仍 >0.9、效用 >0.85，而 GA/GD 等基线一致低于 0.4）；换基准（在 MLLMU-Bench 的 153 个名人画像、3 任务设定下，LUMoE 依旧强劲）；换任务顺序与任务数量（5 任务设定下 LUMoE 各指标仍 >0.88，基线则一两步后完全坍塌）；甚至用 AutoDAN 的越狱提示攻击——遗忘质量仍保持在 0.95 及以上，最大跌幅仅 0.05。

6.4 一个优雅的附录发现：拒答适配器加性合并不冲突

附录 F 有一个我个人很欣赏的结果。直觉上，把为不同任务训练的多个 LoRA 适配器加性合并，可能引发破坏性干扰。但作者把五个拒答适配器逐步合并（A+B、A+B+C…直到 A+B+C+D+E）后发现，合并后每个任务上的遗忘质量不降反升，甚至超过单独适配器。原因很巧妙——不同于标准微调里 LoRA 模块各自学习互相冲突的事实（任务 A 学"答案是 X"，任务 B 学"答案是 Y"），LUMoE 的这些适配器学的都是同一个"拒答"行为，因此彼此不打架。这个解释干净利落，也顺带印证了 LUMoE 的可扩展性边界来自别处（见下文）。

效率方面（表 9），训练一个 LoRA 适配器约 11 分钟，单个 QA 对的任务匹配约 2 秒，缓存后合并适配器约 4 秒，单个适配器约 170MB。

七、批判性评估：这篇论文的真正分量与软肋

前面是论文做了什么。这一节是我作为读者的判断——哪些是扎实的真东西，哪些是值得追问的地方。我会尽量把两者分开讲。

第一，也是最该追问的：LUMoE 严格说不是"遗忘"，而是"门禁"。它从头到尾没有修改主模型的任何一个权重——知识完完整整地留在基座模型里，只是路由器拦截了"敏感问题"并改道到拒答适配器。但论文自己引用的黄金标准是"模型与从未见过该数据、从头重训的模型不可区分"。LUMoE 离这个标准十万八千里：只要你能拿到基座模型的权重，知识一字未删。如果数据所有者的诉求是"我的数据不能存在于你的模型里"，那么 LUMoE 根本没有回应这个诉求。本质上，论文把问题从"删除"悄悄换成了"拒绝回答"——这两件事不是一回事。作者在附录 N 也坦承了这一点：一旦路由模型开源，整套防护在白盒攻击下就会失效。

第二，比较的天平是倾斜的。LUMoE 实际上在推理管线里额外塞进了一整个商用 MLLM（GLM-4V-Plus）作为路由器，而基线方法只能修改自己那一个模型的权重。这是拿"系统级方案"去碾压"方法级方案"。它接近 1.0 的遗忘质量，很大程度上来自"路由器 + 拒答适配器"这套组合极其擅长产出干净的拒答——这并不完全是一次对等的较量。

第三，指标设计对 LUMoE 天然友好，存在循环论证的风险。GPT 拒答分数奖励高质量拒答，而 LUMoE 本质上就是一个被工程化设计来产出拒答的系统（PO 训练的目标就是拒答）。一个为产出拒答而生的系统，在一个奖励拒答的指标上拿满分——这里有循环论证的味道。那些试图真正降解知识的基线方法，产出的是幻觉或乱码，在这个指标下得 0。作者用人工标注做了交叉验证（附录 H，两名计算机博士生标注，与 GPT-4o 评判高度一致）来缓解这一担忧，这点值得肯定；但指标对方法的结构性偏好是客观存在的，写稿或复现时不应忽略。

第四，漏检即泄漏。整套系统的命门在于路由器能否正确识别实体。错误处理逻辑是"不确定 → 归为保留集 → 走原模型"，这意味着任何一次假阴性（false negative）都会把本该遗忘的知识原样吐出来。97%–98% 的路由准确率听起来很高，但对隐私或版权这种高风险场景，2%–3% 的泄漏率可能就是不可接受的。

第五，可扩展性，作者也承认了。每个任务一个约 170MB 的适配器，在百万级请求规模下并不可行——论文明确把这列为"开放问题"。而且一旦遇到细粒度请求（如"只忘掉《星球大战》的导演，但保留演员"），适配器数量会进一步膨胀。

话说回来，这篇论文有几样东西是扎实的真贡献，不应被上述批评淹没。多模态对齐这笔隐藏税的洞察是真东西，模态间隙的量化测量优雅而有说服力；Unlearn-LLM-Only / Unlearn-Vision-Only 的单模态拆解实验设计得非常干净；MLUBench 在规模和多样性上确实超过了此前的基准；而"所有现有方法在终身多模态设定下集体崩盘"这个负面结果本身就极具价值——它清楚地暴露了当前方法有多脆。

从某种意义上说，MLUBench 最大的作用是一座"坟场"，它把现有方法的脆弱性彻底摆上了台面；而 LUMoE 之所以"赢"，恰恰是因为它聪明地绕开了那个真正最难的问题——如何在不破坏对齐的前提下，真正地从权重里抹掉知识。

八、对从业者的意义

如果你在做模型隐私或合规相关的工程，这篇论文有几点直接的启示。

其一，在多模态模型上做遗忘，不能把它当成 LLM 遗忘的简单照搬。视觉与语言之间的对齐是一个独立且脆弱的约束，任何持续改写权重的方案——哪怕只动单侧模态——都有把整个模型拖垮的风险。模态间隙是一个轻量、可监控的对齐健康度指标，值得在你的遗忘流水线里挂上。

其二，"隔离改动"是一个在工程上非常实用的范式。即便你不认同 LUMoE 算不算真正的"遗忘"，它"冻结主模型、用可插拔适配器处理请求"的架构，在"必须保住核心能力"的高风险场景下有明确的工程价值——效用保留几乎是免费的（未命中就走原模型），新请求也能通过训练新适配器来线性扩展。

其三，想清楚你的合规目标到底是"不输出"还是"不存在"。如果监管或数据方要求的是后者（知识必须从权重中消失），那么 LUMoE 这类门禁式方案并不达标，你需要的是真正的权重级遗忘——而这篇论文恰恰说明，在多模态终身设定下，真正的权重级遗忘仍是一个远未解决的开放难题。

企业官网建设流程全解析

一、为什么需要 MLUBench：现有基准的盲区

二、问题形式化：终身遗忘到底在优化什么

三、核心洞察：多模态对齐这笔隐藏税

四、评估指标：为什么是"拒答分数"

五、LUMoE：用"隔离"保护对齐

六、实验结果：现有方法集体崩盘，LUMoE 近乎满分

6.1 顺序遗忘导致严重的累积退化

6.2 语言能力被实打实地摧毁

6.3 LUMoE 的稳健性矩阵

6.4 一个优雅的附录发现：拒答适配器加性合并不冲突

七、批判性评估：这篇论文的真正分量与软肋

八、对从业者的意义

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一、为什么需要 MLUBench：现有基准的盲区

二、问题形式化：终身遗忘到底在优化什么

三、核心洞察：多模态对齐这笔隐藏税

四、评估指标：为什么是"拒答分数"

五、LUMoE：用"隔离"保护对齐

六、实验结果：现有方法集体崩盘，LUMoE 近乎满分

6.1 顺序遗忘导致严重的累积退化

6.2 语言能力被实打实地摧毁

6.3 LUMoE 的稳健性矩阵

6.4 一个优雅的附录发现：拒答适配器加性合并不冲突

七、批判性评估：这篇论文的真正分量与软肋

八、对从业者的意义

热门文章

文章分类

标签云

相关文章

基于TC646的PWM风扇控制器设计：从原理到实战调试

TC127x电源监控复位芯片选型与应用指南：从原理到实战

创业项目哪家培训好

需要专业的网站建设服务？