MiniMax M3 发布 3 天,SWE-Bench 超越 GPT-5.5:国产大模型首次三项全能,附 API 实测
2026/6/5 10:23:43 网站建设 项目流程

MiniMax M3 发布 3 天,SWE-Bench 超越 GPT-5.5:国产大模型首次三项全能,附 API 实测

2026 年 6 月 1 日,MiniMax 悄悄扔了一颗炸弹——M3 模型。

这颗炸弹有多响?SWE-Bench Pro 编程评测59.0%,直接超过 GPT-5.5 和 Gemini 3.1 Pro,逼近 Claude Opus 4.7;BrowseComp 浏览器信息检索83.5 分,把 Opus 4.7(79.3)甩在身后;原生支持100 万 token 上下文窗口,而且是多模态从 Day 1 就开始训练的,不是后期打补丁嫁接的。

说人话:这是国产大模型历史上,第一次同时把「前沿编程能力 + 超长上下文 + 原生多模态」三件事搞定在一个模型里。

这篇文章带你快速看懂 M3 到底强在哪,怎么接入,值不值得用。

为什么 M3 值得关注?三个关键数据

先不急着看技术细节,这三个数字是我觉得最能说明问题的:

评测基准M3 成绩对比
SWE-Bench Pro59.0%超 GPT-5.5、Gemini 3.1 Pro
BrowseComp83.5超 Opus 4.7(79.3)
1M 上下文计算量仅为上代 1/20MSA 稀疏注意力架构

SWE-Bench Pro 是业界公认的软件工程能力标尺,考的是模型在真实 GitHub issue 场景下修复 bug、写代码的能力。59% 的通过率意味着 M3 已经能干活了,不是实验室玩具。

BrowseComp 更有意思——它让模型在真实网页环境里搜索、筛选、综合信息。83.5 分意味着 M3 的 Agent 能力(工具调用、信息检索、多步推理)已经非常扎实。

MSA 架构:让 100 万上下文真的能用

大模型谈「百万上下文」不稀奇,稀奇的是真的能用——不卡、不贵、不降智。

M3 的秘密武器是MSA(MiniMax Sparse Attention),一个两阶段的稀疏注意力架构:

  1. Index Attention:用轻量索引 query 对 KV 缓存做 Block Max Pooling,只选出 Top-k 个最相关的 KV 块,计算成本极低
  2. Sparse Attention:仅对这 Top-k 个块做完整注意力计算,其余直接跳过

官方给出的对比数据:

  • Prefilling(预填充)加速> 9 倍
  • Decoding(逐 token 生成)加速> 15 倍
  • 1M 上下文下每 token 计算量仅为上代的1/20

而且官方强调:在多个对照实验中,MSA 的能力与全注意力基本打平,没有明显损失。这意味着长上下文终于不是「能开但不能用」的营销噱头了。

三项硬核实验:不是刷榜,是真干活

光跑分高没用,得看实际表现。MiniMax 官方给了 M3 三道「实战题」,每一项都不是标准 benchmark,而是模拟真实开发场景:

1. 独立复现 ICLR 获奖论文

给 M3 一篇 ICLR 2025 杰出论文(Learning Dynamics of LLM Finetuning),让它独立复现核心实验。M3 连续运行~12 小时,产出18 次 commit23 张实验图表,成功复现了 SFT 概率变化、DPO squeezing 效应等关键发现。

这件事难在哪?模型需要同时看懂图表公式(多模态)、把论文+代码+日志一次性装进窗口(长上下文)、自主规划实验步骤(Agent 能力)。三项少一项都跑不下来。

2. CUDA 算子优化

起点只有任务描述 + benchmark 脚本 + 一个跑不通的 Triton 骨架。M3 耗时~24 小时,迭代147 次 benchmark 提交1959 次工具调用,把硬件峰值利用率从7.6% 拉到 71.3%——9.4 倍加速,最佳结果出现在第 145 次提交。

注意这个细节:其他参评模型大多在前 30 次就停滞了,M3 展现出「持续迭代的耐力」——这恰恰是真实开发中最稀缺的能力。

3. PostTrainBench:AI 训练 AI

12 小时内对 4 个 Base 模型完成「数据合成 → 训练 → 评测 → 迭代」全流程,全程无人干预。M3 得分 37.1,排名第三,仅次于 Opus 4.7(42.4)和 GPT-5.5(39.3)。

API 怎么接入?5 分钟上手

M3 兼容 OpenAI API 格式,接入成本极低。几步就能跑起来:

importrequests API_URL="https://api.minimaxi.com/v1/text/chatcompletion_v2"API_KEY="your-minimax-api-key"headers={"Authorization":f"Bearer{API_KEY}","Content-Type":"application/json"}payload={"model":"MiniMax-M3","messages":[{"role":"user","content":"用 Python 写一个快速排序,带中文注释"}]}response=requests.post(API_URL,json=payload,headers=headers)print(response.json()["choices"][0]["message"]["content"])

M3 支持两种思考模式——Thinking(深度推理)和 Non-thinking(快速响应),同一价位,按需切换。处理复杂编程问题开 Thinking,简单问答切 Non-thinking,灵活省钱。

定价:比 Claude 便宜得多的国产方案

M3 走「量大价低」路线,Token Plan 订阅方案:

档位月费Token 量对标
Plus¥49/月6 亿≈ Claude Pro 的 5 倍
Max¥119/月18 亿≈ Claude Max 的 2 倍
Ultra¥469/月55 亿重度用户

而且现在512K 上下文版本上线限时 5 折,持续 7 天(到 6 月 8 日前后)。想体验的趁早。

值得注意的点:开源在即 + 配套工具

MiniMax 官方确认:M3 模型权重和技术报告将在发布后 10 天内开源(HuggingFace + GitHub),支持私有部署和微调。这意味着企业用户可以在自己的服务器上跑 M3,不用把代码传到云端。

同时推出的MiniMax Code(agent.minimax.io)是专为 M3 设计的 Agent 工具,核心机制是 Producer + Verifier 对抗式设计——生成代码 → 自动验证 → 修正 → 再验证,直到通过。这套机制和 M3 在 CUDA 优化中 147 次自迭代的行为完全一致。

MiniMax Code 目前支持 Claude Code、Roo Code、Kilo Code、Cline、Codex CLI、Cursor 等 10+ AI 编码工具——改一个 endpoint URL 就能用 M3 替代原有模型。

我的判断:值得关注,但别急着下结论

M3 三项能力都不弱,没有明显短板。MSA 架构让 1M 上下文从「能开」变成「能用」,SWE-Bench 59% 证明编程能力迈入前沿,BrowseComp 83.5 说明 Agent 能力扎实。49 元/月的定价对个人开发者友好,代码质量实测下来也够用。

但有些东西还得观察:真实开发场景下和 Opus 4.7 的差距到底多大?开源版能力保留多少?长线程任务的稳定性到哪一步?这些等一周后开源就能验证了。

国产大模型今年卷得飞起:DeepSeek V4、MiniMax M3、GLM-5.1、Kimi 2.6 轮番上阵。对开发者来说,模型越卷,选择越多,成本越低——最终受益的是写代码的我们。


📌 作者:Aliaoo
🚀 专注 AI 工具实战、云部署、自动化脚本。每篇都是亲测可跑的教程。

🖥️需要云服务器跑项目?👉 CSDN 开发云常年折扣,新用户首单特惠

📬 觉得有用就点个赞,想追更就点个关注——下次搜到我不靠缘分。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询