MiniMax M3 发布 3 天，SWE-Bench 超越 GPT-5.5：国产大模型首次三项全能，附 API 实测-迪斯科星球

MiniMax M3 发布 3 天，SWE-Bench 超越 GPT-5.5：国产大模型首次三项全能，附 API 实测

2026 年 6 月 1 日，MiniMax 悄悄扔了一颗炸弹——M3 模型。

这颗炸弹有多响？SWE-Bench Pro 编程评测59.0%，直接超过 GPT-5.5 和 Gemini 3.1 Pro，逼近 Claude Opus 4.7；BrowseComp 浏览器信息检索83.5 分，把 Opus 4.7（79.3）甩在身后；原生支持100 万 token 上下文窗口，而且是多模态从 Day 1 就开始训练的，不是后期打补丁嫁接的。

说人话：这是国产大模型历史上，第一次同时把「前沿编程能力 + 超长上下文 + 原生多模态」三件事搞定在一个模型里。

这篇文章带你快速看懂 M3 到底强在哪，怎么接入，值不值得用。

为什么 M3 值得关注？三个关键数据

先不急着看技术细节，这三个数字是我觉得最能说明问题的：

评测基准	M3 成绩	对比
SWE-Bench Pro	59.0%	超 GPT-5.5、Gemini 3.1 Pro
BrowseComp	83.5	超 Opus 4.7（79.3）
1M 上下文计算量	仅为上代 1/20	MSA 稀疏注意力架构

SWE-Bench Pro 是业界公认的软件工程能力标尺，考的是模型在真实 GitHub issue 场景下修复 bug、写代码的能力。59% 的通过率意味着 M3 已经能干活了，不是实验室玩具。

BrowseComp 更有意思——它让模型在真实网页环境里搜索、筛选、综合信息。83.5 分意味着 M3 的 Agent 能力（工具调用、信息检索、多步推理）已经非常扎实。

MSA 架构：让 100 万上下文真的能用

大模型谈「百万上下文」不稀奇，稀奇的是真的能用——不卡、不贵、不降智。

M3 的秘密武器是MSA（MiniMax Sparse Attention），一个两阶段的稀疏注意力架构：

Index Attention：用轻量索引 query 对 KV 缓存做 Block Max Pooling，只选出 Top-k 个最相关的 KV 块，计算成本极低
Sparse Attention：仅对这 Top-k 个块做完整注意力计算，其余直接跳过

官方给出的对比数据：

Prefilling（预填充）加速> 9 倍
Decoding（逐 token 生成）加速> 15 倍
1M 上下文下每 token 计算量仅为上代的1/20

而且官方强调：在多个对照实验中，MSA 的能力与全注意力基本打平，没有明显损失。这意味着长上下文终于不是「能开但不能用」的营销噱头了。

三项硬核实验：不是刷榜，是真干活

光跑分高没用，得看实际表现。MiniMax 官方给了 M3 三道「实战题」，每一项都不是标准 benchmark，而是模拟真实开发场景：

1. 独立复现 ICLR 获奖论文

给 M3 一篇 ICLR 2025 杰出论文（Learning Dynamics of LLM Finetuning），让它独立复现核心实验。M3 连续运行~12 小时，产出18 次 commit、23 张实验图表，成功复现了 SFT 概率变化、DPO squeezing 效应等关键发现。

这件事难在哪？模型需要同时看懂图表公式（多模态）、把论文+代码+日志一次性装进窗口（长上下文）、自主规划实验步骤（Agent 能力）。三项少一项都跑不下来。

2. CUDA 算子优化

起点只有任务描述 + benchmark 脚本 + 一个跑不通的 Triton 骨架。M3 耗时~24 小时，迭代147 次 benchmark 提交，1959 次工具调用，把硬件峰值利用率从7.6% 拉到 71.3%——9.4 倍加速，最佳结果出现在第 145 次提交。

注意这个细节：其他参评模型大多在前 30 次就停滞了，M3 展现出「持续迭代的耐力」——这恰恰是真实开发中最稀缺的能力。

3. PostTrainBench：AI 训练 AI

12 小时内对 4 个 Base 模型完成「数据合成 → 训练 → 评测 → 迭代」全流程，全程无人干预。M3 得分 37.1，排名第三，仅次于 Opus 4.7（42.4）和 GPT-5.5（39.3）。

API 怎么接入？5 分钟上手

M3 兼容 OpenAI API 格式，接入成本极低。几步就能跑起来：

importrequests API_URL="https://api.minimaxi.com/v1/text/chatcompletion_v2"API_KEY="your-minimax-api-key"headers={"Authorization":f"Bearer{API_KEY}","Content-Type":"application/json"}payload={"model":"MiniMax-M3","messages":[{"role":"user","content":"用 Python 写一个快速排序，带中文注释"}]}response=requests.post(API_URL,json=payload,headers=headers)print(response.json()["choices"][0]["message"]["content"])

M3 支持两种思考模式——Thinking（深度推理）和 Non-thinking（快速响应），同一价位，按需切换。处理复杂编程问题开 Thinking，简单问答切 Non-thinking，灵活省钱。

定价：比 Claude 便宜得多的国产方案

M3 走「量大价低」路线，Token Plan 订阅方案：

档位	月费	Token 量	对标
Plus	¥49/月	6 亿	≈ Claude Pro 的 5 倍
Max	¥119/月	18 亿	≈ Claude Max 的 2 倍
Ultra	¥469/月	55 亿	重度用户

而且现在512K 上下文版本上线限时 5 折，持续 7 天（到 6 月 8 日前后）。想体验的趁早。

值得注意的点：开源在即 + 配套工具

MiniMax 官方确认：M3 模型权重和技术报告将在发布后 10 天内开源（HuggingFace + GitHub），支持私有部署和微调。这意味着企业用户可以在自己的服务器上跑 M3，不用把代码传到云端。

同时推出的MiniMax Code（agent.minimax.io）是专为 M3 设计的 Agent 工具，核心机制是 Producer + Verifier 对抗式设计——生成代码 → 自动验证 → 修正 → 再验证，直到通过。这套机制和 M3 在 CUDA 优化中 147 次自迭代的行为完全一致。

MiniMax Code 目前支持 Claude Code、Roo Code、Kilo Code、Cline、Codex CLI、Cursor 等 10+ AI 编码工具——改一个 endpoint URL 就能用 M3 替代原有模型。

我的判断：值得关注，但别急着下结论

M3 三项能力都不弱，没有明显短板。MSA 架构让 1M 上下文从「能开」变成「能用」，SWE-Bench 59% 证明编程能力迈入前沿，BrowseComp 83.5 说明 Agent 能力扎实。49 元/月的定价对个人开发者友好，代码质量实测下来也够用。

但有些东西还得观察：真实开发场景下和 Opus 4.7 的差距到底多大？开源版能力保留多少？长线程任务的稳定性到哪一步？这些等一周后开源就能验证了。

国产大模型今年卷得飞起：DeepSeek V4、MiniMax M3、GLM-5.1、Kimi 2.6 轮番上阵。对开发者来说，模型越卷，选择越多，成本越低——最终受益的是写代码的我们。

📌 作者：Aliaoo
🚀 专注 AI 工具实战、云部署、自动化脚本。每篇都是亲测可跑的教程。

🖥️需要云服务器跑项目？👉 CSDN 开发云常年折扣，新用户首单特惠

📬 觉得有用就点个赞，想追更就点个关注——下次搜到我不靠缘分。

企业官网建设流程全解析