本文深入探讨了Ollama库中大模型近三个月的更新趋势,指出本地模型评价体系正逐渐独立于云端。文章从本地部署可行性、综合能力、上下文长度、多模态/工具能力、生态活跃度五个维度,对比分析了Qwen 3.5、GLM-4.7-Flash、Gemma 3、DeepSeek-R1等模型,并给出了综合排名。强调本地模型已不再是云端的“阉割版”,而是发展出独立路线和评价标准,为普通用户提供了更多选择和可能性。
过去三个月,Ollama 库里的更新明显提速,像 Qwen 3.5、GLM-4.7-Flash、TranslateGemma、LFM2 这类模型都在最近几周到一个月内有很新的一波动作;与此同时,Onyx 这类榜单也越来越明确地把“总榜最强”和“自托管/本地最合适”拆开来看。
本地模型的评价体系,已经越来越独立了。
很多人现在挑模型,还是会下意识地去看“谁 benchmark 更高”“谁参数更大”“谁总榜排前面”。但问题在于,那套看法放到本地部署场景里,经常会失真。
Onyx 3 月 12 日更新的开放模型总榜里,前排是 GLM-5、Kimi K2.5、MiniMax M2.5、DeepSeek V3.2、Qwen 3.5 这一批大体量模型;可它同一天维护的 self-hosted 榜单,又明确把“质量、速度、硬件要求、成本”一起纳入自托管评价。说白了,行业上限和本地最优解,本来就不是一回事。
所以这篇文章,我们只看一件事:如果普通人真的要在 Ollama 里本地部署一个当前值得用、实际能干活的大模型,谁更值得选?
我会沿着 5 个维度来排:本地部署可行性、综合能力、上下文长度、多模态/工具能力、最近 3 个月的生态活跃度。
先说结论,我给出的综合排名是:
最近 3 个月,行业里发生了一个很明显的变化:
本地模型不再只是云端模型的“阉割版替代品”,而是在走自己的路线。
你去看 Ollama 最近的更新,会发现几个共同方向越来越清楚。
第一,大家开始更强调激活参数、MoE、量化、真实内存占用,而不是只堆总参数。GLM-4.7-Flash 直接写明自己是 30B-A3B 的 MoE 结构,LFM2 更直接,24B-A2B,只有 2B active parameters/token,还强调能放进 32GB RAM。
第二,模型开始分工了,通用、代码、翻译、视觉,不再执着于一个模型包打天下。(下图以qwen3.5为例)
第三,更新节奏本身也越来越重要。一个模型强不强,不只是看它当年有没有风光过,还要看它最近有没有在继续推进。
这件事实际上对普通用户很现实。
因为以前你选模型,更多是在“性能”和“跑不动”之间做二选一,只能硬件设施狗,就直接上最新最强版!
但是现在不一样了。我们得开始考虑,更细节的东西,比如,我到底是要一个通用主力模型,还是代码专精模型,还是翻译专项模型?我要的是长上下文,还是低资源高效率?我要的是单卡稳定,还是高显存压性能?这时候,参数量已经不再是唯一答案。
你机器里装的,不只是一个模型,而是一套工作流的入口。
Qwen 3.5 N0.1 ?!
如果你问我,2026 年 3 月,Ollama 里只能装一个本地大模型,我会先装谁?
我的答案是 Qwen 3.5——原因很简单,它太均衡了。
Ollama 页面显示,Qwen 3.5 两周前刚更新,覆盖从 0.8B 到 122B 的完整梯度,支持视觉、工具、thinking,还有 cloud 版本;本地常用的 9B 大约 6.6GB,27B 大约 17GB,而且全系给到 256K context。更关键的是,它不是单纯“能聊天”,官方写得很直白:这是一个 open-source multimodal family,还特别提到扩展到了 201 种语言和方言。
Qwen 3.5 最大的优点,不是某一项能力绝对顶尖,而是你几乎很难找到它明显拉胯的短板。
长文本可以做,图文混合可以做,中文写作和多语言也能扛,工具调用和推理能力都在线,本地尺寸梯度还给得很完整。这种模型特别适合当“主模型”。也就是你平时 70% 到 80% 的事情,都先扔给它。你不需要每个任务都换模型,不需要每次都重新适配 prompt,整体使用成本会低很多。
对于中文用户来说,这一点尤其关键。因为很多英文强、图片强、参数也不小的模型,一到中文真实写作和复杂表达这里,味道就会差一截。Qwen 3.5 在这一点上明显更稳。关于“中文更优先”这点,我这里是结合它的语言覆盖定位和阿里系模型长期在中文场景里的实际取向做的判断,属于经验性结论,不是 Ollama 页面逐字写出的宣传语。
当然,Qwen 3.5 也不是没有代价。
它的问题其实很典型:越均衡的模型,越不容易在单项上做到绝对极致。如果你只盯着代码代理,那 Qwen3-Coder-Next 会更狠;如果你只盯着某些推理 benchmark,新一代 GLM-4.7-Flash 也更有冲劲。还有一个现实问题,小尺寸版本虽然方便,但“够用”和“压制级”之间,始终是两回事。也就是说,Qwen 3.5 很适合当第一选择,但不代表它会是你最后唯一的模型。
GLM-4.7-Flash 是条黑马?
如果说 Qwen 3.5 是“稳”,那 GLM-4.7-Flash 给人的感觉就是“新”。
Ollama 页面写得很直接:它是 30B class 里最强的路线之一,定位就是 lightweight deployment,同时兼顾 performance 和 efficiency;本地 q4_K_M 大约 19GB,context 给到 198K,而且更新非常新——就是 1 个月前。
单看这些信息,你就知道它不是上一代模型的余温,而是现在这波本地模型竞争里真正要占位置的玩家。
它为什么会让我排到第二?
因为它踩中了本地模型现在最重要的一条线:用 MoE 结构,把“大模型体验”和“本地成本”往中间压。Ollama 页面写明它是 30B-A3B MoE。总量不算小,但每个 token 的活跃代价更低,这种结构对本地部署特别友好。更有意思的是,官方还直接给了它和 Qwen3-30B-A3B-Thinking-2507、GPT-OSS-20B 的对比,在 AIME 25、GPQA、HLE、SWE-bench Verified、τ²-Bench、BrowseComp 这些项目上,GLM-4.7-Flash 的表现都很能打,尤其在 SWE-bench Verified、τ²-Bench 和 BrowseComp 上优势非常明显。
也就是说,它不只是会考试,还是奔着 agent、工具调用、复杂执行场景去的。
都这么强了,那它为什么没排第一?
因为它还是有门槛。
首先,Ollama 页面明确写了,这个模型需要 0.14.3 的 pre-release 版本,这件事本身就会提高折腾成本。
其次,它目前在多模态上的存在感,明显不如 Qwen 3.5 和 Gemma 3 那么完整。
再往下说,生态成熟度这件事也不能忽略。Qwen、DeepSeek 这类模型,你能搜到的经验、配置、踩坑记录、讨论量,会比 GLM-4.7-Flash 丰富得多。
对于普通人来说,就问一句,你养得起吗?(养得起就养它!)
Gemma 3 稳定老三?
Gemma 3 很像那种你一开始没把它当第一选择,但越看越觉得“这东西真的很适合日常用”的模型。
Ollama 给它的定义非常清晰:the current, most capable model that runs on a single GPU。这句话的潜台词其实很清楚了——它不是要跟云端巨兽拼天花板,而是要把“单卡时代最强可用性”这件事做到极致。Gemma 3 支持 text + image,context 是 128K,支持 140 多种语言,尺寸又从 270M、1B 一直给到 27B;4B、12B、27B 这三档对本地用户尤其友好。再加上它还有 QAT 版本,官方写得很明确:在保持接近 BF16 质量的同时,内存占用能比非量化版低 3 倍。
Gemma 3 最强的地方,在于它非常清楚自己服务的是谁。
这也是为什么它特别适合两类人。
第一类是单卡 GPU 用户,或者 Mac 本地用户。
第二类是英文、多语言、轻量多模态工作流的人。比如文档问答、图表理解、截图解释、网页分析、轻量知识助手,这些活交给 Gemma 3,其实很顺。
当然,它没进前二也有原因。
首先,从中文用户真实需求出发,Gemma 3 往往不是第一反应。它支持 140 多种语言没错,但“支持”和“中文写得最懂你”不是一回事。
其次,它在工具/agent 这条线上,官方定位没有 Qwen 3.5 和 GLM-4.7-Flash 那么强势。
DeepSeek-R1:稳居第四
DeepSeek-R1 很有意思。
你如果混 Ollama 生态,几乎不可能没见过它。它的社区存在感太强了。Ollama 库里,deepseek-r1 的下载量非常高,library 页面显示是 80M pulls,模型覆盖从 1.5B 到 671B,8B 常见量化版大约 5.2GB,context 是 128K。更重要的是,它在本地 reasoning 这件事上,已经属于“被很多人验证过”的经典选项。
它为什么到今天还值得装?
因为它在推理、逻辑、数学这条线上,仍然很能打。Ollama 页面提到,DeepSeek-R1-0528 对 8B distilled 版和 671B full 版做了小版本升级,推理和 inference 能力进一步提升,数学、编程、一般逻辑这些 benchmark 上表现都更好,整体水平已经逼近 O3 和 Gemini 2.5 Pro。换句话说,如果你的本地需求偏 reasoning,而不是偏视觉、偏 agent、偏多模态综合体验,那 DeepSeek-R1 仍然是个很稳的选择。
但它为什么只排第四?
因为它在 Ollama 上的更新时间已经是 8 个月前了,这个时间差放到 2026 年 3 月,其实已经不短了。最近 3 个月,新的热点明显在往 GLM-4.7-Flash、Qwen 3.5、TranslateGemma、LFM2 这波新模型上挪;而行业总榜那边,又在继续往 GLM-5、Kimi K2.5、DeepSeek V3.2 这类更高规格模型推进。
R1 现在给我的感觉,更像一个“老牌、成熟、稳定、依然能打”的本地 reasoning 选项,而不是最前沿那个。在AI时代,三个月都感觉像上个世纪的事儿了……
我该怎么选?
很多人看完综合榜,还是会问:
那我具体该怎么选?
其实很简单。
如果你要一个通用主力模型,优先看Qwen 3.5,其次是Gemma 3,再往后才是GLM-4.7-Flash。因为通用主力最怕偏科,而 Qwen 3.5 的综合覆盖确实最好。
如果你更看重推理、逻辑、数学,那答案会往GLM-4.7-Flash和DeepSeek-R1靠。前者胜在更近、更猛、更 agentic;后者胜在更成熟、资料更多、社区验证更充分。
如果你主要是代码工作流,那Qwen3-Coder-Next会是很强的专项武器。只是你得先问自己一句:你机器扛不扛得住 52GB 起步的本地模型。如果扛不住,退一步,Qwen 3.5 反而是更现实的选择。
如果你是单卡用户,或者想要轻量、多模态、少折腾,那Gemma 3很值得优先试。它的定位清楚,体积友好,QAT 版也很香。
以前大家聊本地部署,语气里总有一种“退而求其次”的感觉。
好像因为云端太强、闭源太猛,所以我们只能在本地将就一下。
但现在不是这样了。本地大模型终于开始摆脱“云端平替”这个身份了。
现在的本地模型,已经开始有自己的路线,有自己的优先级,也有自己的评判方法。有人卷综合全能,有人卷单卡体验,有人卷推理效率,有人卷代码代理,有人卷翻译专项。你会发现,本地生态正在从“替身”变成“优选”。
尤其家里有旧电脑,配置还可以,卖二手又舍不得,带出去又嫌重的,重新装一个Linux系统,部署一个本地大模型,再养个小龙虾,或者nanobot,又或者tmux自己写,在手机上远程指挥,不太在意速度,能省下不少tokens。
最后
如果说程序员已经是高薪职业,那么干AI的程序员,就是高薪中的高薪。
现在的市场,已经用数据给程序员指明了方向:学AI大模型,就是冲刺高薪的最优解!
看着身边越来越多的同行转型大模型、拿到高薪offer,很多人心里都动了心,但真正的难题来了:零基础小白不知道从哪入门?有基础的程序员找不到系统学习路径?实战项目练手无门?面试不知道考什么?
别慌!今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包,覆盖从入门到实战、从理论到面试、从基础到进阶的全流程,所有资料均已整理归档,无冗余、无套路,免费分享给每一位想抓住AI风口的程序员和小白!
👇👇扫码免费领取全部内容👇👇
1、大模型系统化学习路线
2、大模型学习书籍&文档
3、AI大模型最新行业报告
4、大模型项目实战&配套源码
5、大模型大厂面试真题
四阶段精细化学习规划(附时间节点,可直接照做)
结合上述资源,给大家整理了一份可直接落地的四阶段学习规划,总时长约2个月,小白可循序渐进,程序员可根据自身基础调整节奏,高效掌握大模型核心能力,快速实现从“入门”到“能落地、能面试”的跨越。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
👇👇扫码免费领取全部内容👇👇
6、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】