养慢虾哲学:8.5 t/s 就够了
2026/6/9 2:34:55 网站建设 项目流程

一、引子

有人#养龙虾#——RTX 4090、H100,120 t/s 往上飙,用算力换时间,追求的是极致速度。

我#养慢虾#——AMD AI9 HX370 迷你主机,体积不到 1 升,功耗 65W,跑 Qwen3.6-27B-MTP-Q4_K_M,速度 8.5 t/s。

8.5 t/s 是什么概念?人类说话速度大约每秒 3-10 个字,打字速度也在这个区间。8.5 t/s 刚好能跟上我的思考节奏——我想到的时候它刚好说到那儿,我打断它的时候它刚好停住,不会像机关枪一样噼里啪啦输出完一堆我根本来不及看的文字。

这不是什么"黄金区间",也不是什么"同步区"。其实这就是我的硬件刚刚好。

二、算法的力量

早前我也没用#HX370#来跑27B稠密模型,确实太慢了,看我的测试记录只有4.57t/s。得益于最近发布的核心武器 MTP——Multi-Token Prediction,多 token 预测。推理速度有了些提升,我才改用了这个更聪明的#Qwen3.6-27B#模型。

MTP的原理很简单:模型在生成下一个 token 的时候,不只是猜一个,而是同时猜出后面好多个 token。这些猜出来的 token 叫"草稿"。解码器拿到草稿后,一次性验证——对的直接采纳,错的就回退到错误位置继续生成。

HX370 跑 27B 模型的原始速度大约 4-5 t/s,MTP 生效后翻倍到 8.5 t/s。76.7% 的草稿接受率意味着每生成 1 个 token,模型大约能同时猜对 3 个后续 token。


这不是理论值。76.7% 是我在真实对话中跑出来的:写代码、改配置、讨论技术方案,各种上下文长度和任务类型都有。

llama.cpp 里打开它只需要两个参数:

--spec-type draft-mtp 和 --spec-draft-n-max 4

前者启用 MTP 模式,后者限制每次最多猜 4 个 token。这个数值可以测试得到。

算法的力量在于,它不依赖更强的硬件,而是让现有硬件发挥更大的价值。

三、nanobot 的工程适配

nanobot 不是为慢速 LLM 原生设计的,需要我来慢慢调教来#养慢虾#。

主要的问题是超时策略。

慢速 LLM 不能按 100 t/s 的模型设超时。我根据上下文长度和任务复杂度动态估算——2000 个 token 的回复,等 4 分钟是合理的。 原来默认设置是120秒,设置长一点是安全的,可以设为 1800。

这些改动不复杂,但每一个都是踩坑踩出来的。

四、Dense 还是 MoE?

我其实可以有有两种模式来#养慢虾#

  • HX370 + 27B Dense 8.5 tps:深度讨论、nanobot 主力编程 7x24
  • HX370 + 35B MoE 25+tps:闲了坐在电脑前对话,头脑风暴、需要速度的场景

不是 MoE 不够快,也不是 Dense 更聪明。是 Dense 模型的注意力更稳定,适合长期对话和记忆。MoE 在特定任务上激活特定子网络,速度快,但注意力容易散。当 AI 是你的日常助手而不是简单工具时,稳定性比速度重要。

本地使用llama.cpp作为后端,还有一个好处是切换运行另一个模型时,nanobot并不去核查连接的是哪个模型,也就是说我可以随意切换 Dense或者是MoE。好玩么?

五、慢,是一种选择

在线 API 确实快,100-200 t/s 起步。我之前测试nanobot时深有体验——用nanobot玩编程每天消耗好几个小目标的token。

本地部署呢?#HX370# 不够快,优势是他有一体化的内存显存,能跑大的模型。不要提那个npu,目前不能支持新版#Qwen3.6-27B#这样的模型。你就当他是一个很慢的64G显存的gpu用吧,他能装下27B甚至70B的大模型,但跑不快。

好处是,Token Free。8.5 t/s 让我能真正"用"AI, 可以任性地7x24#

#养慢虾#的意义并不止于个人选择。它提供了一种让普罗大众享用 AI 最新成果的模式——不再阳春白雪,不再是少数人的玩具。几百块的矿卡、几千元的高配迷你主机,加上一个开源模型,你就能跑起 27B、35B 的大模型。门槛降下来了,AI 就不再是云端 API 账单上的数字,而是你书桌上那个安静运行的服务。

我选了我的节奏#养慢虾#,舒服就行。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询