养慢虾哲学：8.5 t/s 就够了-迪斯科星球

一、引子

有人#养龙虾#——RTX 4090、H100，120 t/s 往上飙，用算力换时间，追求的是极致速度。

我#养慢虾#——AMD AI9 HX370 迷你主机，体积不到 1 升，功耗 65W，跑 Qwen3.6-27B-MTP-Q4_K_M，速度 8.5 t/s。

8.5 t/s 是什么概念？人类说话速度大约每秒 3-10 个字，打字速度也在这个区间。8.5 t/s 刚好能跟上我的思考节奏——我想到的时候它刚好说到那儿，我打断它的时候它刚好停住，不会像机关枪一样噼里啪啦输出完一堆我根本来不及看的文字。

这不是什么"黄金区间"，也不是什么"同步区"。其实这就是我的硬件刚刚好。

二、算法的力量

早前我也没用#HX370#来跑27B稠密模型，确实太慢了，看我的测试记录只有4.57t/s。得益于最近发布的核心武器 MTP——Multi-Token Prediction，多 token 预测。推理速度有了些提升，我才改用了这个更聪明的#Qwen3.6-27B#模型。

MTP的原理很简单：模型在生成下一个 token 的时候，不只是猜一个，而是同时猜出后面好多个 token。这些猜出来的 token 叫"草稿"。解码器拿到草稿后，一次性验证——对的直接采纳，错的就回退到错误位置继续生成。

HX370 跑 27B 模型的原始速度大约 4-5 t/s，MTP 生效后翻倍到 8.5 t/s。76.7% 的草稿接受率意味着每生成 1 个 token，模型大约能同时猜对 3 个后续 token。

这不是理论值。76.7% 是我在真实对话中跑出来的：写代码、改配置、讨论技术方案，各种上下文长度和任务类型都有。

llama.cpp 里打开它只需要两个参数：

--spec-type draft-mtp 和 --spec-draft-n-max 4

前者启用 MTP 模式，后者限制每次最多猜 4 个 token。这个数值可以测试得到。

算法的力量在于，它不依赖更强的硬件，而是让现有硬件发挥更大的价值。

三、nanobot 的工程适配

nanobot 不是为慢速 LLM 原生设计的，需要我来慢慢调教来#养慢虾#。

主要的问题是超时策略。

慢速 LLM 不能按 100 t/s 的模型设超时。我根据上下文长度和任务复杂度动态估算——2000 个 token 的回复，等 4 分钟是合理的。原来默认设置是120秒，设置长一点是安全的，可以设为 1800。

这些改动不复杂，但每一个都是踩坑踩出来的。

四、Dense 还是 MoE？

我其实可以有有两种模式来#养慢虾#

HX370 + 27B Dense 8.5 tps：深度讨论、nanobot 主力编程 7x24
HX370 + 35B MoE 25+tps：闲了坐在电脑前对话，头脑风暴、需要速度的场景

不是 MoE 不够快，也不是 Dense 更聪明。是 Dense 模型的注意力更稳定，适合长期对话和记忆。MoE 在特定任务上激活特定子网络，速度快，但注意力容易散。当 AI 是你的日常助手而不是简单工具时，稳定性比速度重要。

本地使用llama.cpp作为后端，还有一个好处是切换运行另一个模型时，nanobot并不去核查连接的是哪个模型，也就是说我可以随意切换 Dense或者是MoE。好玩么？

五、慢，是一种选择

在线 API 确实快，100-200 t/s 起步。我之前测试nanobot时深有体验——用nanobot玩编程每天消耗好几个小目标的token。

本地部署呢？#HX370# 不够快，优势是他有一体化的内存显存，能跑大的模型。不要提那个npu，目前不能支持新版#Qwen3.6-27B#这样的模型。你就当他是一个很慢的64G显存的gpu用吧，他能装下27B甚至70B的大模型，但跑不快。

好处是，Token Free。8.5 t/s 让我能真正"用"AI，可以任性地7x24#

#养慢虾#的意义并不止于个人选择。它提供了一种让普罗大众享用 AI 最新成果的模式——不再阳春白雪，不再是少数人的玩具。几百块的矿卡、几千元的高配迷你主机，加上一个开源模型，你就能跑起 27B、35B 的大模型。门槛降下来了，AI 就不再是云端 API 账单上的数字，而是你书桌上那个安静运行的服务。

我选了我的节奏#养慢虾#，舒服就行。

企业官网建设流程全解析

一、引子

二、算法的力量

三、nanobot 的工程适配

四、Dense 还是 MoE？

五、慢，是一种选择

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一、引子

二、算法的力量

三、nanobot 的工程适配

四、Dense 还是 MoE？

五、慢，是一种选择

热门文章

文章分类

标签云

相关文章

除了点灯，在STM32F407上跑OpenHarmony还能做什么？聊聊外设驱动与生态拓展

告别手动复制粘贴！用Wireshark的tshark命令行一键导出pcap原始16进制数据

用 MonkeyCode 做 AI 编程，我踩过的 5 个坑

需要专业的网站建设服务？