旧笔记本电脑用llama.cpp 跑 Qwen3-35B，笔记本上怎么调到 9.5 t/s-迪斯科星球

我这台笔记本配置不算好：i7-10750H、16GB DDR4、Quadro P620 4GB 显存。装好 llama.cpp 跑 Qwen3.6-35B-A3B 的 IQ2_M 量化版，默认参数下一测，4.85 t/s。聊天对话框一个字一个字往外蹦，挺难受的。

后来调了四个参数，纯 CPU 跑到 9.5 t/s。中间试了各种 GPU 加速方案，全部翻车。这里把整个过程记下来，给配置类似的人一个参考。

硬件：

笔记本的内存带宽大概 41GB/s 左右，桌面平台能到 70 以上，这个差距后面会体现出来。P620 这张卡说实话就是个亮机卡，512 个 CUDA 核心，4GB 显存，干不了什么重活。

模型：

项目	内容
模型名	Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
架构	MoE，总参数 35B，每次激活 3B
量化	IQ2_M
文件大小	约 10-12GB

MoE 架构有个好处，虽然总参数 35B，但每次推理只激活 3B 参数，理论上对速度比较友好。不过瓶颈不在计算量上，在内存带宽上。这个模型光加载就要占掉大部分内存，留给推理时 KV cache 的空间本来就不多。

一开始就是最朴素的启动方式：

llama-server.exe-m"model.gguf"--host

企业官网建设流程全解析