旧笔记本电脑用llama.cpp 跑 Qwen3-35B,笔记本上怎么调到 9.5 t/s
2026/6/10 22:29:23 网站建设 项目流程

背景

我这台笔记本配置不算好:i7-10750H、16GB DDR4、Quadro P620 4GB 显存。装好 llama.cpp 跑 Qwen3.6-35B-A3B 的 IQ2_M 量化版,默认参数下一测,4.85 t/s。聊天对话框一个字一个字往外蹦,挺难受的。

后来调了四个参数,纯 CPU 跑到 9.5 t/s。中间试了各种 GPU 加速方案,全部翻车。这里把整个过程记下来,给配置类似的人一个参考。


效果

硬件和模型

硬件:

硬件规格
CPUIntel i7-10750H(6核12线程,笔记本)
内存16GB DDR4
GPUNVIDIA Quadro P620(4GB 显存)
系统Windows 11

笔记本的内存带宽大概 41GB/s 左右,桌面平台能到 70 以上,这个差距后面会体现出来。P620 这张卡说实话就是个亮机卡,512 个 CUDA 核心,4GB 显存,干不了什么重活。

模型:

项目内容
模型名Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf
架构MoE,总参数 35B,每次激活 3B
量化IQ2_M
文件大小约 10-12GB

MoE 架构有个好处,虽然总参数 35B,但每次推理只激活 3B 参数,理论上对速度比较友好。不过瓶颈不在计算量上,在内存带宽上。这个模型光加载就要占掉大部分内存,留给推理时 KV cache 的空间本来就不多。


调参过程

起点:什么都不调,4.85 t/s

一开始就是最朴素的启动方式:

llama-server.exe-m"model.gguf"--host

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询