NPU为什么可以跑大语言模型：KV Cache的静态化艺术-迪斯科星球

NPU为什么可以跑大语言模型：KV Cache的静态化艺术

副标题: 从动态KV Cache到静态blob，NPU如何突破硬件限制

痛点：为什么NPU跑LLM这么难？

当前NPU运行大语言模型面临一个核心问题：动态vs静态的矛盾。

问题	表现	影响
KV Cache动态增长	每生成一个token，cache增长	NPU要求固定shape
NPU静态执行	编译时确定tensor shape	无法处理动态数据
内存带宽瓶颈	Decode阶段内存密集	生成速度慢

一个真实案例：某团队尝试在NPU上部署LLM，发现每次生成都需要重新编译，耗时数分钟——因为KV Cache大小不固定。

一、KV Cache核心机制

1.1 为什么需要KV Cache

LLM生成文本时逐token产出，每步都要重新做attention计算。

Attention核心：当前token去"查看"前面所有token的信息

Q（Query）、K（Key）、V（Value）三组投影向量
计算：Q × K^T→ softmax →Score × V

问题：生成第100个token时，前99个token的K和V完全一样，无需重算。

解决方案：KV Cache缓存已计算的K和V

1.2 推理两阶段

阶段	描述	特点	计算密度
Prefill	处理整个prompt	计算密集型	高
Decode	逐token生成	内存带宽密集型	低

关键洞察：

Prefill阶段：计算密集，适合NPU
Decode阶段：内存密集，NPU面临挑战

二、NPU难题：动态vs静态

2.1 核心矛盾

特性	KV Cache	NPU
性质	动态增长	静态固定
Shape	每步变化	编译时确定
地址	动态分配	编译时确定

本质：

KV Cache天然动态：每生成一个token，cache增长一行
NPU要求静态：编译时确定tensor精确shape和地址

2.2 NPU执行模型

NPU像"执行预编译程序"，不像GPU"动态调度指令"：

编译时确定	运行时输入
tensor shape	输入数据
内存地址	参数
DMA搬运参数
任务参数

所有信息打包成blob（二进制ELF文件），NPU一次性执行。

三、解决方案：预分配 + Attention Mask

3.1 预分配固定大小KV Cache

# 预分配固定大小KV CacheMAX_PROMPT_LEN=1024MIN_RESPONSE_LEN=128KV_CACHE_SIZE=1024+128=1152

3.2 Attention Mask标记有效数据

# 生成第1个token：mask=[1,1,1,1,0,0...0]（4有效+1148空）# 生成第2个token：mask=[1,1,1,1,1,0...0]（5有效+1147空）

核心思想：

预分配最大可能大小
用mask标记哪些是有效数据
NPU执行时忽略mask标记的"空"数据

3.3 效果对比

指标	动态方案	预分配方案
编译次数	每步1次	1次
执行时间	数分钟	毫秒级
内存使用	动态	固定

四、软件栈三层架构

4.1 分工

层级	仓库	职责
应用层	openvino.genai	分词、采样策略、聊天历史管理
引擎层	openvino.NPUW	模型拆分、KV Cache管理、任务提交
编译器层	npu_compiler	IR→blob编译，有状态→无状态转换

4.2 NPU执行单元

单元	类型	职责
DPU	固定功能	卷积、矩阵乘法（Q×K^T、S×V）
SHAVE	可编程DSP	激活函数、Softmax、RoPE、Attention kernel

五、NPUW核心设计

5.1 两个模型，一份KV Cache

模型	input_ids seq_len	KV Cache输出
Prefill	1024	[batch, heads, 1024, head_dim]
Generate	1	[batch, heads, 1152, head_dim]

5.2 Generate变体

编译多个generate变体（256/512/1024/1152），根据prompt长度选择最小的够用的变体，避免算力浪费。

5.3 Chunked Prefill

prompt超过MAX_PROMPT_LEN时分块处理，每块追加到KV Cache。

企业官网建设流程全解析

NPU为什么可以跑大语言模型：KV Cache的静态化艺术

痛点：为什么NPU跑LLM这么难？

一、KV Cache核心机制

1.1 为什么需要KV Cache

1.2 推理两阶段

二、NPU难题：动态vs静态

2.1 核心矛盾

2.2 NPU执行模型

三、解决方案：预分配 + Attention Mask

3.1 预分配固定大小KV Cache

3.2 Attention Mask标记有效数据

3.3 效果对比

四、软件栈三层架构

4.1 分工

4.2 NPU执行单元

五、NPUW核心设计

5.1 两个模型，一份KV Cache

5.2 Generate变体

5.3 Chunked Prefill

六、编译器：有状

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

NPU为什么可以跑大语言模型：KV Cache的静态化艺术

痛点：为什么NPU跑LLM这么难？

一、KV Cache核心机制

1.1 为什么需要KV Cache

1.2 推理两阶段

二、NPU难题：动态vs静态

2.1 核心矛盾

2.2 NPU执行模型

三、解决方案：预分配 + Attention Mask

3.1 预分配固定大小KV Cache

3.2 Attention Mask标记有效数据

3.3 效果对比

四、软件栈三层架构

4.1 分工

4.2 NPU执行单元

五、NPUW核心设计

5.1 两个模型，一份KV Cache

5.2 Generate变体

5.3 Chunked Prefill

六、编译器：有状

热门文章

文章分类

标签云

相关文章

Python 进阶：函数名、闭包与迭代器

智能制造的关键入口：从传统视觉到AI智能体视觉（10）

DAG不是最优解，一多OS选择的树形+引用机制才是工程上的更优策略

需要专业的网站建设服务？