06 Attention 机制：模型是怎么“看懂上下文”的-迪斯科星球

专栏：大模型应用开发：从原理到生产
篇号：06
内容标签：Attention、Transformer、大模型、人工智能、深度学习

上一篇我们讲 Transformer 时，留下了一个真正的核心问题：

模型到底是怎么利用上下文的？

很多人第一次学大模型，会把“上下文理解”想得很神秘，好像模型读完一整段话之后，在内部形成了某种完整的意识。但从工程角度看，事情没有这么玄。

在 Transformer 里，所谓“看懂上下文”，首先是一件计算权重的事。

当前 Token 在每一层里都会问一个问题：

我现在要更新自己的表示，应该重点参考上下文里的哪些 Token？

这个问题，就是 Attention 机制要回答的问题。

它不等于人类理解，也不等于事实判断，更不等于模型真的知道自己在说什么。它只是让模型有能力在一段输入里建立 Token 与 Token 之间的关联。

但正是这个能力，撑起了现代大模型最重要的一部分表现：指代消解、语义组合、长距离依赖、上下文续写、代码补全、多轮对话、RAG 片段利用，后面几乎所有应用工程问题都绕不开它。

这篇文章不推复杂公式，我们把 Attention 拆成三个问题：

企业官网建设流程全解析