06 Attention 机制:模型是怎么“看懂上下文”的
2026/6/8 1:14:08 网站建设 项目流程

专栏:大模型应用开发:从原理到生产
篇号:06
内容标签:Attention、Transformer、大模型、人工智能、深度学习

上一篇我们讲 Transformer 时,留下了一个真正的核心问题:

模型到底是怎么利用上下文的?

很多人第一次学大模型,会把“上下文理解”想得很神秘,好像模型读完一整段话之后,在内部形成了某种完整的意识。但从工程角度看,事情没有这么玄。

在 Transformer 里,所谓“看懂上下文”,首先是一件计算权重的事。

当前 Token 在每一层里都会问一个问题:

我现在要更新自己的表示,应该重点参考上下文里的哪些 Token?

这个问题,就是 Attention 机制要回答的问题。

它不等于人类理解,也不等于事实判断,更不等于模型真的知道自己在说什么。它只是让模型有能力在一段输入里建立 Token 与 Token 之间的关联。

但正是这个能力,撑起了现代大模型最重要的一部分表现:指代消解、语义组合、长距离依赖、上下文续写、代码补全、多轮对话、RAG 片段利用,后面几乎所有应用工程问题都绕不开它。

这篇文章不推复杂公式,我们把 Attention 拆成三个问题:

  • 该看谁?
  • 看多少?
  • <

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询