[智能体-265]：四种编码通俗对比 + 同一句话举-迪斯科星球

统一测试词语：苹果两种语义：① 水果苹果；② 苹果手机公司

1. One-hot｜孤立编号、没有语义

词库：[苹果,香蕉,华为,梨]总长度 = 4

规则：一个词对应一个位置为 1，其余全 0

plaintext

苹果：[1,0,0,0] 香蕉：[0,1,0,0] 华为：[0,0,1,0] 梨： [0,0,0,1]

距离：苹果和香蕉、苹果和华为距离完全一样，看不出水果相近、手机相近
缺点：只做编号，没有任何语义关联

2. Word2Vec｜一词一坐标，固定不变

训练后每个词永久固定一组向量，同一个词不管语境，向量永远相同

plaintext

苹果 = [0.62, 0.31, -0.22] 香蕉 = [0.65, 0.33, -0.25] 华为 = [-0.58, 0.71, 0.35] 梨 = [0.60, 0.30, -0.21]

水果：苹果、香蕉、梨，向量很近(相似），在向量空间的点是相近的✅
歧义 BUG：

我爱吃苹果（水果）
我在用苹果（手机）
两处「苹果」向量一模一样，模型分不清水果还是品牌❌

3. BERT｜一词多坐标，上下文动态变化

同一个词，在不同句子算出两套不同向量

plaintext

句子1：我爱吃苹果 → 苹果=[0.61,0.32,-0.23]（水果向量） 句子2：我在用苹果 → 苹果=[-0.56,0.73,0.36]（数码品牌向量）

✅ 完美解决一词多义； ✅ 依靠整句上下文动态生成向量； ❌原始 BERT 不适合 RAG 检索：天生不是为相似度匹配训练。

4. BGE/E5｜面向检索优化（RAG 专用 Embedding）

在 BERT 架构基础上改造，训练目标：同义靠近、异义远离，专门适配段落检索

plaintext

文档A：苹果富含多种维生素，属于常见鲜果 文档B：iPhone是苹果公司发布的智能手机 Query1：什么水果富含维生素？ → 向量贴近A Query2：哪家公司生产iPhone？ → 向量贴近B

做 RAG 入库、问句匹配最优；
短 chunk、长段落都能精准编码，工业 RAG 标配。

一句话总结速记

One-hot：纯编号，谁跟谁都不熟
Word2Vec：苹果永远一个住址，分不清水果 / 手机
BERT：苹果随场景换住址，一词多义搞定
BGE：量身定做找文档，RAG 检索专用

RAG 落地选用

文档入库、向量检索 →BGE/m3e/E5/OpenAI Embedding
词语词义分析 → BERT
老旧词向量项目 → Word2Vec
现在没人用 One-hot 做文本。

企业官网建设流程全解析

1. One-hot｜孤立编号、没有语义

2. Word2Vec｜一词一坐标，固定不变

3. BERT｜一词多坐标，上下文动态变化

4. BGE/E5｜面向检索优化（RAG 专用 Embedding）

一句话总结速记

RAG 落地选用

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. One-hot｜孤立编号、没有语义

2. Word2Vec｜一词一坐标，固定不变

3. BERT｜一词多坐标，上下文动态变化

4. BGE/E5｜面向检索优化（RAG 专用 Embedding）

一句话总结速记

RAG 落地选用

热门文章

文章分类

标签云

相关文章

飞行器状态空间模型参数在线辨识方法解析【附仿真】

Claude时代：职场人效率跃迁的实战指南

告别手动编号！用LaTeXBibitemStyler小工具一键搞定thebibliography参考文献排序

需要专业的网站建设服务？