[智能体-265]:四种编码通俗对比 + 同一句话举
2026/6/5 8:09:23 网站建设 项目流程

统一测试词语:苹果两种语义:① 水果苹果;② 苹果手机公司

1. One-hot|孤立编号、没有语义

词库:[苹果,香蕉,华为,梨]总长度 = 4

规则:一个词对应一个位置为 1,其余全 0

plaintext

苹果:[1,0,0,0] 香蕉:[0,1,0,0] 华为:[0,0,1,0] 梨: [0,0,0,1]
  • 距离:苹果和香蕉、苹果和华为距离完全一样,看不出水果相近、手机相近
  • 缺点:只做编号,没有任何语义关联

2. Word2Vec|一词一坐标,固定不变

训练每个词永久固定一组向量,同一个词不管语境,向量永远相同

plaintext

苹果 = [0.62, 0.31, -0.22] 香蕉 = [0.65, 0.33, -0.25] 华为 = [-0.58, 0.71, 0.35] 梨 = [0.60, 0.30, -0.21]
  • 水果:苹果、香蕉、梨,向量很近(相似),在向量空间的点是相近的
  • 歧义 BUG:

我爱吃苹果(水果)

我在用苹果(手机)

两处「苹果」向量一模一样模型分不清水果还是品牌

3. BERT|一词多坐标,上下文动态变化

同一个,在不同句子算出两套不同向量

plaintext

句子1:我爱吃苹果 → 苹果=[0.61,0.32,-0.23](水果向量) 句子2:我在用苹果 → 苹果=[-0.56,0.73,0.36](数码品牌向量)

✅ 完美解决一词多义; ✅ 依靠整句上下文动态生成向量; ❌原始 BERT 不适合 RAG 检索:天生不是为相似度匹配训练。

4. BGE/E5|面向检索优化(RAG 专用 Embedding)

在 BERT 架构基础上改造,训练目标:同义靠近、异义远离,专门适配段落检索

plaintext

文档A:苹果富含多种维生素,属于常见鲜果 文档B:iPhone是苹果公司发布的智能手机 Query1:什么水果富含维生素? → 向量贴近A Query2:哪家公司生产iPhone? → 向量贴近B
  • 做 RAG 入库、问句匹配最优;
  • 短 chunk、长段落都能精准编码,工业 RAG 标配。

一句话总结速记

  1. One-hot:纯编号,谁跟谁都不熟
  2. Word2Vec:苹果永远一个住址,分不清水果 / 手机
  3. BERT:苹果随场景换住址,一词多义搞定
  4. BGE:量身定做找文档,RAG 检索专用

RAG 落地选用

  • 文档入库、向量检索 →BGE/m3e/E5/OpenAI Embedding
  • 词语词义分析 → BERT
  • 老旧词向量项目 → Word2Vec
  • 现在没人用 One-hot 做文本。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询