Embedding:理解语义的基础
Embedding:理解语义的基础 引言:当计算机学会了"理解"含义 在上一篇文章中,我们讨论了大语言模型的工作原理。但有一个根本问题还没解决:计算机是如何"理解"词语含义的? 计算机只能处理数字,它不认识"猫",不认识"爱情",更不懂"苹果"和"橘子"的相似性。但今天的AI不仅能理解这些概念,还能进行语义推理。这一切的基石就是 Embedding(嵌入)。 一、什么是Embedding? 1.1 从一个思想实验开始 想象你要向一个来自外星、不懂任何人类语言的外星人解释"苹果"这个词。你会怎么做? 你可以给他一个多维度的描述: 维度 描述 颜色 通常是红色或绿色 形状 圆形 大小 拳头大小 味道 甜或酸甜 口感 脆 用途 可以吃 … … 如果把这些维度变成数字,就得到一个向量: 苹果 = [红色: 0.9, 圆形: 0.8, 大小: 0.5, 甜度: 0.7, 脆度: 0.8, 可食用: 1.0, ...] 这就是Embedding的基本思想:用一个数字数组(向量)表示一个概念的含义。 1.2 正式定义 Embedding(嵌入) 是将离散的符号(词语、句子、图片等)映射到连续向量空间的技术。每个符号被表示为一个固定长度的实数向量。 关键特性: 语义相近的符号,向量距离也相近 向量之间可以进行数学运算 向量的维度(长度)通常在几十到几千之间 1.3 直观理解:语义空间地图 可以把Embedding想象成绘制了一张"语义空间地图": [国王] ↑ 男人 ↑ [苹果] ← 水果 → [橘子] [王后] ↑ / 女人 / ↑ / [女王] 在这张地图上:...