Embedding

Embedding：理解语义的基础引言：当计算机学会了"理解"含义在上一篇文章中，我们讨论了大语言模型的工作原理。但有一个根本问题还没解决：计算机是如何"理解"词语含义的？计算机只能处理数字，它不认识"猫"，不认识"爱情"，更不懂"苹果"和"橘子"的相似性。但今天的AI不仅能理解这些概念，还能进行语义推理。这一切的基石就是 Embedding（嵌入）。一、什么是Embedding？ 1.1 从一个思想实验开始想象你要向一个来自外星、不懂任何人类语言的外星人解释"苹果"这个词。你会怎么做？你可以给他一个多维度的描述：维度描述颜色通常是红色或绿色形状圆形大小拳头大小味道甜或酸甜口感脆用途可以吃 … … 如果把这些维度变成数字，就得到一个向量：苹果 = [红色: 0.9, 圆形: 0.8, 大小: 0.5, 甜度: 0.7, 脆度: 0.8, 可食用: 1.0, ...] 这就是Embedding的基本思想：用一个数字数组（向量）表示一个概念的含义。 1.2 正式定义 Embedding（嵌入）是将离散的符号（词语、句子、图片等）映射到连续向量空间的技术。每个符号被表示为一个固定长度的实数向量。关键特性：语义相近的符号，向量距离也相近向量之间可以进行数学运算向量的维度（长度）通常在几十到几千之间 1.3 直观理解：语义空间地图可以把Embedding想象成绘制了一张"语义空间地图"： [国王] ↑ 男人 ↑ [苹果] ← 水果 → [橘子] [王后] ↑ / 女人 / ↑ / [女王] 在这张地图上：...