<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Embedding on Leanku</title>
    <link>https://blog.leanku.com/tags/embedding/</link>
    <description>Recent content in Embedding on Leanku</description>
    <image>
      <url>https://blog.leanku.com/papermod-cover.png</url>
      <link>https://blog.leanku.com/papermod-cover.png</link>
    </image>
    <generator>Hugo -- gohugo.io</generator>
    <lastBuildDate>Wed, 22 Oct 2025 00:01:01 +0800</lastBuildDate><atom:link href="https://blog.leanku.com/tags/embedding/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Embedding：理解语义的基础</title>
      <link>https://blog.leanku.com/post/ai/embedding/</link>
      <pubDate>Wed, 22 Oct 2025 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/embedding/</guid>
      <description>Embedding：理解语义的基础 引言：当计算机学会了&amp;quot;理解&amp;quot;含义 在上一篇文章中，我们讨论了大语言模型的工作原理。但有一个根本问题还没解决：计算机是如何&amp;quot;理解&amp;quot;词语含义的？
计算机只能处理数字，它不认识&amp;quot;猫&amp;quot;，不认识&amp;quot;爱情&amp;quot;，更不懂&amp;quot;苹果&amp;quot;和&amp;quot;橘子&amp;quot;的相似性。但今天的AI不仅能理解这些概念，还能进行语义推理。这一切的基石就是 Embedding（嵌入）。
一、什么是Embedding？ 1.1 从一个思想实验开始 想象你要向一个来自外星、不懂任何人类语言的外星人解释&amp;quot;苹果&amp;quot;这个词。你会怎么做？
你可以给他一个多维度的描述：
维度 描述 颜色 通常是红色或绿色 形状 圆形 大小 拳头大小 味道 甜或酸甜 口感 脆 用途 可以吃 &amp;hellip; &amp;hellip; 如果把这些维度变成数字，就得到一个向量：
苹果 = [红色: 0.9, 圆形: 0.8, 大小: 0.5, 甜度: 0.7, 脆度: 0.8, 可食用: 1.0, ...] 这就是Embedding的基本思想：用一个数字数组（向量）表示一个概念的含义。
1.2 正式定义 Embedding（嵌入） 是将离散的符号（词语、句子、图片等）映射到连续向量空间的技术。每个符号被表示为一个固定长度的实数向量。
关键特性：
语义相近的符号，向量距离也相近
向量之间可以进行数学运算
向量的维度（长度）通常在几十到几千之间
1.3 直观理解：语义空间地图 可以把Embedding想象成绘制了一张&amp;quot;语义空间地图&amp;quot;：
[国王] ↑ 男人 ↑ [苹果] ← 水果 → [橘子] [王后] ↑ / 女人 / ↑ / [女王] 在这张地图上：</description>
    </item>
    
  </channel>
</rss>
