大模型 | Leanku

理解大模型工作原理引言：当计算机学会了"说话" 想象一下，你正在和一个"人"对话，他能理解你的问题，能写出优美的诗句，能解释复杂的科学概念，甚至能帮你写代码。但这个"人"其实是一个运行在服务器上的软件程序。它如何做到的？这就是大语言模型（Large Language Model, LLM）创造的奇迹。在本文中，我将用一个PHP开发者的视角，带你深入理解这个"数字大脑"的工作原理。一、大模型是什么？ 1.1 从一个形象的比喻开始传统程序 vs 大模型对比维度传统程序大语言模型工作方式按照程序员写的代码执行根据海量数据"学习"出的规律工作知识来源程序员明确告诉它从数万亿文本中自己"领悟" 灵活性只能处理预设的场景能应对从未见过的问题类比按照菜谱做菜的厨师尝过百万道菜后自己创造新菜的大厨 1.2 从数字到智能：三个关键洞察洞察一：词语可以用数字表示就像我们可以用经纬度表示地球上的任何位置，我们也可以用一组数字（向量）表示一个词的含义： "国王" = [0.8, 0.3, -0.2, 0.5, ...] "王后" = [0.7, 0.4, -0.1, 0.6, ...] "苹果" = [0.1, 0.9, -0.8, -0.3, ...] 洞察二：词语之间的关系可以用数学计算经典的"国王 - 男人 + 女人 = 王后"实验表明，这些数字向量之间可以进行数学运算，而且结果符合语义！洞察三：上下文决定含义 “苹果"在"苹果很好吃"和"苹果发布了新手机"中含义不同。大模型需要理解这种差异。二、大模型的核心架构 2.1 从神经元到神经网络单个神经元（生物类比）：树突（接收信号） → 细胞体（处理信号） → 轴突（输出信号）人工神经元（数学抽象）：输入 × 权重 + 偏置 → 激活函数 → 输出 2....