<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>AI on Leanku</title>
    <link>https://blog.leanku.com/categories/ai/</link>
    <description>Recent content in AI on Leanku</description>
    <image>
      <url>https://blog.leanku.com/papermod-cover.png</url>
      <link>https://blog.leanku.com/papermod-cover.png</link>
    </image>
    <generator>Hugo -- gohugo.io</generator>
    <lastBuildDate>Sat, 24 Jan 2026 00:01:01 +0800</lastBuildDate><atom:link href="https://blog.leanku.com/categories/ai/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>OpenClaw &#43;QQ机器人</title>
      <link>https://blog.leanku.com/post/ai/openclaw-&#43;qq%E6%9C%BA%E5%99%A8%E4%BA%BA/</link>
      <pubDate>Sat, 24 Jan 2026 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/openclaw-&#43;qq%E6%9C%BA%E5%99%A8%E4%BA%BA/</guid>
      <description>OpenClaw +QQ机器人助手 OpenClaw 适用于任何操作系统的 AI 智能体 Gateway 网关，支持 WhatsApp、Telegram、Discord、iMessage 等。 发送消息，随时随地获取智能体响应。通过插件可添加 Mattermost 等更多渠道。
1. 搭建 OpenClaw 可参考官方文档 ，按需选择适合的安装方式。
如果服务器上安装了1Panel,可以直接从应用商店安装
2. 接入 QQ 1. 申请 QQ 机器人 打开 QQ 开放平台，注册登录，然后创建 QQ 机器人。地址： https://q.qq.com 创建完成后，进入机器人的开发管理页面，找到 AppID 和 AppSecret，复制保存好，等会要用。 还要把你云服务器的 公网 IP 添加到 IP 白名单里，然后保存。 在沙箱配置里给你的 QQ 账号（或者 QQ 群）添加访问机器人的权限： 2. 给 OpenClaw 绑定 QQ 机器人 安装 qqbot 插件 https://github.com/BytePioneer-AI/openclaw-china 远程登录到云服务器上，执行命令来安装 @openclaw-china/qqbot 插件。 openclaw plugins install @openclaw-china/qqbot 安装插件成功后,配置QQ 机器人参数，用之前保存的 id 和 secret ： openclaw config set channels.</description>
    </item>
    
    <item>
      <title>RAGFlow</title>
      <link>https://blog.leanku.com/post/ai/ragflow/</link>
      <pubDate>Tue, 28 Oct 2025 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/ragflow/</guid>
      <description>RAGFlow 一、介绍 RAGFlow是一个完整的、开源的RAG（检索增强生成）系统。你可以把它看作一个已经搭建好的智能问答应用框架。
RAGFlow不是一个需要你从零编码的库，而是一个可以直接运行起来的服务。它内置了我们聊过的RAG的完整流程：上传文档 -&amp;gt; 自动解析 -&amp;gt; 切片 -&amp;gt; 调用Embedding模型生成向量 -&amp;gt; 存储 -&amp;gt; 检索 -&amp;gt; 调用大模型生成回答。
RAGFlow 官网
二、搭建一个智能问答系统 整体架构：
你的文档 (PDF/Word/PPT) ↓ [RAGFlow核心] ├─ 深度文档解析 → 保留表格/图片/格式 ├─ 智能分块 → 按语义切割文档 ├─ 向量化 → 调用Embedding模型 └─ 向量存储 → 存入数据库 ↓ 用户提问 → [检索引擎] → [你的微调模型] → 带引用的精准回答 2.1 部署RAGFlow 这里使用 Docker 方式 环境要求：
CPU ≥ 4 cores (x86); RAM ≥ 16 GB; Disk ≥ 50 GB; Docker ≥ 24.0.0 &amp;amp; Docker Compose ≥ v2.</description>
    </item>
    
    <item>
      <title>RAG</title>
      <link>https://blog.leanku.com/post/ai/rag/</link>
      <pubDate>Fri, 24 Oct 2025 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/rag/</guid>
      <description>RAG技术 （检索增强生成） 引言：当大模型遇上知识库 想象一下，你正在参加一场开卷考试。你的面前有两样东西：一个记忆力超群但知识停留在去年的天才同学（这就是大语言模型），以及一个可以随时查阅的最新版百科全书（这就是外部知识库）。你让这位同学回答问题，他既可以凭借自己的记忆作答，也可以随时翻阅百科全书获取最新、最准确的信息。
这个场景，就是 RAG（检索增强生成）最形象的比喻。
它不是要取代大模型，而是为大模型装上了一个可以实时更新的&amp;quot;知识图书馆&amp;quot;。
一、什么是 RAG？ 1.1 官方定义 RAG 全称是 Retrieval-Augmented Generation，中文译为&amp;quot;检索增强生成&amp;quot;。它是一种将信息检索系统与大语言模型的生成能力相结合的技术架构。
核心思想很简单：在让大模型回答问题之前，先从一个知识库中检索出与问题最相关的信息，然后将这些信息作为&amp;quot;参考资料&amp;quot;连同原始问题一起交给模型，让它基于这些资料生成最终答案。
1.2 为什么要用 RAG？ 传统的大语言模型存在三个先天性缺陷：
缺陷 表现 后果 知识截止日期 模型训练完成后，新发生的事件一概不知 问&amp;quot;今天的天气&amp;quot;、&amp;ldquo;最近的新闻&amp;rdquo;，模型只能道歉 幻觉问题 模型会&amp;quot;自信地胡说八道&amp;quot; 在金融、医疗等严肃场景无法直接使用 缺乏专业深度 对企业内部知识、专业领域知识不了解 无法回答基于私域数据的专业问题 RAG 的出现，一次性解决了这三个问题：
知识实时更新：只要更新知识库，模型就能&amp;quot;知道&amp;quot;
答案可追溯：每个回答都能找到对应的参考资料
低成本私有化：无需训练模型，只需构建知识库
1.3 RAG 的三步工作流程 一个标准的 RAG 流程包含三个核心步骤：
用户提问：&amp;#34;去年的销售额是多少？&amp;#34; ↓ [第一步：检索] ↓ 在向量数据库中搜索 → 找到&amp;#34;2023年财报.pdf&amp;#34;中的相关段落 ↓ [第二步：增强] ↓ 构建新的提示词： &amp;#34;基于以下资料回答问题： 【资料】2023年公司财报显示，全年销售额为1.2亿元... 问题：去年的销售额是多少？&amp;#34; ↓ [第三步：生成] ↓ 大模型生成：&amp;#34;根据公司财报，2023年的销售额为1.2亿元。&amp;#34; 二、RAG 的核心技术组件 要深入理解 RAG，需要认识它的三个核心技术组件：
2.1 向量化与嵌入模型 是什么：将文本转化为计算机能够理解的数学向量（一组数字）。
为什么需要：计算机无法像人类一样理解文字的&amp;quot;含义&amp;quot;，但它擅长计算数字之间的&amp;quot;距离&amp;quot;。通过将文字转化为向量，我们可以用数学方式衡量两段文字的相似度。
像 OpenAI 的 text-embedding-3-small 模型，或者本地的 bge-large-zh 模型，都是常用的嵌入模型。</description>
    </item>
    
    <item>
      <title>模型微调</title>
      <link>https://blog.leanku.com/post/ai/%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83/</link>
      <pubDate>Fri, 24 Oct 2025 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/%E6%A8%A1%E5%9E%8B%E5%BE%AE%E8%B0%83/</guid>
      <description>模型微调 一、模型微调到底是什么 简单来说，模型微调就是让一个已经博学多才的“通才”，通过针对性的“岗前培训”，变成精通某个领域的“专家”。
预训练模型（通才大厨）：就像一位精通全球菜系的米其林大厨，他掌握了所有的基础知识和烹饪技巧，但未必了解你餐厅的特色。 微调（岗前培训）：你想开一家川菜馆，于是让这位大厨用三个月时间，专门学习川菜的食材、调料和烹饪手法。 微调后的模型（川菜大师）：最终，他不仅保留了原有的厨艺基础，更能做出一手地道的麻婆豆腐，成为了川菜领域的专家 。 这个过程直接调整模型的“大脑”（参数），让学到的技能内化为模型自身的能力。相比于RAG（它更像是让大厨在做菜时随时翻阅菜谱），微调后的模型在推理时速度更快，且能深度掌握某种特定的风格或知识 。
二、 核心技术：LoRA——四两拨千斤的微调利器 你可能会担心，重新训练一个包含几十亿甚至上千亿参数的大模型，得需要多强大的计算资源？这正是LoRA（低秩自适应） 技术大显身手的地方。
它的核心思想非常巧妙，我们可以继续用“川菜大厨”的比喻来理解
全量微调：相当于让大厨忘掉过去的一些习惯，全身心地重新学习川菜的每一个步骤。效果最好，但成本极高，需要强大的算力支持。 LoRA微调：我们不动大厨已经固化的核心“厨艺”（预训练权重），而是给他一个轻量级的“川菜秘方贴纸”（低秩矩阵）。这张贴纸只记录了川菜的关键调整点，比如“多加花椒”、“牛油比例提升”。大厨在做川菜时，只需要在关键步骤上参考这张贴纸即可 。 这样做的好处是巨大的：
显存占用低：可训练的参数通常只有不到1%，让在消费级显卡（如RTX 4090）上微调大模型成为可能。
训练速度快：大幅缩短了训练时间。
模型性能高：在绝大多数任务上，效果可以媲美全量微调。
QLoRA 则是LoRA的进阶版，它先把基础模型“压缩”（量化）到4位精度，再应用LoRA，进一步降低了硬件门槛。
三、 具体如何实现 理解了原理，我们来看看如何上手。
你完全不需要从零开始写复杂的训练代码。这里有两条清晰的路径：
路径一：使用云端服务（最简单、快速上手） 这是最省心的方式，你只需要准备好数据，在云平台上点点鼠标，就能完成微调。例如华为云的ModelArts Studio，流程大致如下 ：
准备数据：整理好你的训练集（如客户问答对、特定风格的文本等）。
选择模型：在平台界面选择你想要微调的基础模型，例如盘古大模型。
配置任务：选择“微调”训练类型，并可以灵活选择“全量微调”或“LoRA微调” 。然后设置一些基本参数，如：
学习率：决定模型参数更新的幅度，通常设为很小的值如 2e-5 。
训练轮数：整个数据集被训练的遍数，通常设为 3 以避免过拟合。
数据批量大小：每次处理的数据量，根据你的资源情况设定。
启动训练：提交任务，等待训练完成。过程中可以观察损失值（Loss） 曲线，它应该呈下降趋势，代表模型在有效学习。
部署使用：训练完成后，平台会自动生成一个微调后的模型版本，你可以像调用普通API一样，通过PHP代码来使用这个专属模型。
路径二：使用本地开源工具（更灵活、适合动手实践） 如果你想在自己的电脑上体验整个过程，Ollama + Python是一个非常棒的组合，它让微调变得异常简单 。步骤如下：
1. 安装Ollama 参考另一篇 Ollama搭建本地
我们选择一个轻量级模型，普通电脑也能流畅运行
ollama pull llama2 2. 准备微调数据 微调的核心是数据。我们将创建一个非常简单的数据集，让模型学习用莎士比亚的风格回答问题。
2.1 创建项目目录 在合适的位置新建一个文件夹：
mkdir ollama-finetune-demo cd ollama-finetune-demo 2.2 创建Python虚拟环境</description>
    </item>
    
    <item>
      <title>Embedding：理解语义的基础</title>
      <link>https://blog.leanku.com/post/ai/embedding/</link>
      <pubDate>Wed, 22 Oct 2025 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/embedding/</guid>
      <description>Embedding：理解语义的基础 引言：当计算机学会了&amp;quot;理解&amp;quot;含义 在上一篇文章中，我们讨论了大语言模型的工作原理。但有一个根本问题还没解决：计算机是如何&amp;quot;理解&amp;quot;词语含义的？
计算机只能处理数字，它不认识&amp;quot;猫&amp;quot;，不认识&amp;quot;爱情&amp;quot;，更不懂&amp;quot;苹果&amp;quot;和&amp;quot;橘子&amp;quot;的相似性。但今天的AI不仅能理解这些概念，还能进行语义推理。这一切的基石就是 Embedding（嵌入）。
一、什么是Embedding？ 1.1 从一个思想实验开始 想象你要向一个来自外星、不懂任何人类语言的外星人解释&amp;quot;苹果&amp;quot;这个词。你会怎么做？
你可以给他一个多维度的描述：
维度 描述 颜色 通常是红色或绿色 形状 圆形 大小 拳头大小 味道 甜或酸甜 口感 脆 用途 可以吃 &amp;hellip; &amp;hellip; 如果把这些维度变成数字，就得到一个向量：
苹果 = [红色: 0.9, 圆形: 0.8, 大小: 0.5, 甜度: 0.7, 脆度: 0.8, 可食用: 1.0, ...] 这就是Embedding的基本思想：用一个数字数组（向量）表示一个概念的含义。
1.2 正式定义 Embedding（嵌入） 是将离散的符号（词语、句子、图片等）映射到连续向量空间的技术。每个符号被表示为一个固定长度的实数向量。
关键特性：
语义相近的符号，向量距离也相近
向量之间可以进行数学运算
向量的维度（长度）通常在几十到几千之间
1.3 直观理解：语义空间地图 可以把Embedding想象成绘制了一张&amp;quot;语义空间地图&amp;quot;：
[国王] ↑ 男人 ↑ [苹果] ← 水果 → [橘子] [王后] ↑ / 女人 / ↑ / [女王] 在这张地图上：</description>
    </item>
    
    <item>
      <title>AI Agent</title>
      <link>https://blog.leanku.com/post/ai/agent/</link>
      <pubDate>Tue, 21 Oct 2025 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/agent/</guid>
      <description>AI Agent：从&amp;quot;回答问题&amp;quot;到&amp;quot;主动行动&amp;quot;的智能体 引言：当AI从&amp;quot;思考者&amp;quot;变成&amp;quot;行动派&amp;quot; 到目前为止，我们讨论的所有AI应用都有一个共同点：被动响应。你问一个问题，模型给出一个回答。就像一位知识渊博但从不主动行动的学者。
而 AI Agent（智能体） 将彻底改变这个模式。它不再是单纯的&amp;quot;问答机器人&amp;quot;，而是一个能够自主理解目标、规划步骤、调用工具、执行行动的智能系统。
用一个形象的比喻来理解AI的进化：
阶段 比喻 能力 基础LLM 刚毕业的大学生 知识丰富，但只会回答问题 RAG增强 配备了图书馆的大学生 能查阅资料，回答更准确 微调模型 经过专业培训的专家 在特定领域更精通 AI Agent 项目经理 + 执行团队 能接收任务，规划执行，调用资源，交付成果 一、什么是AI Agent？ 1.1 核心定义 AI Agent（智能体） 是一个能够感知环境、自主决策、执行行动以达到特定目标的智能系统。它具备以下核心特征：
自主性：无需人工干预，自主运作
目标导向：所有行动都围绕达成目标
工具使用：能调用外部工具完成任务
记忆能力：记住历史，持续优化
规划能力：将复杂任务拆解为可执行的步骤
1.2 Agent vs 传统程序 vs LLM 对比维度 传统程序 大语言模型(LLM) AI Agent 工作方式 按固定逻辑执行 按输入生成输出 自主规划并执行 灵活性 低，只能做预设的事 中，能处理多种问题 高，能适应新任务 工具使用 内置固定功能 无（需外部配合） 主动调用各种工具 记忆能力 有状态但有限 会话级记忆 长期记忆+经验积累 目标理解 执行指令 理解问题 理解意图并拆解 1.</description>
    </item>
    
    <item>
      <title>理解大模型工作原理</title>
      <link>https://blog.leanku.com/post/ai/%E7%90%86%E8%A7%A3%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86/</link>
      <pubDate>Tue, 21 Oct 2025 00:01:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/%E7%90%86%E8%A7%A3%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%B7%A5%E4%BD%9C%E5%8E%9F%E7%90%86/</guid>
      <description>理解大模型工作原理 引言：当计算机学会了&amp;quot;说话&amp;quot; 想象一下，你正在和一个&amp;quot;人&amp;quot;对话，他能理解你的问题，能写出优美的诗句，能解释复杂的科学概念，甚至能帮你写代码。但这个&amp;quot;人&amp;quot;其实是一个运行在服务器上的软件程序。它如何做到的？
这就是大语言模型（Large Language Model, LLM）创造的奇迹。在本文中，我将用一个PHP开发者的视角，带你深入理解这个&amp;quot;数字大脑&amp;quot;的工作原理。
一、大模型是什么？ 1.1 从一个形象的比喻开始 传统程序 vs 大模型
对比维度 传统程序 大语言模型 工作方式 按照程序员写的代码执行 根据海量数据&amp;quot;学习&amp;quot;出的规律工作 知识来源 程序员明确告诉它 从数万亿文本中自己&amp;quot;领悟&amp;quot; 灵活性 只能处理预设的场景 能应对从未见过的问题 类比 按照菜谱做菜的厨师 尝过百万道菜后自己创造新菜的大厨 1.2 从数字到智能：三个关键洞察 洞察一：词语可以用数字表示 就像我们可以用经纬度表示地球上的任何位置，我们也可以用一组数字（向量）表示一个词的含义：
&amp;#34;国王&amp;#34; = [0.8, 0.3, -0.2, 0.5, ...] &amp;#34;王后&amp;#34; = [0.7, 0.4, -0.1, 0.6, ...] &amp;#34;苹果&amp;#34; = [0.1, 0.9, -0.8, -0.3, ...] 洞察二：词语之间的关系可以用数学计算 经典的&amp;quot;国王 - 男人 + 女人 = 王后&amp;quot;实验表明，这些数字向量之间可以进行数学运算，而且结果符合语义！
洞察三：上下文决定含义 &amp;ldquo;苹果&amp;quot;在&amp;quot;苹果很好吃&amp;quot;和&amp;quot;苹果发布了新手机&amp;quot;中含义不同。大模型需要理解这种差异。
二、大模型的核心架构 2.1 从神经元到神经网络 单个神经元（生物类比）： 树突（接收信号） → 细胞体（处理信号） → 轴突（输出信号） 人工神经元（数学抽象）： 输入 × 权重 + 偏置 → 激活函数 → 输出 2.</description>
    </item>
    
    <item>
      <title>Ollama</title>
      <link>https://blog.leanku.com/post/ai/ollama%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/</link>
      <pubDate>Sun, 01 Sep 2024 11:46:01 +0800</pubDate>
      
      <guid>https://blog.leanku.com/post/ai/ollama%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/</guid>
      <description>Ollama 简介 介绍 Ollama 是一个开源的大型语言模型（LLM）平台，旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。 Ollama 提供了一个简单的方式来加载和使用各种预训练的语言模型，支持文本生成、翻译、代码编写、问答等多种自然语言处理任务。 Ollama 的特点在于它不仅仅提供了现成的模型和工具集，还提供了方便的界面和 API，使得从文本生成、对话系统到语义分析等任务都能快速实现 安装要求 Ollama 支持多种操作系统，包括 macOS、Windows、Linux 以及通过 Docker 容器运行。 CPU：多核处理器（推荐 4 核或以上） GPU：如果你计划运行大型模型或进行微调，推荐使用具有较高计算能力的 GPU（如 NVIDIA 的 CUDA 支持） 内存：至少 8GB RAM，运行较大模型时推荐 16GB 或更高。 存储：需要足够的硬盘空间来存储预训练模型，通常需要 10GB 至数百 GB 的空间，具体取决于模型的大小。 软件要求：确保系统上安装了最新版本的 Python（如果打算使用 Python SDK）。 下载安装ollama https://ollama.com/download 下载 下载完成后进行安装 运行模型 https://ollama.com/search 查找模型 下载模型 如 ollama run deepseek-r1 使用docker安装UI页面 docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v D:\open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main 进入UI页面，注册本地账号，开始使用
访问 http://localhost:3000/ Ollama API 可参考文档</description>
    </item>
    
  </channel>
</rss>
