Ollama 简介

介绍

  • Ollama 是一个开源的大型语言模型(LLM)平台,旨在让用户能够轻松地在本地运行、管理和与大型语言模型进行交互。
  • Ollama 提供了一个简单的方式来加载和使用各种预训练的语言模型,支持文本生成、翻译、代码编写、问答等多种自然语言处理任务。
  • Ollama 的特点在于它不仅仅提供了现成的模型和工具集,还提供了方便的界面和 API,使得从文本生成、对话系统到语义分析等任务都能快速实现

安装要求

  • Ollama 支持多种操作系统,包括 macOS、Windows、Linux 以及通过 Docker 容器运行。
  • CPU:多核处理器(推荐 4 核或以上)
  • GPU:如果你计划运行大型模型或进行微调,推荐使用具有较高计算能力的 GPU(如 NVIDIA 的 CUDA 支持)
  • 内存:至少 8GB RAM,运行较大模型时推荐 16GB 或更高。
  • 存储:需要足够的硬盘空间来存储预训练模型,通常需要 10GB 至数百 GB 的空间,具体取决于模型的大小。
  • 软件要求:确保系统上安装了最新版本的 Python(如果打算使用 Python SDK)。

下载安装ollama

运行模型

使用docker安装UI页面

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v D:\open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

进入UI页面,注册本地账号,开始使用

  • 访问 http://localhost:3000/

Ollama API

可参考文档

  1. 启动 Ollama 服务 ollama serve
    • 默认情况下,服务会运行在 http://localhost:11434。
  2. API 端点
    1. POST /api/generate

      • 功能:向模型发送提示词(prompt),并获取生成的文本
    2. POST /api/chat

      • 功能:支持多轮对话,模型会记住上下文。