Ollama

Ollama

概述

本地大语言模型运行框架，支持一键部署和运行 LLM、Embedding 模型。通过 CLI 或 API 调用，无需 GPU 云服务。

核心能力

模型管理：ollama pull/run 简化模型获取与运行
API服务：兼容 OpenAI API 格式，localhost:11434
Embedding支持：用于向量检索的嵌入模型本地部署

实际用途

部署 Qwen3-Embedding-0.6B 作为 [[mempalace]] 的嵌入模型
中文命中率从 all-MiniLM-L6-v2 的 50% 提升到 100%

相关

[[mempalace]] — 使用 Ollama 部署嵌入模型
[[memory-layered-architecture]] — 五层记忆架构中的嵌入模型