Ollama
概述
本地大语言模型运行框架,支持一键部署和运行 LLM、Embedding 模型。通过 CLI 或 API 调用,无需 GPU 云服务。
核心能力
- 模型管理:
ollama pull/run简化模型获取与运行 - API服务:兼容 OpenAI API 格式,
localhost:11434 - Embedding支持:用于向量检索的嵌入模型本地部署
实际用途
- 部署 Qwen3-Embedding-0.6B 作为 [[mempalace]] 的嵌入模型
- 中文命中率从 all-MiniLM-L6-v2 的 50% 提升到 100%
相关
- [[mempalace]] — 使用 Ollama 部署嵌入模型
- [[memory-layered-architecture]] — 五层记忆架构中的嵌入模型