我给AI建了个全自动知识库：每周自动从对话中提炼知识点

和AI聊了几百轮，发现最有价值的知识全散落在聊天记录里。下次遇到类似问题，还得重新问一遍。

这不是工具推荐，是我自己搭的一套系统。用了一年，从零长到23个知识页面，全是AI自己从对话里提炼出来的。

先说结论：把AI当知识管理员，比当聊天机器人有用得多。

一、为什么要自动化知识库

我每天和AI助手聊天，聊技术、聊工具、聊踩坑经验。

这些对话里藏着大量可复用的知识点：某个工具的配置方法、某个问题的解决方案、某个概念的清晰解释。

但问题是——它们全在聊天记录里。

想找的时候翻不到，找到了也不确定是最新的。

更关键的是，下次遇到类似问题，我又得重新描述一遍背景，重新问一遍。

所以我想要一个系统：自动扫描对话，自动提炼知识点，自动写入知识库。

不是什么Notion模板，不是Obsidian手动整理。

是真正的全自动——我正常聊天，知识库自动生长。

二、方案：LLM Wiki 规范 + 定时扫描

我的方案基于Karpathy提出的LLM Wiki规范。

核心思路：用Markdown文件存知识，用双向链接把知识点串成图谱，用AI定时扫描对话来增量更新。

整个知识库就是一个文件夹，长这样：

1
2
3
4
5
6
7
8
9
wiki/
  entities/      # 实体页（工具、人物、项目）
  concepts/      # 概念页（方法论、架构、工作流）
  comparisons/   # 对比页（方案选型）
  queries/       # 查询页（常见问题）
  raw/           # 原始素材（对话摘要）
  SCHEMA.md      # 规范定义
  index.md       # 全局索引
  log.md         # 操作日志

每个页面都有统一的frontmatter格式：

1
2
3
4
5
6
7
8
9
---
title: 页面标题
created: 2026-05-14
updated: 2026-05-25
type: entity | concept | comparison | query
tags: [ai, tools, open-source]
sources: [raw/articles/xxx.md]
confidence: high | medium | low
---

用[[wikilinks]]语法在页面间建立双向链接。

比如opencode页面引用了understand-anything，后者又引用了hermes-agent。

这些链接自动形成知识图谱，不用手动维护。

三、扫描脚本：从对话中挖知识点

核心是一个Python脚本，每周自动扫描最近7天的AI对话记录。

它的逻辑很简单：

第一步：扫描会话数据库，找到最近有实质内容的对话。

筛选标准：消息数≥5条，标题非空，时间在7天内。

第二步：用关键词匹配分类。我定义了8个类别：

1
2
AI/模型 | 工具/Agent | 数据库 | OSINT
DevOps | 编程 | 写作 | 记忆/知识库

每条匹配规则是多个关键词用管道符连接。

比如"ai|llm|模型|训练|推理"都归到AI类。

第三步：过滤掉已有页面覆盖的内容，输出候选清单。

第四步：LLM Agent拿到候选清单，判断是否值得入库。

不是什么都记。有两个硬性门槛：

同一个知识点出现2次以上，或者来自1个高质量核心来源。

这样避免了把闲聊当知识的问题。

四、自动化流程：定时任务配置

我把扫描脚本配成了定时任务，每周日上午11点自动运行。

流程是四步：

扫描脚本输出候选 → LLM判断是否值得入库 → 创建或更新wiki页面 → 追加操作日志

目前已经跑了5轮自动入库，产生了这些内容：

实体页13个：hermes-agent、mempalace、opencode、obsidian、karpathy等。

概念页5个：双向链接、知识库工作流、五层记忆架构、MySQL大表DDL方案、被动验证方法论。

最有价值的是交叉引用。

opencode → understand-anything → hermes-agent → openclaw

这条引用链，把四个工具的定位和关系串了起来。

下次我需要对比它们，直接看知识库就行。

五、设计思考：为什么不用Notion

很多人会问：为什么不直接用Notion？或者Obsidian的插件？

三个原因：

第一，数据主权。我的知识库是本地Markdown文件，git管理。

不依赖任何云服务，不会因为某天服务下线就丢数据。

第二，增量构建。不是一次性搭好架子然后手动填充。

是每周自动从对话中生长，越用越丰富。

我正常使用AI，知识库自动变厚。

第三，AI做苦力。扫描、分类、提取、格式化，全部自动化。

我只做最终决策——这个东西值不值得记。

当然也有代价：没有Notion那么漂亮的界面，没有协作功能。

但知识库的本质是"能找到"，不是"好看"。

六、一个真实页面长什么样

拿hermes-agent这个实体页举例：

开头是frontmatter，包含标题、日期、类型、标签、来源、置信度。

然后是正文：概述、核心架构（配置层级表格）、Profile隔离系统、Skill系统、五层记忆架构、多平台网关。

最后是相关页面链接：nous-research、llm-wiki、obsidian、mempalace。

每个链接都能跳转，形成知识网络。

整个页面从创建到现在更新了3次，每次都是自动扫描触发的。

不是手动维护的"死"文档，而是跟着我的使用持续进化的"活"知识。

回看log.md的操作记录，5次自动入库覆盖了完全不同的领域：

从MySQL大表DDL方案到OSINT被动验证方法论。

这正是自动化的价值——它不会只记你"觉得重要"的东西。

而是记录你"实际在用"的东西。

如果你也在大量使用AI工具，强烈建议搭一个自己的知识库。

不需要复杂，一个文件夹 + 一个扫描脚本就够了。

关键不是工具选型，而是让知识自动沉淀。

手动整理的知识库，最后都会变成没人维护的死文档。

只有自动化的，才能活下来。

关注 varkm，一起学习，一起成长

下一篇讲怎么给这个知识库加上语义搜索，让它从"能找到"变成"能联想"