我给AI建了个全自动知识库:每周自动从对话中提炼知识点

用LLM Wiki规范和定时扫描脚本,每周自动从AI对话中提炼知识点,构建本地Markdown知识库。一年从零长到23个页面,全部由AI自己从对话里提炼出来。

和AI聊了几百轮,发现最有价值的知识全散落在聊天记录里。下次遇到类似问题,还得重新问一遍。

这不是工具推荐,是我自己搭的一套系统。用了一年,从零长到23个知识页面,全是AI自己从对话里提炼出来的。

先说结论:把AI当知识管理员,比当聊天机器人有用得多。

一、为什么要自动化知识库

我每天和AI助手聊天,聊技术、聊工具、聊踩坑经验。

这些对话里藏着大量可复用的知识点:某个工具的配置方法、某个问题的解决方案、某个概念的清晰解释。

但问题是——它们全在聊天记录里。

想找的时候翻不到,找到了也不确定是最新的。

更关键的是,下次遇到类似问题,我又得重新描述一遍背景,重新问一遍。

所以我想要一个系统:自动扫描对话,自动提炼知识点,自动写入知识库。

不是什么Notion模板,不是Obsidian手动整理。

是真正的全自动——我正常聊天,知识库自动生长。

二、方案:LLM Wiki 规范 + 定时扫描

我的方案基于Karpathy提出的LLM Wiki规范。

核心思路:用Markdown文件存知识,用双向链接把知识点串成图谱,用AI定时扫描对话来增量更新。

整个知识库就是一个文件夹,长这样:

1
2
3
4
5
6
7
8
9
wiki/
  entities/      # 实体页(工具、人物、项目)
  concepts/      # 概念页(方法论、架构、工作流)
  comparisons/   # 对比页(方案选型)
  queries/       # 查询页(常见问题)
  raw/           # 原始素材(对话摘要)
  SCHEMA.md      # 规范定义
  index.md       # 全局索引
  log.md         # 操作日志

每个页面都有统一的frontmatter格式:

1
2
3
4
5
6
7
8
9
---
title: 页面标题
created: 2026-05-14
updated: 2026-05-25
type: entity | concept | comparison | query
tags: [ai, tools, open-source]
sources: [raw/articles/xxx.md]
confidence: high | medium | low
---

[[wikilinks]]语法在页面间建立双向链接。

比如opencode页面引用了understand-anything,后者又引用了hermes-agent。

这些链接自动形成知识图谱,不用手动维护。

三、扫描脚本:从对话中挖知识点

核心是一个Python脚本,每周自动扫描最近7天的AI对话记录。

它的逻辑很简单:

第一步:扫描会话数据库,找到最近有实质内容的对话。

筛选标准:消息数≥5条,标题非空,时间在7天内。

第二步:用关键词匹配分类。我定义了8个类别:

1
2
AI/模型 | 工具/Agent | 数据库 | OSINT
DevOps | 编程 | 写作 | 记忆/知识库

每条匹配规则是多个关键词用管道符连接。

比如"ai|llm|模型|训练|推理"都归到AI类。

第三步:过滤掉已有页面覆盖的内容,输出候选清单。

第四步:LLM Agent拿到候选清单,判断是否值得入库。

不是什么都记。有两个硬性门槛:

同一个知识点出现2次以上,或者来自1个高质量核心来源。

这样避免了把闲聊当知识的问题。

四、自动化流程:定时任务配置

我把扫描脚本配成了定时任务,每周日上午11点自动运行。

流程是四步:

扫描脚本输出候选 → LLM判断是否值得入库 → 创建或更新wiki页面 → 追加操作日志

目前已经跑了5轮自动入库,产生了这些内容:

实体页13个:hermes-agent、mempalace、opencode、obsidian、karpathy等。

概念页5个:双向链接、知识库工作流、五层记忆架构、MySQL大表DDL方案、被动验证方法论。

最有价值的是交叉引用。

opencode → understand-anything → hermes-agent → openclaw

这条引用链,把四个工具的定位和关系串了起来。

下次我需要对比它们,直接看知识库就行。

五、设计思考:为什么不用Notion

很多人会问:为什么不直接用Notion?或者Obsidian的插件?

三个原因:

第一,数据主权。我的知识库是本地Markdown文件,git管理。

不依赖任何云服务,不会因为某天服务下线就丢数据。

第二,增量构建。不是一次性搭好架子然后手动填充。

是每周自动从对话中生长,越用越丰富。

我正常使用AI,知识库自动变厚。

第三,AI做苦力。扫描、分类、提取、格式化,全部自动化。

我只做最终决策——这个东西值不值得记。

当然也有代价:没有Notion那么漂亮的界面,没有协作功能。

但知识库的本质是"能找到",不是"好看"。

六、一个真实页面长什么样

拿hermes-agent这个实体页举例:

开头是frontmatter,包含标题、日期、类型、标签、来源、置信度。

然后是正文:概述、核心架构(配置层级表格)、Profile隔离系统、Skill系统、五层记忆架构、多平台网关。

最后是相关页面链接:nous-research、llm-wiki、obsidian、mempalace。

每个链接都能跳转,形成知识网络。

整个页面从创建到现在更新了3次,每次都是自动扫描触发的。

不是手动维护的"死"文档,而是跟着我的使用持续进化的"活"知识。

回看log.md的操作记录,5次自动入库覆盖了完全不同的领域:

从MySQL大表DDL方案到OSINT被动验证方法论。

这正是自动化的价值——它不会只记你"觉得重要"的东西。

而是记录你"实际在用"的东西。

如果你也在大量使用AI工具,强烈建议搭一个自己的知识库。

不需要复杂,一个文件夹 + 一个扫描脚本就够了。

关键不是工具选型,而是让知识自动沉淀。

手动整理的知识库,最后都会变成没人维护的死文档。

只有自动化的,才能活下来。

关注 varkm,一起学习,一起成长

下一篇讲怎么给这个知识库加上语义搜索,让它从"能找到"变成"能联想"