和AI聊了几百轮,发现最有价值的知识全散落在聊天记录里。下次遇到类似问题,还得重新问一遍。
这不是工具推荐,是我自己搭的一套系统。用了一年,从零长到23个知识页面,全是AI自己从对话里提炼出来的。
先说结论:把AI当知识管理员,比当聊天机器人有用得多。
一、为什么要自动化知识库
我每天和AI助手聊天,聊技术、聊工具、聊踩坑经验。
这些对话里藏着大量可复用的知识点:某个工具的配置方法、某个问题的解决方案、某个概念的清晰解释。
但问题是——它们全在聊天记录里。
想找的时候翻不到,找到了也不确定是最新的。
更关键的是,下次遇到类似问题,我又得重新描述一遍背景,重新问一遍。
所以我想要一个系统:自动扫描对话,自动提炼知识点,自动写入知识库。
不是什么Notion模板,不是Obsidian手动整理。
是真正的全自动——我正常聊天,知识库自动生长。
二、方案:LLM Wiki 规范 + 定时扫描
我的方案基于Karpathy提出的LLM Wiki规范。
核心思路:用Markdown文件存知识,用双向链接把知识点串成图谱,用AI定时扫描对话来增量更新。
整个知识库就是一个文件夹,长这样:
| |
每个页面都有统一的frontmatter格式:
| |
用[[wikilinks]]语法在页面间建立双向链接。
比如opencode页面引用了understand-anything,后者又引用了hermes-agent。
这些链接自动形成知识图谱,不用手动维护。
三、扫描脚本:从对话中挖知识点
核心是一个Python脚本,每周自动扫描最近7天的AI对话记录。
它的逻辑很简单:
第一步:扫描会话数据库,找到最近有实质内容的对话。
筛选标准:消息数≥5条,标题非空,时间在7天内。
第二步:用关键词匹配分类。我定义了8个类别:
| |
每条匹配规则是多个关键词用管道符连接。
比如"ai|llm|模型|训练|推理"都归到AI类。
第三步:过滤掉已有页面覆盖的内容,输出候选清单。
第四步:LLM Agent拿到候选清单,判断是否值得入库。
不是什么都记。有两个硬性门槛:
同一个知识点出现2次以上,或者来自1个高质量核心来源。
这样避免了把闲聊当知识的问题。
四、自动化流程:定时任务配置
我把扫描脚本配成了定时任务,每周日上午11点自动运行。
流程是四步:
扫描脚本输出候选 → LLM判断是否值得入库 → 创建或更新wiki页面 → 追加操作日志
目前已经跑了5轮自动入库,产生了这些内容:
实体页13个:hermes-agent、mempalace、opencode、obsidian、karpathy等。
概念页5个:双向链接、知识库工作流、五层记忆架构、MySQL大表DDL方案、被动验证方法论。
最有价值的是交叉引用。
opencode → understand-anything → hermes-agent → openclaw
这条引用链,把四个工具的定位和关系串了起来。
下次我需要对比它们,直接看知识库就行。
五、设计思考:为什么不用Notion
很多人会问:为什么不直接用Notion?或者Obsidian的插件?
三个原因:
第一,数据主权。我的知识库是本地Markdown文件,git管理。
不依赖任何云服务,不会因为某天服务下线就丢数据。
第二,增量构建。不是一次性搭好架子然后手动填充。
是每周自动从对话中生长,越用越丰富。
我正常使用AI,知识库自动变厚。
第三,AI做苦力。扫描、分类、提取、格式化,全部自动化。
我只做最终决策——这个东西值不值得记。
当然也有代价:没有Notion那么漂亮的界面,没有协作功能。
但知识库的本质是"能找到",不是"好看"。
六、一个真实页面长什么样
拿hermes-agent这个实体页举例:
开头是frontmatter,包含标题、日期、类型、标签、来源、置信度。
然后是正文:概述、核心架构(配置层级表格)、Profile隔离系统、Skill系统、五层记忆架构、多平台网关。
最后是相关页面链接:nous-research、llm-wiki、obsidian、mempalace。
每个链接都能跳转,形成知识网络。
整个页面从创建到现在更新了3次,每次都是自动扫描触发的。
不是手动维护的"死"文档,而是跟着我的使用持续进化的"活"知识。
回看log.md的操作记录,5次自动入库覆盖了完全不同的领域:
从MySQL大表DDL方案到OSINT被动验证方法论。
这正是自动化的价值——它不会只记你"觉得重要"的东西。
而是记录你"实际在用"的东西。
如果你也在大量使用AI工具,强烈建议搭一个自己的知识库。
不需要复杂,一个文件夹 + 一个扫描脚本就够了。
关键不是工具选型,而是让知识自动沉淀。
手动整理的知识库,最后都会变成没人维护的死文档。
只有自动化的,才能活下来。
关注 varkm,一起学习,一起成长
下一篇讲怎么给这个知识库加上语义搜索,让它从"能找到"变成"能联想"