国人友好开源知识库PMBrain:本地部署,支持DeepSeek与全格式文档导入,构建你的AI第二大脑
知识库(RAG)已经成为AI时代不可或缺的基础设施。大模型再强大,本质上仍是“租用的智力”,只有沉淀到个人知识库中的内容才真正属于自己。正因如此,我一直希望构建一套真正贴合自身需求的知识库系统。
探索历程:从多种方案到GBrain
我几乎试遍了市面上的主流知识库产品和构建方法。最初从Karpathy的本地知识库构建思路入手——那是一套通过Obsidian整理笔记再编译为个人wiki的方法,非常适合记录思路与灵感,至今我仍用它来梳理个人想法。但它仅支持Markdown,处理其他格式的资料需要手动转换,整理原始数据相当耗时。虽然如今大模型调用成本大幅下降,这套方案仍然只适合搭建小体量知识库。
在线知识库(如NotebookLM、ima等)或嵌入智能体的知识库功能使用起来方便,但数据保密性是无法回避的痛点。并非所有项目资料都适合上传至云端,这种不确定性让在线库时用时停,最终几乎处于半荒废状态。此外,文件同步也是一笔糊涂账:哪些已同步、哪些未同步,维护一段时间后常常因过于繁琐而放弃。
后来我接触到Garry Tan开发的Gbain——一个在Karpathy理论基础上进一步演进的开源产品。它能自动完成知识整理过程:只需给资料,系统直接向量化,随后可以从任意角度搜索、全面覆盖关联知识。Gbain完全本地部署,并支持各类AI工具调用。

该产品在GitHub上开源,因功能强大且本地化安全,许多公司和个人纷纷部署。横向对比多款开源知识库(如清华UltraRAG等),Gbain的内核确实最为强悍。不过,其设计偏向海外高知用户,对普通中文使用者并不友好:仅支持Markdown原始资料收集,无法直接处理Word、Excel、PDF等日常文档格式;不支持中文分词与反馈;也无法接入国内主流大模型和AI生态。这些短板让国内用户使用起来步履维艰。
开源改造:打造更懂国人习惯的PMBrain
基于以上痛点,我决定在Gbain基础上进行深度定制,让它真正符合日常工作流。几个迭代下来,终于做出了稳定可用的初版,并在实际使用中验证了关键问题的解决:
- 通过MCP协议无缝接入Codebuddy、Workbuddy、Codex等常用AI工具,调用毫无障碍。
- 原生支持doc、docx、csv、xlsx、pdf等文件格式,一句话即可完成批量导入,彻底告别手动转Markdown。
- 检索效果大幅优化,信息可以快速呈现。
- 全面兼容国产大模型API,如DeepSeek、MiniMax、智谱等,自由选用向量化与对话模型。
- 本地化部署过程稳定顺畅,无需远程服务器即可运行。
我将这个项目命名为PMBrain。起初是想为项目经理(我本身是产品经理同时负责项目)打造一个“大脑”——面对堆积如山的会议记录、各类文档和待办事项,必须有一个可靠的知识库来承载。后来发现,这套基于原作者强大内核的改造,几乎适用于任何知识库场景,堪称一个可移植的“第二大脑”。为了让更多人受益,我将其完全开源,地址为:https://github.com/zhengyunhui123-dev/PMBrain
项目开源、代码可自由下载维护,无需付费,且完全本地部署,不需要任何服务器资源,没有任何停服或跑路风险。我的目标是打破信息壁垒,不断为其注入新能力,持续迭代下去。
安装与使用指南
安装流程非常简洁,全程可由AI工具自动化完成:
- 将GitHub仓库地址交给你的AI助手(如Workbuddy、Codebuddy、Cursor等),它会自动执行安装。
- 准备至少两个大模型API:一个用于向量化(推荐智谱embedding-3,10元成本即可开始体验),另一个用于对话与搜索(推荐性价比极高的DeepSeek)。
- 安装完成后,让AI工具接着配置MCP接入。
- MCP就绪后,测试导入文件;如果导入成功,即代表整体环境已经就绪。
日常使用同样轻松,以下是我最常用的几条提示词,可借助AI工具直接操作:
- 文件夹导入:【文件夹路径】将这个文件夹capture到PMBrain中
- 上下文导入:将这个上下文capture到PMBrain中
- 增量同步:把已注册的source在PMBrain全部同步一次
费用与资源消耗
向量化模型(embedding)是必需品,也是消耗最大的部分,具体花费完全取决于知识库的体量。以我目前的使用为例,充值10元尚未用完。如果通过MCP接入AI工具进行对话与问答,额外产生的对话费用极低,主要消耗来自你所使用的AI工具的token。整体而言,仅需承担大模型调用成本,系统本身不产生任何订阅费或服务费。
欢迎各位体验并提出宝贵建议,共同让PMBrain变得更好用。