引言

大语言模型方兴未艾，除了与 ChatGPT 聊人生，之外的场景更令人充满想象。其中最受关注的一点便是如何让模型跳出训练数据的局限。

由于 LLM 训练过程所用到的数据有其时空局限性：一方面这些数据会有一个截止时间，如 ChatGPT 声称自己的知识被截断至 2021 年 9 月，因此无法帮你理解昨天某个莫名其妙的热搜；另一方面模型能触达的基本只有公开数据，尽管包含海量的通用知识，但在面对特定范围内的个性化问题时仍然束手无策，比如无法得知你所在团队的代码规范、用不上你文件夹里的资料等。

针对第一点，应对方法是给 LLM 插上搜索引擎的翅膀，代表是 New Bing；第二个方向则更为活跃，肉眼可见 ChatExcel、ChatPDF、ChatPaper、ChatFiles、DocsGPT 等一溜烟地出现，为你电脑里不同格式的几份文档提供对接 AI 的解决方案。

你说有用吗？当然。试想如果成百份上百页的文档来不及读，稍微花点钱就能大致问出想要的东西，那确实可以帮上忙。你问用处大吗？对于更多场景而言，这种召回加回答的质量有限，还不足以落入生产环境，真正发挥价值（正是笔者在研究的内容）。

所以当 Quivr 打着「第二大脑」的名号出现时，还是令人略感新鲜的。

Quivr 初见

如官网首页所言，

Quivr 是你在云端的第二大脑，可以便捷地存取各种非结构化的信息。

鉴于官网甩了 GitHub 链接，先从开源仓库一窥究竟。从 5 月 13 日的初次提交来看，项目至今方才满一个月，二十余人参与贡献，目前发版至 v0.0.4，已收获七千多星，即便是在众星云集的大模型应用领域，也可谓相当夺目。

根据介绍，Quivr 基于 LangChain 构建，数据保存在 Supabase 中，其特色包括但不限于：

能够处理几乎所有常见数据格式，Text、Markdown、PDF、Office、网页链接、代码、音频、视频等等

ChatGPT 模型支持，可自行配置 API Key

快速高效地响应

数据可控，安全隐私

附上官方 Demo 视频（貌似官网上还是基于 Streamlit 的旧版，此处为新版前端）：

Quivr 上手

百闻不如一用，体验才好发言。

进入官网，点击 Get Started 注册帐号

点击 Upload 上传文件至副脑，比如这份李白生平（出自维基百科）

点击 Explore 查看和管理已上传的文件

点击 Chat 进入对话，即可调动副脑，基于已上传的知识文档回答对应问题

以「李白死后葬于何处？」为例，对比原版 ChatGPT 的回答，高下立现：

除了对话外，Quivr 还有一个有趣的功能，点击右上角小人，就能看到自己的副脑使用情况：

值得注意的是，免费的帐号有 7MB 的副脑空间和每日 10 个问题的限制，毕竟是作者自掏腰包，已经十分慷慨。如果你有自己的 OpenAI API Key，可以上传不超过 200MB 的单个文件并畅聊；如果你乐意，可以本地部署，解除全部限制。

结语

作者 Stan Girard 是位十分资深的工程专家，在 Quivr 为人所知后还受邀与 LangChain 的作者 Harrison Chase 做了一个 Webinar，操着法味英语详细谈了 Quivr 的诞生、实现等细节，浓浓的工程师憨厚气场。问及做项目的初衷和动力，Stan 的回复也令 Harrison 发笑并被引用作为发推文案：

Have fun and build.

PS：刚发现 Quivr 甚至还推出了 1 周月纪念T恤：