n8n 30. n8n RAG 全自动知识库副业工作流,轻松月入过万?

用 n8n 搭建 RAG 全自动知识库服务的副业工作流。不再交付一次性处理结果,而是提供持续可用的智能知识库访问权限。工作流整合向量数据库、文档解析和 AI 问答三大模块,客户上传文档后自动入库并支持自然语言检索。教程涵盖 Pinecone 向量数据库配置、文档切片策略、RAG 检索优化和订阅制定价模型设计。

n8n 30. n8n RAG 全自动知识库副业工作流,轻松月入过万?

引言

上一期我拆解了 n8n 自动化副业系统,核心是"用工作流交付结果"。这一期我要把这个思路往前推一步——不再交付一次性的处理结果,而是交付一个持续可用的知识库访问权限。

我是翔宇。在做这期内容之前,我一直在想一个问题:淘宝上那些卖行业报告的店铺,销量动辄几千单,说明需求是真实存在的。但这个模式有个致命问题——你辛辛苦苦整理的几百份 PDF,买家拿到后复制一份就能低价转卖,你根本没有壁垒。

所以我提出了"知识变现 2.0"的概念:不卖文档,卖知识库服务。用户付费后获得一个登录账号,在 n8n 原生的对话界面里直接提问,AI 从你精心构建的向量数据库中检索答案。内容独特、不易复制、附加值高。这期视频就是完整的搭建教程。

你将学到

  • RAG(检索增强生成)系统的核心原理与向量检索机制
  • 如何用 n8n 搭建支持 20+ 格式的全自动文档处理工作流
  • Pinecone 向量数据库的接入与索引管理
  • Unstructured API 实现 Office/PDF/HTML 等全格式解析
  • 多模态图片信息提取(表格、手写体、扫描件)
  • 基于时间订阅的付费密码校验系统
  • 构建上下文检索式问答系统(LangChain + MultiQuery Retriever)
  • 知识变现 1.0 vs 2.0 的商业模式对比

视频教程

本教程配套视频已发布在 YouTube,建议搭配视频一起学习效果更佳。

详细教程

知识变现的两个时代

在搭建工作流之前,先聊一下为什么要做 RAG 知识库。

1.0 时代:卖资料。 淘宝上到处都是行业报告合集,几块钱几十块钱一份。问题在于:知识产权风险高(报告来自大机构),内容容易被复制(买家直接转卖),附加值低(整理再辛苦也卖不上价),没有行业壁垒。

2.0 时代:卖知识库服务。 把这些行业报告进行 RAG 化处理,存入向量数据库。用户付费后不是拿到文档本身,而是获得知识库的访问权限,通过对话界面直接提问获取答案。好处是:准确性高(基于真实文档而非大模型编造),内容独特(竞争对手无法遍历你的向量库复制),一次制作有壁垒,结合 AI 附加值高。

打个比方:1.0 是卖菜谱,用户还得自己翻、自己理解;2.0 是请了个私厨,用户说一句话就能上菜。

RAG 系统原理

RAG(Retrieval-Augmented Generation,检索增强生成)的核心流程分两步:

文档处理阶段:把各种格式的文档(PDF、Word、Excel、PPT、图片等)进行分块,通过 Embedding 模型将每个文本块转化为向量(比如 1536 维的数字数组),存入 Pinecone 等向量数据库。

知识检索阶段:用户提问时,问题文本同样转化为向量,通过向量相似度计算在数据库中找到最相关的文本块(Top K),把这些文本块作为上下文发送给大模型,大模型基于这些真实资料生成回答。

向量检索的优势在于语义理解——搜索"全格式文件"能匹配到包含"全格式文档"的内容,因为"文件"和"文档"在向量空间中距离很近。这是传统关键词检索做不到的。

第一步:配置表单与任务路由

在 n8n 中新建工作流,添加 Form Trigger 节点。表单包含三个字段:

  1. 类型:Dropdown 下拉菜单,选项为"纯文本""PDF 文档""图片""Office",对应四条处理链路。
  2. 文件上传:File 类型,支持多文件批量上传。
  3. 文本内容:TextArea 类型,用于直接粘贴纯文本。

表单提交后,添加 Switch 节点根据用户选择的类型进行路由分发。四条分支分别处理不同格式的文档。

第二步:四条格式处理链路

纯文本链路:将文本通过 ConvertToFile 转为文件格式,经 Default Data Loader 加载,再用 Recursive Character Text Splitter 进行分块,最后通过 Embeddings OpenAI 生成向量并存入 Pinecone。

PDF 链路:用 Merge 节点聚合多个 PDF 文件,通过 n8n 内置的 LangChain 框架进行分块嵌入,遍历存入 Pinecone 的 PDF 专属索引。

Office 全格式链路:调用 Unstructured API 进行文档解析。Unstructured 支持 20+ 格式(Word、Excel、PPT、HTML、EPUB、RTF 等),支持三种解析模式——Fast(纯文本快速提取)、High Resolution(OCR + 布局分析)、VLM(视觉模型处理手写体和扫描件)。解析后同样分块嵌入到向量数据库。

图片链路:通过 Google Gemini 大模型的多模态能力,提取图片中的视觉元素、文字、表格结构化数据,转为 Markdown 格式后存入向量数据库。我测试了包含复杂表格的图片,提取准确率相当高。

第三步:构建问答对话系统

文档处理完成后,搭建检索式问答系统。使用 Chat Trigger 节点创建对话界面,后端通过 MultiQuery Retriever + Vector Store Retriever + ChainRetrievalQA 构建问答链路。用户提问时,系统从 Pinecone 中检索相关文本块,作为上下文传给大模型生成回答。

我用法律领域做了测试——上传了劳动合同法全文和广东省诉讼费标准表(Excel)。问"员工辞职需要提前多久通知公司",系统精准定位到第 37 条返回答案;问"诉讼费怎么收费",系统从 Excel 表格中提取出费率数据。十几个文档处理后生成了 448 个向量块,检索速度毫秒级。

第四步:付费订阅系统

这次的密码系统和上一期不同——不按次数计费,而是按时间订阅(按日/月/年)。用户输入购买密码后,工作流自动校验是否在有效期内,验证通过后自动生成知识库的登录账号和密码,用户凭此直接访问对话界面。

全格式支持与分块策略

我提出的分块方式是按页数切块——因为很多人在写文档时会把一个完整的内容放在一页里,按页分块能保持内容的完整性。Unstructured 还支持按标题、按相似度、按 Token 数等多种分块逻辑,以及跨页分块、块间重叠等高级参数,你可以根据文档特点灵活调整。

效果展示

这套工作流构建了一个从文档上传到智能问答的完整 RAG 系统:

全格式批量处理:支持 PDF、Word、Excel、PPT、HTML、TXT、Markdown、EPUB、图片等 20+ 格式,一次上传十几个不同格式的文档,几分钟内完成分块嵌入。

高精度检索问答:基于 Pinecone 向量数据库和 LangChain 检索链,实现语义级别的知识检索。测试结果中,法律条文定位准确,Excel 表格数据提取正确,图片中的结构化信息也能被检索到。

多模态处理能力:通过 Gemini 多模态模型,能从复杂图片中提取表格数据、文字信息和结构化内容,并存入向量数据库供后续检索。

动态路由扩展:Switch 路由架构支持随时添加新的文档格式处理分支,无需改动现有工作流。

付费订阅闭环:集成时间订阅制密码校验,用户付费后自动获取知识库登录凭证,支持按日/月/年灵活设置订阅周期。

延伸阅读

常见问题

Q:Pinecone 免费额度够用吗?
A:Pinecone 免费版提供的存储和查询量对于中小规模知识库完全够用。我测试的十几个文档生成了 448 个向量块,远没有触及免费额度上限。如果规模很大,可以考虑升级付费计划。

Q:Unstructured API 收费吗?
A:Unstructured 提供免费额度,日常测试和小规模使用足够。如果是企业级大批量文档处理,需要购买付费计划。

Q:知识库里的内容会不会被用户复制走?
A:这就是 RAG 模式的核心优势——用户只能通过对话获取特定问题的回答,无法遍历你底层的 448 个甚至上千个向量块把原始文档全部还原出来。相比直接发文档,壁垒高得多。

Q:适合哪些行业?
A:任何有大量专业文档沉淀的领域都适合。法律(法规条文、判例库)、金融(行业报告、审计标准)、医疗(临床指南、药品说明书)、教育(课题组资料、教材)、科研(论文库、实验数据),甚至企业内部的知识管理都是好的方向。

总结

这期我从"知识变现 2.0"的商业逻辑出发,完整搭建了一套终极 RAG 系统——全格式支持、批量高效处理、多模态信息提取、语义级检索问答、付费订阅闭环。核心思路就是:不卖资料卖服务,用 RAG 把你的行业知识变成一个持续产生价值的产品。

n8n 的无限制执行次数让批量处理毫无压力,Pinecone 的专业向量检索保证了查询速度和精度。如果你在某个垂直领域有深度积累,这套系统就是你把知识转化为收入的基础设施。下一期我会带来 n8n + MCP 实操指南,教你把任意工作流接入大模型生态。

资源下载

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

操作成功。

操作已取消。