Make 10. 科研自动化实操:用 Make 工具批量自动进行文献总结

用 Make.com 搭建科研文献自动化处理工作流。PDF 上传 Notion 后自动下载、PDF.co 转文本、ChatGPT 提取结构化元数据,通过 Router 分支生成通用文献总结和课题导向摘要两份报告并回填数据库。教程详解 Notion 知识库字段设计、toString 公式处理技巧和双提示词策略,适合研究生和科研工作者批量处理几十上百篇文献。

Make 10. 科研自动化实操:用 Make 工具批量自动进行文献总结

引言

做科研最费时的环节之一就是文献阅读和总结。每篇论文都要手动下载 PDF,逐页阅读,提取元数据,写总结笔记,再针对自己的研究课题分析启示。处理十篇二十篇还能忍,等到文献综述阶段要梳理几十上百篇的时候,效率就成了瓶颈。

我是翔宇。翔宇在做深度研究项目时就遇过这个问题——一次要处理上百篇文献,手动总结根本来不及。这套工作流就是那段经历催生的。

本期教程,我来教你用 Make 搭建一套科研文献自动化工作流。整个流程是这样的:把 PDF 文献上传到 Notion 知识库 → 工作流自动下载 PDF → 提取文本 → ChatGPT 生成结构化元数据 → 通过定制提示词生成两份报告(通用文献总结 + 针对具体课题的文献摘要)→ 全部回填到 Notion。

这套方法适合研究生、博士生、科研工作者,也适合任何需要批量处理 PDF 文档并提取关键信息的场景——比如金融研报分析、产品文档整理、解决方案提炼等。

你将学到

  • 如何设计科研论文的 Notion 知识库结构(含元数据和分类属性)
  • 在 Make 中用 HTTP 模块下载 PDF 文件
  • 使用 PDF.co 模块将 PDF 转为纯文本
  • OpenAI"文本转结构化数据"模块的使用方法(无需复杂提示词)
  • toString() 公式处理二进制数据的技巧
  • 如何用 Router(路由器)实现工作流分支
  • 两套提示词的设计差异:通用文献总结 vs 课题导向文献摘要

视频教程

本教程配套视频已发布在 YouTube,建议搭配视频一起学习效果更佳。

详细教程

工作流整体架构

整个工作流分为两大部分:

第一部分:数据提取(4 个模块)
Notion 检索 → HTTP 下载 PDF → PDF.co 转文本 → ChatGPT 结构化提取元数据

第二部分:报告生成(Router 分两条分支)

  • 分支一:通用科研文献总结 → 保存到 Notion
  • 分支二:课题导向文献摘要 → 保存到 Notion

Router 的两条分支会按顺序执行,先生成通用总结,再生成课题摘要,最终都保存到同一个 Notion 条目中。

第一步:搭建 Notion 科研论文库

在 Notion 中新建"科研论文库"数据库,属性设置:

属性名 类型 说明
标题 Title 论文标题
作者 Text 作者列表
摘要 Text 论文摘要
关键词 Text 关键词
期刊 Text 期刊名称
DOI Text 数字对象标识符
网址 URL 论文链接
文件 Files PDF 文件上传
状态 Select 开始 / 已完成
分类 Text 研究方向(如"大语言模型")

重点说一下"分类"字段。它不只是简单的标签,而是用来指导文献摘要的生成方向。比如填"大语言模型",工作流就会针对大语言模型方向分析这篇文献的启示和研究线索。如果填"大模型训练的新方法和理论",生成的摘要会更加聚焦。分类越精确,摘要越有针对性。

使用方法:新建条目 → 填写标题 → 上传 PDF 到文件字段 → 设置分类 → 状态改为"开始"。

第二步:Notion 检索 + HTTP 下载 PDF

模块 1:Notion Search Objects

配置检索条件:

  • 分类等于"大语言模型"(按方向筛选)
  • 状态等于"开始"(只处理待办条目)

你可以通过修改分类条件来切换处理的研究方向。比如同时有大语言模型和大数据两个方向的文献,只需改一下筛选值就能分批处理。把限制数改大(比如 10),一次运行就能批量处理一整个方向的所有文献。

模块 2:HTTP Get a File

URL 映射 Notion 条目中文件字段的链接,下载 PDF 到 Make 服务器。

第三步:PDF 转文本——PDF.co 模块

这是本期介绍的新方法。以前我们用过网页截图 + 多模态识别(Make 视频 8),也用过 Kimi 的文件接口(Make 视频 7)。今天用 PDF.co 模块直接把 PDF 转为纯文本。

模块 3:PDF.co Convert from PDF

  • 转换类型:PDF to TXT
  • 文件来源:HTTP 模块下载的文件
  • Pages:0-3(只提取前 3 页)

为什么只取前 3 页?因为论文的摘要、引言和方法论概述通常在前几页,已经包含了核心信息。ChatGPT 的上下文窗口有限,不需要塞入整篇论文。3 页足够生成高质量的总结。

PDF.co 按页计费,新用户有免费额度。如果不想用 PDF.co,后续教程还会介绍 PDF 转 Markdown 等其他方案。

第四步:ChatGPT 文本转结构化数据

这里我用了 OpenAI 的"Transform Text to Structured Data"模块,和普通对话模块不同——你不需要写复杂的提示词来限定 JSON 格式,只需要定义数据结构即可。

模块 4:OpenAI Transform Text to Structured Data

  • 模型:GPT-4o
  • 输入文本:toString(PDF.co 的 Data)

注意这里有个关键点:PDF.co 输出的是二进制数据,需要用 toString() 函数转为字符串。这是一个容易踩坑的地方。

然后逐一定义数据结构参数:

参数名 描述 示例
title 翻译为中文的科研文献标题 大语言模型偏好优化的直接方法
authors 科研文献的作者列表 Rafael Rafailov, et al.
abstract 翻译为中文的摘要 (中文摘要示例)
keywords 提取中文关键词 大语言模型, 偏好优化
journal 期刊名称(无需翻译) NeurIPS 2024
doi DOI 标识符 10.xxxx/xxxxx
url 文献网址 https://arxiv.org/...

每个参数的 Required 建议设为 No,因为预印本论文可能缺少 DOI、期刊等信息,避免因缺失字段导致报错。

第五步:Router 分支——两份报告

添加 Router 模块,创建两条分支。

分支一:通用科研文献总结

模块 5:OpenAI Chat Completion

系统提示词定义为"科研文献总结助手",核心要求:

  • 总结字数 3000 字以上
  • 所有内容必须基于发送的文献数据,不得编造
  • 以 Markdown 格式输出
  • 只输出总结结果,无开头语和结束词

输出结构包括:文献基本信息、研究背景和目的、研究方法和实验设计、研究结果和关键发现、研究结论和意义。

User 消息:toString(PDF.co 的 Data),直接发送 PDF 文本内容。Max Tokens 设为 4000。

接下来用 Notion Update 模块把结构化元数据(标题、作者、摘要、DOI 等)回填到知识库条目,状态更新为"已完成"。再用 Notion Append 模块把文献总结追加到条目正文中。

分支二:课题导向文献摘要

模块 6:OpenAI Chat Completion

这条分支的提示词和分支一有本质区别。系统角色是"科研文献摘要撰写助手",目标是将文献内容转化为针对具体研究课题的启示和帮助线索

输出结构包括:

  • 文献背景 + 研究方法 + 主要发现 + 结论(基础部分)
  • 理论启示:现有理论的支持或挑战、理论发展新方向
  • 实验方法启示:实验设计和技术改进、方法学创新
  • 进一步验证方向:验证建议、扩展研究范围
  • 新问题线索:研究发现引发的新问题、未来研究假设
  • 应用建议

User 消息的关键差异在于——要额外传入研究课题:

具体的研究课题为:{{Notion 条目的分类字段}}
科研文献内容:{{toString(PDF.co 的 Data)}}

这样 ChatGPT 就会结合你的课题方向来分析文献,产出的内容对开题报告、文献综述、研究方向探索都有直接帮助。

同样用 Notion Append 模块把摘要追加到条目正文中(排在通用总结之后)。

运行效果

运行工作流后,回到 Notion 科研论文库:

  • 元数据字段全部自动填充(标题、作者、摘要、关键词、DOI、期刊、网址)
  • 条目正文包含两份报告:第一部分是通用文献总结,第二部分是课题导向摘要
  • 状态自动更新为"已完成"

在 Markdown 编辑器中打开可以看到完整的格式化效果——标题层级清晰、要点分明、启示和线索条理清楚。

延伸阅读

常见问题

Q: PDF.co 的免费额度有多少?
新注册用户有一定的免费额度(按页计费)。本教程只提取 3 页,消耗很少。如果你不想用 PDF.co,可以用 Kimi 的文件接口,或者等后续教程中介绍的 PDF 转 Markdown 方案。

Q: 提取 3 页够用吗?会不会丢失重要信息?
对于文献总结来说,论文的摘要、引言和方法论概述集中在前几页,已经涵盖了核心内容。如果你需要更详细的分析(比如实验数据、图表解读),可以把页数范围扩大到 0-10 甚至更多,相应增加 Max Tokens。

Q: "分类"字段怎么设才有效?
越具体越好。"大语言模型"是宽泛方向,生成的摘要会比较通用。"大语言模型训练中的偏好优化方法"就非常聚焦,生成的启示和线索也会更有针对性。建议根据你的开题方向或研究问题来设定。

Q: 能不能批量处理多篇文献?
可以。把所有待处理文献的状态都设为"开始",Notion 检索模块的限制数设为 10 或更大。Make 会遍历每条数据,逐一执行完整工作流。一次运行就能处理一整个方向的文献。

总结

这期教程展示了科研文献处理的自动化方案:PDF 下载 → 文本提取 → 元数据结构化 → 双报告生成(通用总结 + 课题摘要)。Router 分支是关键设计——让一个工作流产出两种不同角度的分析。

这套架构的复用空间很大。把 PDF 换成金融研报,提示词改成投资分析角度,就能自动生成研报摘要。换成产品文档,就能提取功能亮点和应用场景。核心思路不变:数据提取 + 定制提示词 + 结构化保存。

资源下载

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

订阅成功!请到邮箱查收确认链接。

操作成功。

操作已取消。