Make 15. Firecrawl 爬虫实操：Make 和 Firecrawl 全自动撰写博客文章引流

Q: Firecrawl 三大端点？

Firecrawl 提供三个核心端点，各司其职： Map（站点地图）：输入一个网站根地址，返回该网站下所有子页面的 URL 列表。速度极快，我测试一个网站返回了 3553 个子链接。还支持关键词过滤，比如只筛选包含 "RSS" 的页面。 Scrape（单页抓取）：输入一个具体页面的 URL，返回该页面的 Markdown 内容。图片链接、文本格式、表格结构全部保留。 Crawl（多页抓取）：从指定 URL 开始，递归遍历所有子页面，批量抓取内容。适合需要整站采集的场景。 简单总结：Map 爬链接，Scrape 爬单页内容，Crawl 爬全站内容。

Q: 工作流整体架构？

整套工作流的逻辑分为上下两部分： 上半部分——获取链接：Basic Trigger 输入目标网站 → HTTP 请求调用 Map 端点获取所有子页面 → Iterator 遍历器逐个发射 → Notion 创建数据条目。 下半部分——采集与生成：Scrape 端点抓取单页 Markdown → 第一个 LLM 模块翻译并去除推广内容 → 第二个 LLM 模块生成小红书笔记 → 第三个 LLM 模块校对格式 → 保存到 Notion。 这套流程跑一次，一篇完整的博客文章加一条小红书笔记就同时出来了。

引言

做自媒体最头疼的事情之一，就是内容产出跟不上发布节奏。尤其是想做 SEO 引流的朋友，手动找素材、翻译、排版、发布，一篇文章折腾下来半天就没了。更别提你想同时覆盖公众号、小红书、博客多个平台——光是格式转换就够喝一壶的。

我是翔宇。翔宇在做内容引流实验时测试了五种爬虫方案，Firecrawl 在输出质量和稳定性上表现最好。

我一直在想，有没有一种方法，能把"从采集到发布"这条链路完全自动化？输入一个网址，工作流自动抓取内容、翻译、去除原站推广、生成图文混排的博客文章，顺带连小红书笔记都一起出了。

这期视频我就分享这样一套工作流。核心用到两个工具：Firecrawl 做全网数据采集，Make 串联整个自动化流程。一次配置，每天定时运行，3000 多篇文章分批处理，全程无需手动干预。

你将学到

Firecrawl 的三大端点（Map / Scrape / Crawl）分别干什么、怎么用
Firecrawl 与 Jina Reader API 的核心区别和各自适用场景
如何在 Make 中通过 HTTP 请求模块调用 Firecrawl API
Iterator 遍历器的原理和实际配置方法
利用大语言模型实现翻译、去推广、生成小红书笔记的提示词设计
Notion 数据库去重检索的实现逻辑
通过日期公式实现每日自动分批采集，避免一次性跑完 3000+ 条数据

视频教程

本教程配套视频已发布在 YouTube，建议搭配视频一起学习效果更佳。

详细教程

Firecrawl 是什么

Firecrawl 是一个自动化网络爬虫工具，核心能力是将网站内容转化为干净的 Markdown 格式——这个格式既适合大语言模型处理，也可以直接用于博客文章发布。

和我之前视频介绍过的 Jina Reader API 类似，Firecrawl 也能抓取网页内容并转成 Markdown。但两者有几个关键区别：

对比项	Jina Reader API	Firecrawl
部署方式	在线服务，通过 API 调用	支持本地部署，也有在线版
免费额度	每个 API Key 100 万次	在线版每月 500 页
输出格式	纯文本为主	Markdown 图文混排
开源	否	是
适合场景	大量纯文本处理	图文混排、多媒体内容采集

Firecrawl 最大的优势在于图文混排。它抓取的 Markdown 会保留原文中的图片链接、表格、加粗等格式，生成的内容可以直接用，省去了手动配图的麻烦。

Firecrawl 三大端点

Firecrawl 提供三个核心端点，各司其职：

Map（站点地图）：输入一个网站根地址，返回该网站下所有子页面的 URL 列表。速度极快，我测试一个网站返回了 3553 个子链接。还支持关键词过滤，比如只筛选包含 "RSS" 的页面。

Scrape（单页抓取）：输入一个具体页面的 URL，返回该页面的 Markdown 内容。图片链接、文本格式、表格结构全部保留。

Crawl（多页抓取）：从指定 URL 开始，递归遍历所有子页面，批量抓取内容。适合需要整站采集的场景。

简单总结：Map 爬链接，Scrape 爬单页内容，Crawl 爬全站内容。

工作流整体架构

整套工作流的逻辑分为上下两部分：

上半部分——获取链接：Basic Trigger 输入目标网站 → HTTP 请求调用 Map 端点获取所有子页面 → Iterator 遍历器逐个发射 → Notion 创建数据条目。

下半部分——采集与生成：Scrape 端点抓取单页 Markdown → 第一个 LLM 模块翻译并去除推广内容 → 第二个 LLM 模块生成小红书笔记 → 第三个 LLM 模块校对格式 → 保存到 Notion。

这套流程跑一次，一篇完整的博客文章加一条小红书笔记就同时出来了。

第一步：Basic Trigger 配置

在 Make 中新建场景，第一个模块选择 Basic Trigger。在触发器中添加一个条目，输入目标网站的地址。

这里有个技巧：观察你要采集的网站，找到目标内容的父级域名。比如你想采集某个网站 /blog 下的所有文章，就把 URL 填到 /blog 这一级，Map 端点会自动抓取它下面的所有子页面。

第二步：HTTP 请求调用 Map 端点

添加 HTTP 模块，选择"创建一个请求"。几个关键配置：

URL：填 Firecrawl 的 Map 端点地址
Method：POST（因为是发起新请求）
Headers：添加 Authorization（API Key）和 Content-Type（application/json）
Body Type：Raw → JSON
Body Content：JSON 格式，包含要采集的 URL
Parse response：开启，方便后续模块映射数据

关于 HTTP 模块的几个要点：POST 用于创建新请求，GET 用于检索已有数据；Header 里放 API 密钥，相当于请求的"钥匙"；Timeout 默认 40 秒，如果目标网站响应慢可以调到 300 秒。

第三步：Iterator 遍历器

Map 端点返回的是一个包含几千条 URL 的数组。我们需要用 Iterator（遍历器）把数组拆成单条数据，逐个发射给后续模块。

添加 Iterator 模块后，选择 Map 端点返回的数组。注意这里需要用 map() 函数提取数组中的 Value 字段——直接选数组可能拿不到数据。

第四步：Notion 数据库与去重

在 Notion 中创建一个数据库，结构如下：

字段	类型	说明
标题	Title	文章标题
采集状态	Select	开始 / 已完成
网址	Text	采集的原始 URL
小红书	Text	生成的小红书笔记内容

在 Make 中添加两个 Notion 模块：

Search Objects：在采集前先检索数据库，看当前 URL 是否已存在。如果 Total Number of Bundles 等于 0 才继续——这就是去重逻辑，避免分批采集时重复处理。

Create a Database Item：创建新条目，采集状态设为"开始"，URL 映射遍历器输出的值。

第五步：Scrape 抓取内容

再添加一个 HTTP 请求模块，这次调用 Scrape 端点。配置和 Map 类似，区别在于 URL 换成 Scrape 端点，Body 里面的 URL 填遍历器输出的具体页面地址，格式指定为 Markdown。

第六步：大语言模型处理

这是整个工作流的核心，串联三个 LLM 模块：

模块一：翻译与去推广。系统提示词要求将英文内容翻译为中文，同时删除原站的推广植入、作者信息、站内链接，仅保留核心内容和图片。User 角色输入 Scrape 返回的 Markdown 内容。Token 上限设 4096。

模块二：生成小红书笔记。系统提示词要求从翻译后的文章中提炼小红书笔记，输出 JSON 格式包含标题、正文（300-400 字）、标签。Token 上限设 1000，开启 JSON 解析。

模块三：文章校对。因为删除推广内容后，文章的编号、表格条目数可能不一致，这个模块负责整理编号、优化段落结构、清理冗余的 Markdown 格式。

第七步：保存结果到 Notion

最后两个 Notion 模块：一个更新数据条目，把采集状态改为"已完成"，填入标题和校对后的文章内容；另一个追加小红书笔记的标题、正文、标签到对应字段。

进阶技巧：日期公式实现自动分批

3000 多条数据不可能一次跑完。我设计了一个日期公式来实现每日自动分批：

用当前日期减去一个固定的起始日期，得到天数差，乘以每批数量（比如 10），就是今天的起始位置。加上批量数就是结束位置。比如第一天采集第 0-10 条，第二天采集第 10-20 条，以此类推。

在 Iterator 的过滤条件中设置 Bundle Order Position 大于等于起始值、小于结束值，再把场景的定时运行设为每天固定时间，整套流程就完全自动化了。

常见问题

Q：Firecrawl 免费版够用吗？
每月 500 页的免费额度对个人用户来说基本够用。如果需要大规模采集，可以考虑本地部署开源版本，没有页数限制。

Q：出现 400 错误 "messages must contain the word JSON" 怎么办？
这通常是因为在 LLM 模块中选择了 JSON 输出格式，但提示词里没有包含 JSON 相关的指示。如果不需要 JSON 输出，把格式改成 Text 即可。

Q：有些网站抓取失败怎么办？
部分网站有严格的反爬机制，Firecrawl 无法保证 100% 成功率。遇到这种情况可以尝试更换目标网站，或者等 Firecrawl 后续推出的 SmartCrawl 端点，它结合了 AI 技术能更好地应对复杂页面。

Q：如何确保映射没有出错？
在 Make 中运行后，点击每个模块查看 Input Bundle 和 Output Bundle 的实际数据。特别注意模块编号，复制模块后要检查映射的源模块编号是否正确。JSON Body 中如果有多余的空格或特殊符号也会导致请求失败。

总结

这套工作流把"全网采集 → 翻译去推广 → 图文混排博客 → 小红书笔记 → 分批定时发布"整条链路串了起来，一次配置后每天自动运行，真正做到了内容生产的全自动化。最关键的是，Firecrawl 抓取的 Markdown 保留了原文的图片和格式，生成的文章质量远高于纯文本采集再手动配图的方式。

下一期我会分享小红书图文笔记的批量制作方法，教你用 Make 实现图片创作的自动化。

资源下载

AI 编程实操课：国内版-FlowUS | 国际版-BMC
YouTube 频道：翔宇工作流

学员实践：openbili AI 接入驾驶舱介绍

学员实践：42织序播客介绍

AI 编程中文教程哪里找？10 大主流编程工具完整指南