基于n8n指定网页自动抓取解析入库工作流实战
1. 效果预览
给定华尔街见闻指定链接,自动抓取文章存储至MongoDB
2. 部署n8n
n8n可用插件非常多,并且完全免费开源
下载n8n后,执行npx n8n
运行即可,如果node版本低于14会报错,请升级至20版本
3. firecrawl节点安装
3.1 其他节点介绍
第一节点用于 接收聊天输入
第二个节点用于判断是否为链接:我们可以直接拖动chatInput到蓝色字体处,然后选择正则表达式匹配url
第三个节点是社区节点FireCrawl,我们首先需要安装下:
3.2 安装FireCrawl Node节点
在IF节点后,我们添加FireCrawl节点,配置如下,
其中FireCrawl API配置如下, 改为自己的key
4. 格式转换节点配置
我们搜索Set, 新增字段编辑节点,将抓取的内容转为MongoDB需要保存的字段格式
5. MongoDB存储
定义好字段后,可以直接执行,在页面非常方便的看到输入与输出