当前位置：首页 > news >正文

从零开始学习Dify-爬取网站文章，批量提取和输出热点摘要(十)

news 2025/8/2 10:12:22

概述

本篇文章将带领大家从零开始，通过一个实际案例掌握如何使用Dify结合Firecrawl工具，实现对指定AI资讯网站的内容进行快速批量爬取和热点摘要提取，轻松实现工作流的转化与发布。

工作流配置

2.1 安装Firecrawl工具

在工具中输入Firecrawl，找到后点击安装。

点击 firecrawl，去授权，注册后获取并填入密钥。

2.2 创建Dify应用

点击创建工作流，命名 "AI资讯助手"

配置开始节点
- 添加变量，选取文本类型，用于输入需要抓取网页URL。

配置网页工具节点
- 选择“工具”节点，点击选取已安装的Firecrawl。
- 选用“地图式快爬”功能，能够自动获取网站上所有可用的网址。
- 设置输入变量：链接到开始节点定义的URL参数。
- 注意以下参数的配置说明（演示场景）：
  - 忽略站点地图：勾选
  - 不包含子域名：勾选
  - 最大结果数量：设置为9（实际使用时，可根据需求适当调整）

2.3 调试

初次配置后，建议先进行一次调试，以确保爬取的结果符合预期。

点击“调试”，检查爬取结果。
一般情况下，Firecrawl爬取速度较快，通常只需几秒钟便能看到输出内容。

看到结果正常，即表示网页抓取配置成功。

2.4 爬取多个文章URL

在前置节点添加一个数据转换，将爬取到的json内容转换为文本。将其转换后的输出，作为LLM模型的输入。

同理，大模型提炼输出后的输出是文本格式，因此为了让迭代可以使用，需要转换为数组，添加代码模块。

转换代码：

import jsondef main(arg1: str) -> dict:try:# 尝试将输入字符串解析为JSON对象json_object = json.loads(arg1)return {"result": json_object}except json.JSONDecodeError as e:# 处理JSON解析错误并返回错误信息return {"result": None,"error": f"Invalid JSON: {str(e)}"}

最终输出：一个N*2的数组（这里只爬取了两条，N=2）

{"result": [{"title": "Artificial Intelligence News","url": "https://www.artificialintelligence-news.com/artificial-intelligence-news"},{"title": "Artificial Intelligence News - Page 2","url": "https://www.artificialintelligence-news.com/artificial-intelligence-news/page/2"}]
}

至此，我们完成了从一个热点网页爬取多个热点文章URL，并进行清洗，成为了一个可以给到迭代使用的数组。前置所有步骤如下：

2.5 内容提取

按照上面的输入，第一步我们需要先从第一条链接里，精确地拿到URL链接，然后才可以给到网页抓取工具。否则，就还是会报错。

添加迭代转换：取出URL，输入 VS 输出如下：

Firecrawl：单页面抓取，拿到网页重点信息

LLM大模型：输入提示词，将网页抓取的信息进行提炼

1. 标题：
2. 发布时间：
3. 正文总结：（不超过300字）
4. URL链接：

2.6 内容输出

迭代输出的结果是数组格式，需要转化为文本；采用模板转换节点。

最终，我们拿到了想要的结果。

总结

通过以上步骤，我们成功实现了Dify与Firecrawl工具的整合，能够快速批量爬取并提炼指定AI资讯网站内容的热点摘要。这不仅有效提高了信息处理效率，也为进一步扩展和深入应用提供了有力支撑。未来，可以继续探索更多工具的集成和工作流优化，使Dify成为更加强大的智能化工具平台。

查看全文

http://www.dtcms.com/a/304530.html

CRMEB电商系统集群部署指南：阿里云COS静态文件加速与资源分离最佳实践

聊聊测试环境不稳定如何应对

人工智能与法律：智能司法的创新与挑战

C++ 进阶

Typecho handsome新增评论区QQ，抖音，b站等表情包

【Clumsy】只是学习记录

晶界能计算

flexiblejs + pxtorem 实现浏览器缩放适配：兼顾系统缩放与文本放大体验

图形界面应用程序技术栈大全

getgff.py脚本-python006

【学习路线】游戏开发大师之路：从编程基础到独立游戏制作

2025年科研算力革命：8卡RTX 5090服务器如何重塑AI研究边界？

react 项目怎么打断点

vite + chalk打印输出彩色命令行

基于Dify构建本地化知识库智能体：从0到1的实践指南

橡胶制品加工：塑造生活的柔韧力量

python基础：request请求Cookie保持登录状态、重定向与历史请求、SSL证书校验、超时和重试失败、自动生成request请求代码和案例实践

Python批量生成N天前的多word个文件，并根据excel统计数据，修改word模板，合并多个word文件

中科米堆CASAIM金属件自动3d测量外观尺寸三维检测解决方案

火山方舟使用豆包基模 —— 基础流程

深港同心·科创启航——“智创探索+实习计划”启航礼在前海举行

三十、【Linux邮件服务器】搭建Postfix邮件服务器

Ubuntu卡在启动画面：显卡驱动与密码重置

ubuntu18.04制作raid0

Ubuntu 部署 PaddleOCR 完整指南

Ubuntu 抽取系统制作便于chroot的镜像文件

C#开发基础之深入理解“集合遍历时不可修改”的异常背后的设计

三十一、【Linux网站服务器】搭建httpd服务器演示个人主页、用户认证、https加密网站配置

Solar月赛(应急响应)——攻击者使用什么漏洞获取了服务器的配置文件？

GESP2025年6月认证C++七级( 第三部分编程题（2）调味平衡）

概述