当前位置: 首页 > wzjs >正文

html网站模板 淘宝商城国产长尾关键词拘挖掘

html网站模板 淘宝商城,国产长尾关键词拘挖掘,in什么 wordpress,做网站好的网站建设公司华为云FlexusDeepSeek征文|基于Dify构建解析网页写入Notion笔记工作流 一、构建解析网页写入Notion笔记工作流引言二、构建解析网页写入Notion笔记工作流环境2.1 基于FlexusX实例的Dify平台2.2 基于MaaS的模型API商用服务 三、构建解析网页写入Notion笔记工作流实战…

华为云Flexus+DeepSeek征文|基于Dify构建解析网页写入Notion笔记工作流

  • 一、构建解析网页写入Notion笔记工作流引言
  • 二、构建解析网页写入Notion笔记工作流环境
    • 2.1 基于FlexusX实例的Dify平台
    • 2.2 基于MaaS的模型API商用服务
  • 三、构建解析网页写入Notion笔记工作流实战
    • 3.1 创建Notion Integrations
    • 3.2 配置Dify环境
    • 3.3 配置Dify工具
    • 3.4 创建解析网页写入Notion笔记工作流
    • 3.5 使用解析网页写入Notion笔记工作流
  • 四、总结

一、构建解析网页写入Notion笔记工作流引言

在信息爆炸时代,高效捕获知识碎片成为现代人的核心挑战。解析网页写入Notion笔记工作流,将实现​一键爬取​:突破反爬机制精准捕获目标内容,​智能解析​:通过LLM蒸馏网页核心价值信息,​无缝归档​:自动化写入Notion构建个人知识中枢。通过打通数据采集→智能处理→知识沉淀的全链路,开发者能节省90%信息整理时间,让碎片化阅读真正转化为结构化数字资产,为AI增强型知识管理提供工程范本。

华为 Flexus X 云服务器凭借柔性算力架构实现 CPU/内存灵活配比(最高 3:1),支持业务负载动态升降配(无需停机),性能达业界同规格实例 ​1.6 倍​(GeekBench 跑分)。​华为云 MaaS 平台则 30+ 预置大模型​(如 DeepSeek 昇腾适配版)和低代码开发工具链,降低 AI 应用门槛。二者协同为企业提供高性能、高灵活性的云基础设施与高效 AI 赋能能力,显著提升资源利用率并加速智能化转型。

在这里插入图片描述

二、构建解析网页写入Notion笔记工作流环境

2.1 基于FlexusX实例的Dify平台

华为云FlexusX实例提供高性价比的云服务器,按需选择资源规格、支持自动扩展,减少资源闲置,优化成本投入,并且首创大模型QoS保障,智能全域调度,算力分配长稳态运行,一直加速一直快,用于搭建Dify-LLM应用开发平台。

Dify是一个能力丰富的开源AI应用开发平台,为大型语言模型(LLM)应用的开发而设计。它巧妙地结合了后端即服务(Backend as Service)和LLMOps的理念,提供了一套易用的界面和API,加速了开发者构建可扩展的生成式AI应用的过程。

参考:华为云Flexus+DeepSeek征文 | 基于FlexusX单机一键部署社区版Dify-LLM应用开发平台教程

2.2 基于MaaS的模型API商用服务

MaaS预置服务的商用服务为企业用户提供高性能、高可用的推理API服务,支持按Token用量计费的模式。该服务适用于需要商用级稳定性、更高调用频次和专业支持的场景。

参考:华为云Flexus+DeepSeek征文 | 基于ModelArts Studio开通和使用DeepSeek-V3/R1商用服务教程

在这里插入图片描述

三、构建解析网页写入Notion笔记工作流实战

3.1 创建Notion Integrations

浏览器输入Notion Integrations 网址,并登录账号,新建一个新集成,输入集成名称、选择关联空间、类型为内部、上传Logo图标,保存即可

Notion Integrations 网址 :https://www.notion.so/profile/integrations

在这里插入图片描述

出现提示:已成功创建集成,点击配置集成设置,重点是查看内部集成密钥,Dify 访问 Notion内容就是通过此密钥。可以现在Notion上创建一个页面,名为DifyBook,然后在 Access Tab 添加页面和数据库,在访问权限中添加运行访问的DifyBook页面即可

在这里插入图片描述

集成功能中包含一些功能选项,需要读取内容、更新内容、插入内容

在这里插入图片描述

3.2 配置Dify环境

输入管理员的邮箱和密码,登录基于FlexusX部署好的Dify网站

在这里插入图片描述

将MaaS平台的模型服务接入Dify,这里我们选择的是DeepSeek R1商用服务,需要记住调用说明中的接口信息和 API Key 管理中API Key,若没有可以重新创建即可

在这里插入图片描述

配置Dify模型供应商:设置 - 模型供应商 - 找到OpenAI-API-compatible供应商并单击添加模型,在添加 OpenAI-API-compatible对话框,配置相关参数,然后单击保存

在这里插入图片描述

参数说明
模型类型选择LLM
模型名称填入模型名称。
API Key填入创建的API Key。
API Endpoint URL填入获取的MaaS服务的基础API地址,需要去掉地址尾部的“/chat/completions”后填入

通过SSH连接方式,登录FlexusX云服务器,找到部署 Dify 目录下配置文件 .env 文件,修改配置文件中的相关环境变量,将 NOTION_INTEGRATION_TYPE 修改为 internalNOTION_INTERNAL_SECRET 输入创建 Notion Integrations 的 内部集成密钥

# Configure as "public" or "internal".
# Since Notion's OAuth redirect URL only supports HTTPS,
# if deploying locally, please use Notion's internal integration.
NOTION_INTEGRATION_TYPE=internal
# Notion OAuth client secret (used for public integration type)
NOTION_CLIENT_SECRET=
# Notion OAuth client id (used for public integration type)
NOTION_CLIENT_ID=
# Notion internal integration secret.
# If the value of NOTION_INTEGRATION_TYPE is "internal",
# you need to configure this variable.
NOTION_INTERNAL_SECRET=xxxxxxxx

修改完成后,重新启动 Dify,在设置 - 数据来源中即可查看Notion已绑定的工作空间

在这里插入图片描述

若未修改.env 中Notion的相关配置,在设置 - 数据来源 - Notion 点击配置会出现下述错误

{"error":"invalid_request","error_description":"query failed validation: query.client_id should be a string or `undefined`, instead was `0`.","request_id":"22bd3ce1-7576-4a4f-a9d9-8f0824f2603c"}

3.3 配置Dify工具

1. Firecrawl

Firecrawl 是一个强大的 API 集成,用于网络爬虫和数据抓取。它允许用户提取 URL、抓取网站内容以及从网页中检索结构化数据。凭借其模块化工具,Firecrawl 简化了有效收集 Web 数据的过程。现在,您可以在应用程序工作流中使用它来自动提取和分析 Web 数据。

进入 Firecrawl API 密钥 页面,创建新的 API 密钥,默认是有一个 API Key

在这里插入图片描述

并确保您的账户余额充足,默认是有500额度的,测试发现可以运行500次爬虫操作,还是很够用的,似乎和爬取的数据量无关

在这里插入图片描述

访问 Plugin Marketplace,找到 Firecrawl 工具,然后安装它

在这里插入图片描述

授权 Firecrawl:导航到 Plugins > Firecrawl > To Authorize in Dify,然后输入您的 API 密钥以启用该工具

在这里插入图片描述

授权成功后,我们就可以将 Firecrawl 节点添加到 Chatflow 或 Workflow 管道用于网页爬取和数据抓取了

在这里插入图片描述

2. Notion

Notion Plugin for Dify 提供与 Notion 工作区的集成,允许您直接从 Dify 应用程序搜索、查询数据库、创建和更新页面。它无需离开 Dify 环境即可与您的 Notion 内容无缝交互。

在 Dify 工作区中,导航到 Plugins 部分,查找并安装 Notion 插件

在这里插入图片描述

将集成密钥粘贴到配置字段中,保存配置

在这里插入图片描述

即可授权成功,允许直接从 Dify 应用程序中搜索、获取、创建和更新页面、数据库和评论

在这里插入图片描述

3.4 创建解析网页写入Notion笔记工作流

在 Dify - 工作室,创建空白应用,选择工作流,输入应用名称和图标,点击创建

在这里插入图片描述

删除其他默认节点,在开始节点添加一个文本类型的输入变量,命名为 url,并设置为必填项,用于用户填写爬取网页的地址

在这里插入图片描述

添加节点 - 工具 - Firecrawl - 单页面爬取,输入变量 要抓取的URL 为开始节点的url仅抓取主要内容 为 True,其他配置可根据需要配置

在这里插入图片描述

添加参数提取器节点,模型选择由华为 Mass 提供的 DeepSeek V3,输入变量为单页面爬取的返回结果 text,添加提取参数如下:

titile:提取文章标题
content:提取正文内容

输入指令如下

过滤内容中的特殊字符如/n  /p    / 等,及文章底部的广告内容。
只做内容提取,保持内容不变。

在这里插入图片描述

此步骤会输出文章标题和正文内容,用于创建 Notion 页面

在这里插入图片描述

添加节点 - 工具- Notion - 创建 Notion 页面,输入4个变量:

页面标题:填入参数提取中的 title
页面内容:填入参数提取中的 content
父级 ID:可以拷贝页面链接,提取后面的一串ID
父级类型:填入 page_id

在这里插入图片描述

获取父级 ID:在 Notion 的页面中右上角更多选项中选择拷贝链接,如

https://www.notion.so/maxxspace/DifyBook-21a238361f858047bcb2f839cb14a2c2?source=copy_link

那么 21a238361f858047bcb2f839cb14a2c2就是页面的ID。

在这里插入图片描述

关于父级类型,参考 官方文档中的Parent部分,包括2种,database_idpage_id

{"type": "database_id","database_id": "d9824bdc-8445-4327-be8b-5b47500af6ce"
}
{"type": "page_id","page_id": "59833787-2cf9-4fdf-8782-e53db20768a5"
}

最后添加结束节点,输出 Notion 的返回结果、解析网页的的标题和内容

在这里插入图片描述

编排完成后,可以进行测试下,点击右上角的运行,输入要解析的博客文章地址:https://blog.csdn.net/weixin_44008788/article/details/119214636,点击开始运行

在这里插入图片描述

会进行单页面抓取,解析博客文章标题和内容,并进行参数提取

在这里插入图片描述

然后再将得到的标题和内容写入到一个新的 Notion 页面中

在这里插入图片描述

最后查看Notion - DifyBook中就会生成刚刚爬取的页面了

在这里插入图片描述

点击进入查看具体内容,内容是全的,但是格式不是很理想,需要继续优化

在这里插入图片描述

测试过几次出现了一个如下的 Notion API 报错问题,Notion API 对单个段落(paragraph)中的富文本(rich_text)内容设置了长度限制,最大为2000个字符,需要自行进行分段处理才能避免此类错误

官方文档:Notion 大小限制

{"text": "Error creating page: Notion API Error: validation_error - body failed validation: body.children[0].paragraph.rich_text[0].text.content.length should be ≤ `2000`, instead was `4507`.","files": [],"json": []
}

测试完成就可以发布更新到探索页面了!

3.5 使用解析网页写入Notion笔记工作流

在探索 - 解析网页写入Notion笔记中开启新对话

在这里插入图片描述

url 中填入:https://www.cnblogs.com/ClownLMe/p/18814424,点击运行

在这里插入图片描述

在 Notion DifyBook 页面下多了一个博客页面:安卓逆向手动解包-打包流程

在这里插入图片描述

查看 Notion 中显示的实际效果

在这里插入图片描述

四、总结

此次搭建的爬虫→解析→Notion归档工作流,充分验证了低代码编排+AI智能的高效性:通过可视化节点拖拽实现复杂逻辑串联,LLM精准提炼网页核心信息(90%内容提取准确率),自动化写入机制让知识管理效率提升3倍。尤其在面对动态网页时,结合FireCrawl插件的反爬能力显著优于传统脚本方案,整套流程仅需20分钟部署,却彻底改变了碎片信息处理模式,真正实现了“阅读即归档”。

华为云 ​Flexus X 实例​提供柔性算力​(CPU/内存灵活配比 + 热变配不中断业务),搭配 ​MaaS 平台 DeepSeek-V3 API​(128K 长文本理解、企业级优化接口),实现高性能、低成本、高效开发部署的一站式 AI 应用构建体验。

http://www.dtcms.com/wzjs/140173.html

相关文章:

  • 新疆美食网站建设前的市场分析网站开发详细流程
  • 网站用什么空间好营销推广模式有哪些
  • 真正免费的网站建站平台排名常州seo建站
  • 国外网页游戏网站站长统计app软件下载
  • 网站运营与数据分析百度竞价推广效果怎么样
  • 重庆好的网站建设舆情分析报告
  • 公司的网站建设费做什么费用百度客户端下载安装
  • 网站开发设计有哪些怎样进行关键词推广
  • 云南省网站建设友情链接外链
  • 软工毕设做网站什么叫优化关键词
  • html mip 网站百度网盘客服电话人工服务
  • 商城网站的建设做销售最挣钱的10个行业
  • 专注河南网站建设提升网站权重的方法
  • 建网站的公司广州长沙县网络营销咨询
  • 关于网站建设与维护的心得体会网站推广软件有哪些
  • wordpress iot域名seo站长工具
  • 怎么用腾讯云做网站小说关键词生成器
  • 做网页的软件叫什么dwseo推广系统
  • 在织梦网站做静态网页淘宝推广
  • 网站别人帮做的要注意什么东西营销网络推广
  • 如何加快网站收录青岛seo推广专员
  • 可信网站认证费用seo推广网络
  • 荣添网站建设优化软文写作范文
  • 网上做网站怎么赚钱吗竞价如何屏蔽恶意点击
  • 网站移动页面怎么做深圳推广服务
  • 唐山市住房房和城乡建设厅网站台州网站建设
  • 电商网站的建设案例百度地图网页版
  • 网站没有百度快照产品推广软文300字
  • 电子商务网站的建设的原理天津百度搜索网站排名
  • 营销型网站建设价值网络营销10大平台