当前位置: 首页 > news >正文

用 n8n 提取静态网页内容:从 HTTP Request 到 HTML 节点全解析

n8n 的 HTTP Request + HTML 节点组合是个实用又高效的工具。这篇文章就带你一步步搞懂如何用它们提取静态网页内容,重点解析 HTML 节点参数和 CSS 选择器,让你轻松上手 。

一、整体流程概览

我们的目标是从静态网页中提取特定内容,流程分两步:

  1. HTTP Request 节点:负责获取网页的完整 HTML 源码,相当于模拟浏览器访问网页并拿到原始内容。
  2. HTML 节点:对获取到的 HTML 源码进行解析,通过 CSS 选择器精准提取我们需要的内容,比如标题、正文、图片链接等。

二、HTTP Request 节点使用(简单铺垫)

在 n8n 里,添加 HTTP Request 节点后,只需填入目标网页的 URL,请求方法选 GET ,就能获取到网页的 HTML 数据啦。获取到的数据会以 JSON 形式输出,后续 HTML 节点要基于这些数据进一步处理,这里重点在后面的 HTML 节点,所以这部分简单设置即可 。

三、HTML 节点深度解析

(一)参数配置核心逻辑

HTML 节点的作用是从 HTTP Request 拿到的 HTML 内容里“挑出”我们想要的部分,关键就在参数设置,下面逐个说:

  1. Source Data:选 JSON ,因为 HTTP Request 节点输出的是 JSON 格式数据,里面的 data 字段存着网页 HTML 源码。
  2. JSON Property:填 data ,告诉 HTML 节点从 JSON 数据的 data 字段里取 HTML 内容来解析 。

(二)Extraction Values 参数详解(重点!)

这部分是提取内容的关键配置,包含 KeyCSS SelectorReturn Value 等参数,结合实际例子讲:

1. Key:提取结果的“标识名”

你可以把它理解成给提取出来的内容起个变量名,方便后续节点使用。比如要提取文章标题,Key 就填 article_title ;提取正文,就填 article_content ,名字自己定,语义化、好识别就行 。

2. CSS Selector:精准定位元素的“地图”

这是前端选元素的语法,但别慌,后端同学记住核心规则也能轻松用:

  • . (句点):匹配 HTML 元素的 class 属性。比如网页里有 <h1 class="title">文章标题</h1> ,要选这个 h1 ,CSS 选择器就填 .title ,意思是“找所有 class 为 title 的元素” 。
  • # (井号):匹配 HTML 元素的 id 属性。要是有 <div id="content">正文内容</div> ,选它就用 #content ,代表“找 id 为 content 的元素” 。
  • 层级选择(后代、直接子元素)
    • 后代选择(空格):比如网页结构是
      <div id="title"><div class="article-title"><h1 class="title">用完的票根不要扔 小小票根帮你玩转整座城!</h1></div>
      </div>
      
      想选到最里层的 h1 ,可以用 #title .title (意思是“在 id 为 title 的元素内部,找所有 class 为 title 的元素” ,这里的空格表示后代关系,不管中间隔多少层嵌套 )。
    • 直接子元素(>:如果想严格找直接子元素,比如 <div id="parent"> <div class="child">...</div> </div> ,选直接子元素用 #parent > .child ,但实际提取网页内容时,后代选择(空格)用得更多,没那么严格限制层级 。

举个完整例子,假设网页结构如下(静态 HTML ,内容明确):

<!DOCTYPE html>
<html>
<body><div id="title"><div class="article-title"><h1 class="title">这是文章标题</h1></div><div class="article-src-time"><span class="src">2025-06-05 11:07 来源:测试网</span></div></div><div id="content" class="article-content"><p class="section txt">这是正文第一段</p><p class="section txt">这是正文第二段</p></div>
</body>
</html>
  • 提取标题(h1 里的文本):
    • Keyarticle_title
    • CSS Selector#title .title (或者更简单的 .title ,只要页面里 class 为 title 的就这一个 h1
    • Return ValueText (只要文本内容)
  • 提取正文(所有 p 标签内容):
    • Keyarticle_content
    • CSS Selector.section.txt (找所有 class 同时包含 section 和 txt 的 p 元素 )
    • Return ValueText ,要是想保留 HTML 标签结构,就选 HTML ,根据需求来 。
3. Return Value:决定提取内容的形式
  • Text:只提取元素里的文本内容,会去掉 HTML 标签。比如 <p class="txt">正文内容</p> ,选 Text 就拿到“正文内容” 。
  • HTML:提取元素及内部完整的 HTML 结构。还是上面的 p 标签,选 HTML 就拿到 <p class="txt">正文内容</p>
  • Attribute:提取元素的某个属性值,比如想拿图片的 src 属性,CSS 选择器选 imgReturn ValueAttribute ,再在额外参数里填 src ,就会提取出图片链接 。
4. Return Array:处理多个匹配结果

如果 CSS 选择器匹配到多个元素(比如页面里有多个 p 标签都符合 .section.txt ),把 Return Array 设为 ON ,提取结果就会以数组形式输出,方便后续遍历处理;设为 OFF ,则只返回第一个匹配到的元素内容 。

四、实际操作演示(闭环例子)

(一)准备工作

找一个静态网页(比如自己本地写个简单 HTML 文件,或者找个公开的静态内容网页,像上面例子里的结构 ),用 HTTP Request 节点获取它的 HTML 内容 。

(二)HTML 节点配置

  1. 提取标题:
    • Keyarticle_title
    • CSS Selector#title .title
    • Return ValueText
    • Return ArrayOFF(因为标题一般就一个 )
  2. 提取正文段落:
    • Keyarticle_paragraphs
    • CSS Selector.section.txt
    • Return ValueText
    • Return ArrayON(因为有多个段落 )

(三)运行与验证

把 HTTP Request 节点和 HTML 节点连起来,执行工作流。在 HTML 节点输出里,就能看到提取的标题文本和正文段落数组啦,形成一个从“获取网页内容”到“提取指定内容”的完整闭环 。

五、常见问题 & 避坑指南

  1. CSS 选择器不生效
    • 先去浏览器开发者工具(按 F12 )里,用“元素”面板的搜索框,把 CSS 选择器粘进去,看看能不能选中目标元素。能选中,n8n 里才可能提取到;选不中,就调整选择器语法 。
    • 注意区分 classid ,别把 .# 用混,比如该用 #content 选 id 为 content 的元素,结果用成 .content ,就可能选不到 。
  2. 提取内容为空
    • 检查 Source DataJSON Property 是否正确,确保从 HTTP Request 节点拿到了 HTML 内容 。
    • 看看网页是不是动态加载内容(不过咱们这篇讲静态网页,动态的后续再拓展 ),静态网页的话,内容肯定在初始 HTML 里 。

掌握 n8n 里 HTTP Request + HTML 节点提取静态网页内容的方法,能轻松应对一些轻量的网页数据采集需求。重点记住 HTML 节点里 CSS Selector.# 用法,以及 KeyReturn Value 这些参数的配置逻辑,多实操几次,就能熟练运用啦,遇到问题多借助浏览器开发者工具排查,问题就迎刃而解咯 !

相关文章:

  • JavaSec-SSTI - 模板引擎注入
  • 【Linux网络篇】:从HTTP到HTTPS协议---加密原理升级与安全机制的全面解析
  • vscode 离线安装第三方库跳转库
  • Spark 写文件
  • 记一个判决书查询API接口的开发文档
  • 软件测试全攻略:Postman工具的使用
  • 关于easyexcel动态下拉选问题处理
  • exp1_code
  • BT Panel密码修改
  • Python Excel 文件处理:openpyxl 与 pandas 库完全指南
  • (LeetCode 每日一题) 1061. 按字典序排列最小的等效字符串 (并查集)
  • 金融系统功能测试:科技赋能,安全护航
  • 【C++ Qt】窗口(Qt窗口框架、菜单栏QMenuBar)
  • bug 记录 - 使用 el-dialog 的 before-close 的坑
  • 2025Go面试八股(含100道答案)
  • 【Spark征服之路-2.2-安装部署Spark(二)】
  • 41道Django高频题整理(附答案背诵版)
  • 泊松融合的介绍和OpenCV教程
  • Kaggle-Predicting Optimal Fertilizers-(多分类+xgboost)
  • 数学运算在 OpenCV 中的核心作用与视觉效果演示
  • 网站里的地图定位怎么做的/舆情监测分析系统
  • 什么专业的会做网站/厨师培训学校
  • 无锡建设机械网站/搜索关键词的网站
  • 网订率推广技巧/windows优化大师和360哪个好
  • 广东专业做网站排名公司哪家好/杭州seo关键字优化
  • 贵阳做网站的/关键词搜索点击软件