当前位置：首页 > news >正文

火车头采集动态加载Ajax数据（无分页瀑布流网站）

news 2025/11/6 18:36:25

为了先填充好数据在上线，在本地搭建了一个网站，并用火车头采集数据填充到里面。

开始很上手，因为找的网站的分类中是有分页的。很快捷的找到页面标识。

但是问题来了，如今很多网站都是采用的Ajax加载数据，根本没有分页的URL。比如：CSDN，IT168等等，都是采用下拉到一定程度，自动加载数据出来。

在没有页码的情况下，直接采集当前首页的20-30篇文章，后面的都无法采集到。

经过在网上查找教程，总算有了方法，但是相对直接加入页码采集，多了一个步骤。

应该如何做？

1. 获取目标站API地址

在目标页面按F12或Ctrl+Shift+C打开审查元素，然后点Network选项卡，通过下滑的操作实时监控Network中出现的链接。

火车头采集动态加载Ajax数据（无分页瀑布流网站）

首先进入Network查看

火车头采集动态加载Ajax数据（无分页瀑布流网站）

GET到json数据

然后点击这个链接，查看规律后将他复制下来。

火车头采集动态加载Ajax数据（无分页瀑布流网站）

将这段链接复制下来

2.利用火车头采集这个API中的文章链接

火车头采集动态加载Ajax数据（无分页瀑布流网站）

这里做一个假设，实际填写的是上面的API地址。

采集内容规则的设置

火车头采集动态加载Ajax数据（无分页瀑布流网站）

从上图可以指导链接地址在：linkurl:"" 里，然后进入第二部采集内容

火车头采集动态加载Ajax数据（无分页瀑布流网站）

这里选择循环匹配，不然只会采集到一个链接。

数据处理一下编码和斜杠（因为采集的url有很多 \ 的转义，直接将这个剔除）

火车头采集动态加载Ajax数据（无分页瀑布流网站）

测试一下页面就可以获取到文章的URL链接。

获取到文章的链接后，如何采集它们？

当采集到这些文章的URL后，我们先要在 第三步：发布内容设置 ，将连接保存在桌面处理。

火车头采集动态加载Ajax数据（无分页瀑布流网站）

我将他保存在Excel文件（主要是我导出的TXT不完整），然后在Excel中处理好在复制到TXT中。

这个时候我们就要采集这些文字的链接了。

火车头采集动态加载Ajax数据（无分页瀑布流网站）

新建一个采集任务，然后将保存的TXT导入，然后依次进行采集，后面的工序就不说了，和分页采集的步骤是一样的。

本文由2号站长网，五车二原创，原文链接：https://www.zz2zz.com/19852.html，转载请注明出处。

查看全文

http://www.dtcms.com/a/133266.html

Python numpy 与pandas

Apache Commons CLI 入门教程：轻松解析命令行参数

运维面试题（十三）

linux一次启动多个jar包

一键解锁Landsat 9地表温度计算！ENVI与ArcGIS Pro全流程详解（无需NASA大气校正）

解决前端使用Axios时的跨域问题

《MySQL从入门到精通》

【数据集】上市公司投资效率及非效率投资数据测算+dofile（2000-2023年）

深入理解计算机系统记录

README.md 完全指南：Markdown 语法+实例

消息中间件kafka,rabbitMQ

MQTT、HTTP短轮询、HTTP长轮询、WebSocket

OBOO鸥柏如何以智能教育室内外触摸屏一体机AI变革硬件

在Spring Boot中浅尝内存泄漏

C++多态知识点梳理

Java笔记5——面向对象（下）

如何在Windows 10系统中查看已连接WiFi密码-亲测可用-优雅草卓伊凡

使WebSocket 稳定可靠，需要考虑的方向

2025年十六届蓝桥杯Python B组原题及代码解析

今日行情明日机会——20250414

css实现一键换肤

入门-C编程基础部分：1、环境搭建

MySQL 超详细安装教程与常见问题解决方案

优先级队列（堆二叉树）底层的实现：

十四、C++速通秘籍—函数式编程

JAVA EE_文件操作和IO

蓝桥杯 web 常考到的一些知识点

OpenCV 图形API（33）图像滤波-----高斯模糊函数gaussianBlur()

3D版的VLA：从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA，在动作专家中加入3D数据

人工智能100问☞第4问：人工智能与机器学习、深度学习的区别？

1. 获取目标站API地址

2.利用火车头采集这个API中的文章链接

获取到文章的链接后，如何采集它们？

相关文章：