【实战案例】火语言 RPA 采集小说站已完结书名(自动翻页判断),保存到Excel 全流程(附完整脚本)
一、脚本功能描述
自动打开某小说站的完本小说页面,采集已完结小说书名,将采集的书名保存到EXCEL。实现自动翻页判断,有下一页则点击下一页,无下一个则循环结束。

二、整体逻辑
1、准备:
- 初始化页码计数器(从第 1 页开始采,记录当前采集到第几页)
- 创建空列表(准备装数据的“盒子”,系统自动生成的
list1列表,用于存所有采集到的小说名) - 打开浏览器、浏览网页(选择浏览器类型,访问网址URL)
2、循环采集
- 重复做三件事,直到满足停止条件(这里可以看到有50页,那么循环采集50页或无下一页)
- 采集当前页的小说名,存入
list1; - 判断是否需要翻页(当前页码≤50,且下一页按钮可点击时,才翻页);
- 翻页后更新页码(页码+1),不翻页就停。
3、保存数据:
- 打开 / 创建 Excel 文件;
- 在 Excel 的 A1 单元格写入 “小说名” 作为表头。
- 把列表里的名字纵向写到 Excel A 列。
4、结束操作:
- 保存 Excel 文件;
- 关闭浏览器,流程结束。
三、详细操作步骤
步骤 1:初始化页码计数器
操作细节
变量赋值,创建变量 页码:current_page, 值输1; 告诉脚本 “从第 1 页开始采”

步骤 2:建空表格存数据
操作细节
列表打开或新建,准备一个“盒子”存所有采集的小说名,系统自动命名list1

步骤 3:打开浏览器 + 打开目标页
操作细节
打开浏览器(选择浏览器类型:内置、外置、指纹)
浏览网页,输入需要采集的网址URL:https://www.qidian.com/finish/


步骤 4:循环采集
操作细节
While 循环,条件输current_page ≤50,页码控制最多采 50 页,自动重复采集动作

4.1 等页面加载
等待元素显示消失,选择器输css:.all-img-list,确保等小说列表加载完,避免采空

4.2 提取当前页小说名
获取多元素信息/属性值,择器输css:.book-mid-info h2 a(精准定位小说名),
提取类型:选择textContent(文本内容),输出变量名:current_names(临时存当前页小说名)。
这里输出变量可以选在添加变量(快速),可以自动根据组件选择类型。

4.3 合并到 list1
列表合并,将上一个组件的输出的current_names(临时存当前页小说名),合并到盒子list1

4.4 判断是否翻页(该页面只显示50页,这里就以50页作为判断依据)
条件判断,页码≤50(控制是否翻页),否则就停止。

在实操中发现,这个网站比较特殊,当页面到49页后,点击下一页按钮无效的,无法跳转到50页

所以这里判断条件逻辑为:
当 current_page ≠49时:直接点击下一页按钮翻页(1→2、2→3…);
当 current_page = 49 时:点击分页栏的 “50” 标签(确保定位到 50 页,避免跳转问题);


步骤 5:保存数据 + 结束操作
Excel打开文档,新建Excel文档,用于保存小说名

Excel写入内容,写入表头和小说名


Excel关闭保存文档
关闭浏览器

注意事项:
一、逻辑循序:先采集,后翻页
正确顺序:
等待页面加载 → 提取当前页数据 → 合并到总列表 → 翻页判断 → 执行翻页 + 更新页码,从上到下看步骤,“条件判断(IfElse)” 必须在 “提取数据”“合并列表” 之后。
二、变量与赋值:
1-48 页 / 50 页的 “页码 + 1”:
模式:必须选 “# 模式”(变量模式),值填#current_page + 1;
错误:用 “T 模式” 填current_page + 1(会变成文本 “current_page + 1”,不是数字)。

案例脚本分享: https://www.huoyuyan.com/share.html?key=eyJhdXRvQ29kZSI6IkZhbHNlIiwia2V5IjoiNzQxMDI5OGRkODIwNGM0ZTgyOWQ5Mjg2ZjNhZDcxMGEifQ== 提取码: 65ef
