当前位置：首页 > news >正文

Uipath Studio中爬取网页信息

news 2025/10/5 18:53:23

步骤分析

1：登录百度搜索网站

2：在搜索框里输入关键词

3：点击“百度一下”

4：点击“资讯”

5：创建一个Excel文档

6：读取标题，URL,摘要和新闻来源，并保存到Excel文档

7：重复上一步，读取和保存前*条资讯

8：保存Excel文档

一：准备阶段（新建流程，选择熟悉的语言，打开主工作流）

二：具体操作步骤

1：点击+号

2：双击选择使用应用程序/浏览器（提前打开百度网址）

3：点击执行，双击选择输入信息

定位到百度的输入框，需要一个锚点（可选择图中蓝色框区域），然后输入你想找的内容（如“可口可乐”）这时，可在网页上模拟一下输入可口可乐后的操作步骤

4：需要一个回车或者百度一下进入搜索页，这我们就模拟回车；点击+号，输入键盘，选择键盘快捷方式，然后点击记录快捷方式，键盘上按下回车键，就记录好了

5：下一步，选择单击；选择资讯以及锚点的区域（锚点就是其他可参照的区域，防止网页更新）

6：选择表格数据提取（同时百度网页上要在资讯的页面如图2）,然后使用该工具

添加自己想要选择的数据，然后重命名（我选取的左边页面的标题、URL、摘要、新闻来源；这是当前页，然后我们需要多少页，点击下一步的按钮，选择自己需要的页数，点击保存；注意看数据选择的范围，有时位置不一样就没选到，多点几次自己要的数据即可）

7：最后一步，双击写入范围，最后一个引用变量ExtractDataTable,然后加上标头

8：调试文件，跑完后然后在演示001右击打开项目文件夹

http://www.dtcms.com/a/322164.html

相关文章：

安装CST时，报错问题处理

几个概率分布在机器学习应用示例

Java-反射

C++编程之旅-- -- --类与对象的奇幻征途之初识篇（一）（了解类的基本用法，计算类大小，分析this指针）

【完整源码+数据集+部署教程】海洋物体实例分割系统源码和数据集：改进yolo11-EfficientHead

Java【问题 07】SSH不同版本使用jsch问题处理（7.4升级9.7及欧拉原生8.8）

WD5202 非隔离降压转换芯片，220V降5V，输出电流80MA

Java学习Collection单列集合中的三种通用遍历方法

【Erdas实验教程】029：遥感图像光谱增强（缨帽变换）

经济学从业者职业发展认证体系分析

在 Git 中，将本地分支的修改提交到主分支

数据结构--哈希表与排序、选择算法

PVE 9.0 保姆级安装及优化教程（换源、网络配置、远程唤醒等）【基础篇】

农行鉴权问题

嵌入式 Linux 驱动开发常见问题排查宝典（驱动开发篇）v1.0

“人工”智能究竟需要多少人工？

《设计模式之禅》笔记摘录 - 14.组合模式

使用Python+selenium实现第一个自动化测试脚本

【GPT-OSS 全面测评】释放推理、部署和自主掌控的 AI 新纪元

1688 图片搜图找货接口开发实战：从图像特征提取到商品匹配全流程

InfluxDB漏洞：Metrics 未授权访问漏洞

自定义上传本地文件夹到七牛云

【深度学习新浪潮】GPT-5正式发布：开启博士级智能新纪元

Redis基础数据类型

支持向量机（SVM）全解析：原理、类别与实践

Nestjs框架: 基于 Argon2 的用户登录注册安全机制设计与实现

Vue框架总结案例

抖音AI分身：帮助每个抖音创作者，打造自己的AI分身

垃圾堆放识别准确率↑32%：陌讯多模态融合算法实战解析

设计一个 Java 本地缓存组件