当前位置: 首页 > news >正文

Uipath Studio中爬取网页信息

步骤分析

1:登录百度搜索网站

2:在搜索框里输入关键词

3:点击“百度一下”

4:点击“资讯”

5:创建一个Excel文档

6:读取标题,URL,摘要和新闻来源,并保存到Excel文档

7:重复上一步,读取和保存前*条资讯

8:保存Excel文档

一:准备阶段(新建流程,选择熟悉的语言,打开主工作流)

二:具体操作步骤

1:点击+号

2:双击选择使用应用程序/浏览器(提前打开百度网址)

3:点击执行,双击选择输入信息

定位到百度的输入框,需要一个锚点(可选择图中蓝色框区域),然后输入你想找的内容(如“可口可乐”)这时,可在网页上模拟一下输入可口可乐后的操作步骤

4:需要一个回车或者百度一下进入搜索页,这我们就模拟回车;点击+号,输入键盘,选择键盘快捷方式,然后点击记录快捷方式,键盘上按下回车键,就记录好了

5:下一步,选择单击;选择资讯以及锚点的区域(锚点就是其他可参照的区域,防止网页更新)

6:选择表格数据提取(同时百度网页上要在资讯的页面如图2),然后使用该工具

添加自己想要选择的数据,然后重命名(我选取的左边页面的标题、URL、摘要、新闻来源;这是当前页,然后我们需要多少页,点击下一步的按钮,选择自己需要的页数,点击保存;注意看数据选择的范围,有时位置不一样就没选到,多点几次自己要的数据即可)

7:最后一步,双击写入范围,最后一个引用变量ExtractDataTable,然后加上标头

8:调试文件,跑完后然后在演示001右击打开项目文件夹

http://www.dtcms.com/a/322164.html

相关文章:

  • 安装CST时,报错问题处理
  • 几个概率分布在机器学习应用示例
  • Java-反射
  • C++编程之旅-- -- --类与对象的奇幻征途之初识篇(一)(了解类的基本用法,计算类大小,分析this指针)
  • 【完整源码+数据集+部署教程】海洋物体实例分割系统源码和数据集:改进yolo11-EfficientHead
  • Java【问题 07】SSH不同版本使用jsch问题处理(7.4升级9.7及欧拉原生8.8)
  • WD5202 非隔离降压转换芯片,220V降5V,输出电流80MA
  • Java学习Collection单列集合中的三种通用遍历方法
  • 【Erdas实验教程】029:遥感图像光谱增强(缨帽变换)
  • 经济学从业者职业发展认证体系分析
  • 在 Git 中,将本地分支的修改提交到主分支
  • 数据结构--哈希表与排序、选择算法
  • PVE 9.0 保姆级安装及优化教程(换源、网络配置、远程唤醒等)【基础篇】
  • 农行鉴权问题
  • 嵌入式 Linux 驱动开发常见问题排查宝典(驱动开发篇)v1.0
  • “人工”智能究竟需要多少人工?
  • 《设计模式之禅》笔记摘录 - 14.组合模式
  • 使用Python+selenium实现第一个自动化测试脚本
  • 【GPT-OSS 全面测评】释放推理、部署和自主掌控的 AI 新纪元
  • 1688 图片搜图找货接口开发实战:从图像特征提取到商品匹配全流程
  • InfluxDB漏洞:Metrics 未授权访问漏洞
  • 自定义上传本地文件夹到七牛云
  • 【深度学习新浪潮】GPT-5正式发布:开启博士级智能新纪元
  • Redis基础数据类型
  • 支持向量机(SVM)全解析:原理、类别与实践
  • Nestjs框架: 基于 Argon2 的用户登录注册安全机制设计与实现
  • Vue框架总结案例
  • 抖音AI分身:帮助每个抖音创作者,打造自己的AI分身
  • 垃圾堆放识别准确率↑32%:陌讯多模态融合算法实战解析
  • 设计一个 Java 本地缓存组件