当前位置: 首页 > news >正文

基于Puppeteer实现配置自动化

前两篇文章《Node.js和Puppeteer进行Web抓取的简单使用》 和《Puppeteer结合Jest对网页进行测试》已经了解到Puppeteer大致可以做点什么事情,之前提到过最终自动化需要一个数组配置。这篇文章将会简单是一个读取配置文件实现自动化的脚本。

脚本

就拿《Node.js和Puppeteer进行Web抓取的简单使用》 代码举例:

const puppeteer = require(‘puppeteer’);
let scrape = async () => {
// 打开一个浏览器
   const browser = await puppeteer.launch();
   // 新建一个页面
   const page = await browser.newPage();   
   // 打开url
   await page.goto(‘https://www.johancruijffarena.nl/calendar.htm');   
   // 针对某个元素 获取数据
   const result = await page.evaluate(() => {
      var data = [];
      var tables = document.querySelectorAll(‘table’);
      data = tables.length;     
       return data;
   }, );   
   // 关闭浏览器
   browser.close();
   return result
}
scrape().then((value) => {
   console.log(value);
});

这个就是日常mk代码逻辑,如果要转换配置化,那就先理清步骤,然后对配置数据建模。

开始构建数据、纯函数

从代码看出来,可以列出步骤如下:
步骤1: 打开一个浏览器;
步骤2: 新建一个页面;
步骤3: 打开url;
步骤4: 针对某个元素 获取数据;
步骤5: 关闭浏览器
可以看出每个步骤都是一个操作类型,这个时候,数据里面可以定一个操作类型的key:nodeType;

{
	nodeType: any
}

步骤1

因为一个流程只操作一个浏览器,因此配置数据可以省略这个步骤,当程序运行时默认执行这个步骤就好了,同时帮步骤1操作提取一个函数(尽量保证是一个纯函数,后续会有篇幅),

const getBrowser = async () => {
	const browser = await puppeteer.launch();
	return browser
}

步骤2和步骤3

步骤2和步骤3可以合并成一个步骤,打开一个页面,那必须得跳转url吧!那么可得到一个配置数据:

{
		nodeType: 'start',
		url: 'https://www.johancruijffarena.nl/calendar.htm'
},

创建一个只打开页面的纯函数:

const runNodeStart = async (arg) => {
	const { browser, task } = arg
	const { url } = task
	const page = await browser.newPage()
	await page.goto(url, {
		waitUntil: 'domcontentloaded',
	});
	return page
}

步骤4

该操作也得定义nodeType,告诉程序该做什么事情,因为需要检索元素需要关键字,可以设置selector为key

{
	nodeType: 'pick',
	selector: 'table'
}

函数:

const getPick = async (arg) => {
	const {  task } = arg
   const { selector } = task
   const result = await page.evaluate(() => {
      var data = [];
      var tables = document.querySelectorAll( selector );
      data = tables.length;     
       return data;
   }, );   
   return  result
}

步骤5:

同理可以得到一个配置数据:

{
		nodeType: 'close',
},

一个函数:

const runClose = async (arg) => {
	const { browser, task, page } = arg
	await browser.close();
	return false
}

配置数据如下

const datas = [
{. // 打开页面 
		nodeType: 'start',
		url: 'https://www.johancruijffarena.nl/calendar.htm'
},
{ // 获取数据
	nodeType: 'pick',
	selector: 'table'
},
{ // 关闭浏览器
		nodeType: 'close',
},
]

MK代码实现

其实一看数据配置就是一个数组,只要我们遍历这个数组,就可以完成我们配置自动化的效果。for循环简单粗暴:

const main = async () => {
const browser = await  getBrowser()
const len = datas.length
let page = null
let pickData = ''
for (let i = 0; i < len; i++) {
  const { nodeType } = datas[i]
  if (nodeType === 'start') {
  	const data =   await  runNodeStart( { browser, task: datas[i]})
  	page = data.page
  } else if (nodeType === 'pick') {
  	pickData = await  getPick( { browser, task: datas[i], page} )
  } else if (nodeType === 'close') {
  await runClose({browser})
  	}
}
}

当然这块代码,还是有很大的优化空间,必须实现功能较全的自动化,通过for、if、else if去实现,代码不太优雅!!!各位有啥想法不?优雅的优化方式!!!
相关源码

相关文章:

  • LeetCode——415. 字符串相加
  • 构建高效外卖系统:利用Spring Boot框架实现
  • 三、ElasticSearch集群搭建实战
  • 网络安全知识和华为防火墙
  • Java 面试题之 IO(二)
  • 路由协议解析之静态路由(基于eNSP)(持续更新)
  • Demo: 前端生成条形码并打印
  • 第十四届蓝桥杯C组题目 三国游戏
  • Spring Retry机制详解
  • 鸿鹄工程项目管理系统em Spring Cloud+Spring Boot+前后端分离构建工程项目管理系统
  • vue3封装el-pagination分页组件
  • Python 一些常见的字符串操作
  • 【VS Code+Verilog+Vivado使用】(1)常用插件
  • 【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】
  • CSAPP shelllab
  • [docker] Docker 网络
  • qemu + vscode图形化调试linux kernel
  • openssl3.2/test/certs - 056 - all DNS-like CNs allowed by CA1, no SANs
  • 项目解决方案:市小区高清视频监控平台联网整合设计方案(上)
  • python flask request教程
  • 体坛联播|郑钦文收获红土赛季首胜,国际乒联公布财报
  • 本周看啥|喜欢二次元的观众,去电影院吧
  • 河南省省长王凯在郑州调研促消费工作,走访蜜雪冰城总部
  • 重庆党政代表团在沪考察,陈吉宁龚正与袁家军胡衡华共商两地深化合作工作
  • 我驻苏丹使馆建议在苏中国公民尽快撤离
  • 暴雨及强对流天气黄色预警已发布!南方进入本轮降雨最强时段