当前位置: 首页 > news >正文

【愚公系列】《Python网络爬虫从入门到精通》022-Splash的爬虫应用

标题 详情
作者简介 愚公搬代码
头衔 华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。
近期荣誉 2022年度博客之星TOP2,2023年度博客之星TOP2,2022年华为云十佳博主,2023年华为云十佳博主,2024年华为云十佳博主等。
博客内容 .NET、Java、Python、Go、Node、前端、IOS、Android、鸿蒙、Linux、物联网、网络安全、大数据、人工智能、U3D游戏、小程序等相关领域知识。
欢迎 👍点赞、✍评论、⭐收藏

文章目录

  • 🚀前言
  • 🚀一、Splash的爬虫应用
    • 🔎1.搭建 Splash 环境(Windows 10 系统)
    • 🔎2.Splash 的 HTTP API
      • 🦋2.1 `render.html` 接口
      • 🦋2.2 `render.png` 接口
      • 🦋3.3 `render.json` 接口
    • 🔎3.执行 Lua 自定义脚本


🚀前言

在当今互联网技术飞速发展的时代,网页数据的提取变得愈发复杂。许多网站使用JavaScript来动态生成内容,这使得传统爬虫工具难以有效抓取所需数据。而Splash,一个基于Python的JavaScript渲染服务,提供了一种解决方案,使得我们能够轻松处理这些动态网页。

在本期文章中,我们将深入探讨Splash的爬虫应用。我们将介绍Splash的基本概念、安装与配置,以及如何利用它进行网页抓取。通过实际案例,我们将演示如何使用Splash处理JavaScript生成的内容,提取所需信息,并展示如何将其与其他爬虫框架结合使用,提升数据抓取的效率和准确性。

🚀一、Splash的爬虫应用

Splash 是一个基于 JavaScript 渲染的轻量级 Web 浏览器服务,提供 HTTP API 接口。通过 Python 调用其 API 或 Lua 脚本,可实现动态渲染页面的爬取。

🔎1.搭建 Splash 环境(Windows 10 系统)

依赖工具:Docker(仅支持 Windows 10 专业版/企业版 64 位)

安装步骤

  1. 安装 Docker

    • 访问 Docker 官网,下载 Docker Desktop Installer.exe
    • 安装时需开启 Hyper-V 功能。
  2. 安装 Splash

    • 打开命令提示符,执行以下命令:
      docker pull scrapinghub/splash
      
  3. 启动 Splash 服务

    docker run -p 8050:8050 scrapinghub/splash
    
    • 访问 http://localhost:8050 可进入 Splash 测试页面。

在这里插入图片描述
3. 测试 Splash 服务

  • 访问 https://www.baidu.com/ 单击“Render me!”按钮,将显示如图所示的渲染页面。

在这里插入图片描述

🔎2.Splash 的 HTTP API

ǹ

相关文章:

  • C语言(11)------------->while循环
  • XCP的标准会话应答例程
  • Win11 24h2 不能正常使用ensp的问题(已解决)
  • STM32的“Unique device ID“能否修改?
  • 《DAMA数据管理知识体系指南》第十章 参考数据和主数据管理读书笔记
  • 库的制作与原理(一)
  • Kubernetes 使用 Kube-Prometheus 构建指标监控 +飞书告警
  • 粘贴到Word里的图片显示不全
  • Flutter_学习记录_各个屏幕的适配
  • 深度体验通义灵码2.0 AI 程序员
  • 基于SpringBoot的“宠物救助及领养平台”的设计与实现(源码+数据库+文档+PPT)
  • ctfshow——robots后台泄露
  • 多态的好处
  • 基于光度立体视觉的三维重建方法
  • Linux系统使用Docker部署Geoserver并做数据挂载进行地图服务的发布和游览
  • JAVA 集成 ElasticSearch
  • 力扣每日一题【算法学习day.132】
  • ARMS 助力假面科技研发运维提效,保障极致游戏体验
  • A097基于SpringBoot实现的社区博客管理系统
  • 百度云DeepSeek一体机:百舸、千帆和一见介绍及区别对比
  • 农行回应“病重老人被要求亲自取钱在银行去世”:全力配合公安机关调查
  • 证监会:2024年依法从严查办证券期货违法案件739件,作出处罚决定592件、同比增10%
  • 严打金融黑灰产,今年来上海警方破获各类经济犯罪案件690余起
  • 病重老人被要求亲自取钱在农业银行门口去世?株洲警方介入
  • 沪喀同心|为新疆青少年提供科普大餐,“小小博物家(喀什版)”启动
  • “75万买299元路由器”事件进展:重庆市纪委等三部门联合介入调查