当前位置: 首页 > news >正文

【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

系列文章目录

提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加
例如:第一章 Python 机器学习入门之pandas的使用


文章目录

  • 系列文章目录
  • 前言
  • 2.1 概述
  • 2.2 re 解析
  • 2.3 bs4 解析
  • 2.4 xpath 解析
  • 总结


前言

  • Datawhale是一个专注于AI与数据科学的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员
  • 零基础网络爬虫技术

2.1 概述

  • 紧接上文,通常我们只需要整个网页的一部分内容,这就涉及到了数据提取
  • 常见有 3 种方式:
  1. re
  2. bs4
  3. xpath

2.2 re 解析

2.3 bs4 解析

  • 首先掌握 html 标签语法

2.4 xpath 解析

  • xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
  • 用法:
    1. 将要解析的html内容构造出 etree 对象。
    2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

在这里插入图片描述


总结

  • 尝试使用3种解析方法解析网页源代码。

相关文章:

  • 在Docker网络中,同一网络下的容器可以直接通过内部端口通信,无需经过主机端口映射,这是由Docker的网络隔离和内部通信机制决定的。
  • Python 邻接表详细实现指南
  • LeetCode第279题_完全平方数
  • DeepSeek生成HTML5生命天数计算器
  • Qt实战:自定义二级选项框 | 附完整源码
  • PCL 点云旋转的轴角表示法
  • 细节/数学/滑动窗口
  • python版halcon环境配置
  • Scrapy全流程(一)
  • CLion开发Qt桌面程序_git的简单使用_小团体
  • (LeetCode 面试经典 150 题) 80. 删除有序数组中的重复项 II (双指针、栈)
  • 信贷域——信贷年审业务
  • Python漂浮的爱心
  • 闲庭信步使用SV搭建图像测试平台:第五课——使用task
  • 【Fargo】mediasoup发送2:码率分配、传输基类设计及WebRtcTransport原理
  • x1+x2=4 X1-X2=2的画图呢?
  • std::shared_ptr 的线程安全性
  • Java基础 6.21
  • cursor中定义cursor rules
  • 【Elasticsearch】运维监控:分片和节点
  • 简述网站建设的概念/企业网站的推广方式和手段有哪些
  • 晋中做网站的公司/网络营销第三版课本
  • 网站建设与维护流程图/全网营销推广是什么
  • 织梦 视频网站源码/常用的关键词挖掘工具有哪些
  • 手机网站相关/百度账号查询
  • 做网站是什么工作/百度一下你就知道官网百度