当前位置：首页 > news >正文

【Datawhale组队学习202506】零基础学爬虫 02 数据解析与提取

news 2025/8/10 21:20:04

系列文章目录

提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加
例如：第一章 Python 机器学习入门之pandas的使用

文章目录

系列文章目录
前言
2.1 概述
2.2 re 解析
2.3 bs4 解析
2.4 xpath 解析
总结

前言

Datawhale是一个专注于AI与数据科学的开源组织，汇集了众多领域院校和知名企业的优秀学习者，聚合了一群有开源精神和探索精神的团队成员
零基础网络爬虫技术

2.1 概述

紧接上文，通常我们只需要整个网页的一部分内容，这就涉及到了数据提取。
常见有 3 种方式：

re
bs4
xpath

2.2 re 解析

2.3 bs4 解析

首先掌握 html 标签语法

2.4 xpath 解析

xpath 可⽤来在 XML ⽂档中对元素和属性进⾏遍历。⽽我们熟知的HTML恰巧属于XML的⼀个⼦集。
用法：
1. 将要解析的html内容构造出 etree 对象。
2. 使⽤ etree 对象的 xpath() ⽅法配合 xpath表达式 来完成对数据的提取。

在这里插入图片描述

总结

尝试使用3种解析方法解析网页源代码。

查看全文

http://www.dtcms.com/a/256461.html

在Docker网络中，同一网络下的容器可以直接通过内部端口通信，无需经过主机端口映射，这是由Docker的网络隔离和内部通信机制决定的。

Python 邻接表详细实现指南

LeetCode第279题_完全平方数

DeepSeek生成HTML5生命天数计算器

Qt实战：自定义二级选项框 | 附完整源码

PCL 点云旋转的轴角表示法

细节/数学/滑动窗口

python版halcon环境配置

Scrapy全流程（一）

CLion开发Qt桌面程序_git的简单使用_小团体

(LeetCode 面试经典 150 题) 80. 删除有序数组中的重复项 II (双指针、栈)

信贷域——信贷年审业务

Python漂浮的爱心

闲庭信步使用SV搭建图像测试平台：第五课——使用task

【Fargo】mediasoup发送2：码率分配、传输基类设计及WebRtcTransport原理

x1+x2=4 X1-X2=2的画图呢？

std::shared_ptr 的线程安全性

Java基础 6.21

cursor中定义cursor rules

【Elasticsearch】运维监控：分片和节点

当数据自己会说话：聚类与分类算法全景解析

P1220 关路灯

AI大模型学习之基础数学：微积分-AI大模型的数学引擎

nn4dms开源程序是用于深度突变扫描数据的神经网络

安装 Labelme

如何使用Ant Design Blazor组件在列表页弹窗增加修改数据

C++ 文件读写

并查集（Disjoint-Set Union）详解

单点登录（SSO）系统

SpringAI1.0.0 入门案例