【Python - 类库 - BeautifulSoup】(01)“BeautifulSoup“使用示例
BeautifulSoup 是一个用于解析 HTML 和 XML 文档的 Python 库,常用于网页抓取和数据提取。以下是使用 BeautifulSoup 解析网页内容的基本示例。
from bs4 import BeautifulSoup
import requests# 获取网页内容
url = 'https://example.com'
response = requests.get(url)# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')# 提取网页标题
title = soup.find('title').get_text()
print("网页标题:", title)# 查找所有链接
links = soup.find_all('a')
for link in links:print("链接:", link.get('href'))
解析器选择
html.parser
是 Python 内置的解析器,适合简单任务。如果需要更高性能,可以安装并使用 lxml
。
常用方法
- find(): 查找第一个匹配的标签。
- find_all(): 查找所有匹配的标签。
- get_text(): 提取标签内的文本内容。
- get(): 获取标签属性值。
注意事项
- 确保安装了
beautifulsoup4
和requests
库:
pip install beautifulsoup4 requests
- 对于复杂 HTML 结构,建议结合浏览器开发者工具定位目标元素。
通过以上方法,您可以轻松提取网页中的所需数据。