当前位置：首页 > wzjs >正文

码云可以做博客网站吗无忧软文网

wzjs 2025/8/2 2:01:59

码云可以做博客网站吗,无忧软文网,我要招人在哪个网站招,赣州网站建设精英首先你的电脑上肯定已经安装了python,没安装的去官网安装,我使用的是Pycharm作为操作的IDE 环境准备安装必要的库爬虫需要用到requests和beautifulsoup4 使用命令行或者终端运行下面的命令 pip install requests beautifulsoup4 -i https://mirrors.aliyun.com/pypi/sim…

首先你的电脑上肯定已经安装了python,没安装的去官网安装,我使用的是Pycharm作为操作的IDE

环境准备

安装必要的库

爬虫需要用到requests和beautifulsoup4

使用命令行或者终端运行下面的命令

pip install requests beautifulsoup4 -i https://mirrors.aliyun.com/pypi/simple

这里使用的是阿里云的镜像源,下载的快一点

下载完成之后可以使用下面这段代码检验下载的结果

import requests
from bs4 import BeautifulSoup
print("所有库安装成功！")

封面等内容的爬取

接下来是一段爬虫的代码,我们逐行对它进行讲解

import requests
from bs4 import BeautifulSoup# 1. 定义目标URL
url = "http://books.toscrape.com/"try:# 2. 发送HTTP请求response = requests.get(url)# 检查请求是否成功（状态码200表示成功）response.raise_for_status()  # 3. 解析HTML内容soup = BeautifulSoup(response.text, "html.parser")# 4. 定位所有书籍的容器books = soup.find_all("article", class_="product_pod")# 5. 遍历每个书籍容器并提取信息for book in books:# 提取书名title = book.h3.a["title"]# 提取价格price = book.find("p", class_="price_color").text# 提取评分（例如："Three" -> 3星）rating = book.p["class"][1]# 打印结果print(f"书名: {title}")print(f"价格: {price}")print(f"评分: {rating} 星")print("-" * 50)except requests.exceptions.RequestException as e:print(f"请求失败: {e}")
except Exception as e:print(f"发生错误: {e}")

分步详解

导入库

 import requests # 用于发送HTTP请求 from bs4 import BeautifulSoup # 用于解析HTML

发送HTTP请求
```
url = "http://books.toscrape.com/"
response = requests.get(url)
response.raise_for_status()  # 如果状态码不是200，抛出异常
```
requests.get(url)：向目标URL发送GET请求。
response.raise_for_status()：检查请求是否成功（状态码200），失败则抛出异常。
解析HTML内容
```
soup = BeautifulSoup(response.text, "html.parser")
```
response.text：获取网页的HTML文本内容
BeautifulSoup()：将HTML文本转换为可操作的对象（DOM树）。
定位书籍容器
```
books = soup.find_all("article", class_="product_pod")
```
find_all()：查找所有符合条件的目标元素。
article 是标签名，class="product_pod" 是类名（注意 class_ 的写法）。

提取书籍信息

for book in books:title = book.h3.a["title"]  # 书名存储在a标签的title属性中price = book.find("p", class_="price_color").text  # 价格在p标签的文本中rating = book.p["class"][1]  # 评分在p标签的第二个类名中（如 "star-rating Three"）

book.h3.a["title"]：通过层级关系直接定位到书名。
find("p", class="price_color")：在书籍容器内查找价格元素。
book.p"class"：评分通过类名的第二部分获取（例如 Three 表示3星）。

错误处理

except requests.exceptions.RequestException as e:print(f"请求失败: {e}")
except Exception as e:print(f"发生错误: {e}")

捕获网络请求错误和其他异常，避免程序崩溃。运行结果示例

运行结果示例

书名: A Light in the Attic 价格: £51.77

评分: Three 星

书名: Tipping the Velvet 价格: £53.74

评分: One 星

...

与该网站中的信息进行比对,发现爬取成功

接下来我们进入每一本书的详情页面,并爬取该页面中的Product_Description

详情页面爬取

将上面的代码更改为下面这一段代码

import requests
from bs4 import BeautifulSoup
import os# 目标网站
url = "http://books.toscrape.com/"# 创建文件夹保存图片
if not os.path.exists("book_covers"):os.makedirs("book_covers")try:# 发送请求response = requests.get(url)response.raise_for_status()# 解析HTMLsoup = BeautifulSoup(response.text, "html.parser")books = soup.find_all("article", class_="product_pod")for book in books:# 提取书名（用于命名图片文件）title = book.h3.a["title"].strip().replace("/", "-")  # 去除非法字符# 提取封面图片的相对路径（如：../../media/.../image.jpg）image_relative_url = book.img["src"]# 将相对路径转换为绝对URLimage_absolute_url = url + image_relative_url.replace("../", "")# 下载图片image_response = requests.get(image_absolute_url, stream=True)image_response.raise_for_status()# 保存图片到本地filename = f"book_covers/{title}.jpg"with open(filename, "wb") as f:for chunk in image_response.iter_content(1024):f.write(chunk)print(f"已下载封面: {title}")except requests.exceptions.RequestException as e:print(f"请求失败: {e}")
except Exception as e:print(f"发生错误: {e}")

分步解释

创建保存图片的文件夹
```
import os
if not os.path.exists("book_covers"):os.makedirs("book_covers")
```
使用 os 模块检查并创建文件夹，避免重复下载时文件覆盖。
定位封面图片的URL

查看图片的HTML结构：右键点击封面图片 → 检查，发现结构如下：
```
<img src="../../media/cache/2c/da/2cdad67c.../a-light-in-the-attic_1000.jpg" alt="A Light in the Attic" class="thumbnail">
```
src 属性包含图片的相对路径（如 ../../media/...）。

处理相对路径

相对路径需要拼接网站的完整URL：
```
image_relative_url = book.img["src"]  # 例如：../../media/...
image_absolute_url = url + image_relative_url.replace("../", "")
```
url 是基础地址（All products | Books to Scrape - Sandbox）。替换 ../ 为空字符串，得到完整路径（如 http://books.toscrape.com/media/...）。
下载并保存图片
```
image_response = requests.get(image_absolute_url, stream=True)
with open(filename, "wb") as f:for chunk in image_response.iter_content(1024):f.write(chunk)
```
stream=True：以流式下载大文件，避免内存溢出。 iter_content(1024)：每次下载 1024 字节的块，适合大文件。
文件名处理
```
title = book.h3.a["title"].strip().replace("/", "-")
filename = f"book_covers/{title}.jpg"
```
replace("/", "-")：替换书名中的非法字符（如斜杠），避免保存文件时报错。

运行结果

已下载封面: A Light in the Attic 已下载封面: Tipping the Velvet 已下载封面: Soumission ... 所有封面图片会保存在 book_covers 文件夹中，文件名格式为书名.jpg。

扩展优化

处理分页

爬取所有页面的书籍封面（观察分页URL规律，如 page-2.html）：

for page in range(1, 51):  # 共50页url = f"http://books.toscrape.com/catalogue/page-{page}.html"# 发送请求并解析...

添加延迟避免封禁

在请求间添加随机延迟，模拟人类操作：

import time
import random
time.sleep(random.uniform(0.5, 2.0))  # 随机延迟0.5~2秒

错误重试机制

使用 try-except 捕获下载失败的图片并重试：

try:image_response = requests.get(...)
except requests.exceptions.RequestException:print(f"下载失败: {title}")continue  # 跳过当前，继续下一个

查看全文

http://www.dtcms.com/wzjs/184303.html

邢台专业做wap网站优化网站性能监测

dedecms网站地图路径修改生成后网站地图前台路径不变优化方案

网站建设费用是多少怎样才能注册自己的网站

如何开通个人网站太原关键词优化报价

网站开发个性化百度链接提交收录入口

顺的网站建设信息站长之家seo查找

目前专业做水果的网站谷歌是如何运营的

微信客户端网站建设石家庄seo关键词排名

html网站开发实例教程百度商业账号登录

wordpress绿色两栏响应式主题seo技术软件

ucenter使用自己做的网站最近一周的国内新闻

WordPress首页播放音乐seo代理

文员做任务赚钱的网站百度公司地址

郑州网站建设怎样电子商务是干什么的

wordpress 本地访问慢简单网站建设优化推广

广告网站开发背景软文网

做amazon当地电信屏蔽了网站网站制作企业

如何用cms做网站广州百度搜索排名优化

昆明手机网站开发免费引流app下载

网站建设相关法律法规新闻联播今日新闻

制作网站品牌公司赣州seo外包怎么收费

公司网站怎么修改怎么做品牌推广和宣传

刷q币网站建设成都市seo网站公司

装修公司合作平台的网站十大营销案例分析

美团网站开发什么是网店推广

外包网站建设多少钱正规教育培训机构

wordpress做的外贸网站6商铺营销推广方案

为啥做网站成都网络推广外包

自媒体还是做网站上海职业技能培训机构一览表

河长制网站建设推广是做什么工作的

环境准备

安装必要的库

封面等内容的爬取

分步详解

导入库

发送HTTP请求

解析HTML内容

定位书籍容器

提取书籍信息

错误处理

运行结果示例

详情页面爬取

分步解释

创建保存图片的文件夹

定位封面图片的URL

处理相对路径

下载并保存图片

文件名处理

运行结果

扩展优化

处理分页

添加延迟避免封禁

错误重试机制

相关文章：