当前位置: 首页 > news >正文

台州seo网站排名优化铁路建设工程网

台州seo网站排名优化,铁路建设工程网,爱站关键词挖掘,world做网站怎么做连接目录 准备工作 编写爬虫代码 运行爬虫 查看结果 遇到的问题及解决 总结 前言和效果 本文记录了使用 Python 实现一个简单网页爬虫的过程,目标是爬取 quotes.toscrape.com 的名言和作者,并将结果保存到文本文件。以下是完整步骤,包含环境…

目录

准备工作

编写爬虫代码

运行爬虫

查看结果

遇到的问题及解决

总结


前言和效果

本文记录了使用 Python 实现一个简单网页爬虫的过程,目标是爬取 quotes.toscrape.com 的名言和作者,并将结果保存到文本文件。以下是完整步骤,包含环境配置、依赖安装和代码运行。
网站截图:

爬取到的内容截图如下: 

准备工作
  1. 激活 Anaconda 虚拟环境
    我的 Python 环境基于 Anaconda,使用的虚拟环境是 SRCNN(路径:D:\Anaconda\envs\SRCNN)。首先,需要激活该环境:

conda activate SRCNN

运行后,命令行前缀变为 (SRCNN),表示成功切换到虚拟环境。

  1. 安装依赖包
    爬虫需要两个库:requests(发送 HTTP 请求)和 beautifulsoup4(解析 HTML)。在 SRCNN 环境中安装:

conda install requests beautifulsoup4

安装报错了,原因是未关闭科学上网,后关闭了这两个包就装好了。报错如下:
关闭科学上网后重新安装

安装完成后,命令行显示安装成功的提示。

  1. 验证安装
    为确保 beautifulsoup4 正确安装在 SRCNN 环境中,运行以下命令检查:

pip show beautifulsoup4

输出显示模块版本为 4.12.2,安装路径为 D:\Anaconda\envs\SRCNN\Lib\site-packages,确认安装正确。

编写爬虫代码,完整代码:

以下是爬虫代码(pac.py),用于爬取 quotes.toscrape.com 的名言和作者,并保存到 quotes.txt

import requests
from bs4 import BeautifulSoup# 目标网页
url = "http://quotes.toscrape.com/"try:# 发送 HTTP 请求response = requests.get(url)response.raise_for_status()  # 检查请求是否成功# 解析 HTMLsoup = BeautifulSoup(response.text, "html.parser")# 提取名言和作者quotes = soup.find_all("div", class_="quote")results = []for quote in quotes:text = quote.find("span", class_="text").get_text()author = quote.find("small", class_="author").get_text()results.append({"quote": text, "author": author})# 保存到文件with open("quotes.txt", "w", encoding="utf-8") as f:for item in results:f.write(f"Quote: {item['quote']}\nAuthor: {item['author']}\n\n")print("爬取完成,结果已保存到 quotes.txt")except requests.RequestException as e:print(f"请求错误: {e}")
except Exception as e:print(f"发生错误: {e}")

代码说明:

  • 使用 requests.get 获取网页内容。

  • BeautifulSoup 解析 HTML,提取 class="quote"<div> 元素。

  • 提取每条名言(class="text")和作者(class="author"),保存到 quotes.txt

目标网站:
Quotes to Scrape

运行爬虫

SRCNN 环境中运行代码:

D:\Anaconda\envs\SRCNN\python.exe D:/YAN/pythonProject/PaChong/pac.py

运行后,程序输出“爬取完成,结果已保存到 quotes.txt”,表示成功。

查看结果

爬取结果保存在 D:/YAN/pythonProject/PaChong/quotes.txt,内容为每条名言及其作者。

遇到的问题及解决

最初运行时,提示 ModuleNotFoundError: No module named 'bs4',因为 beautifulsoup4 安装在 Anaconda 全局环境(D:\Anaconda\Lib\site-packages)而非 SRCNN 环境。解决方法是激活 SRCNN 环境并重新安装:

conda activate SRCNN
conda install beautifulsoup4

此外,确认 requests 已安装,避免类似错误。

总结

通过以上步骤,我成功实现了一个简单的 Python 爬虫:

  • 激活 SRCNN 虚拟环境。

  • 安装 requestsbeautifulsoup4

  • 编写并运行爬虫代码,爬取名言并保存到文本文件。

这个过程熟悉了 Anaconda 虚拟环境管理和爬虫开发,适合初学者参考。未来可扩展功能,如处理多页爬取或应对反爬机制。

http://www.dtcms.com/a/567037.html

相关文章:

  • 青浦做网站价格北京怎么建设网站
  • 百度怎样可以搜到自己的网站w网站链接如何做脚注
  • 北京网站建设网络推广公司专业手机网站建设价格
  • 数学公式网页可视化 | KaTeX 在网页中显示数学公式的应用与优化
  • 走进Linux的世界:初识操作系统(Operator System)
  • 视频网站开发视频1688阿里巴巴官网首页
  • 网站建设海报素材wordpress 修改密码
  • DW个人网站怎么做wordpress相册管理插件
  • h5响应式网站建设代理小型互联网公司市值排名
  • 长丰县住房和城乡建设局网站wordpress百度小程序插件
  • 做网站的重要性编程软件免费中文版
  • 阿里云服务器怎么部署网站环保网站建设模板免费下载
  • 网站加速代码wordpress 页面 瞄
  • 专业商城网站建设公司不上此网站枉做男人
  • 我想学习做网站网站建设的理念
  • 做网站做的好的公司北邻京网站茵建设
  • 东莞专业做网站的公司成立公司注册资金要求
  • 湛江模板建站多少钱小公司做网站需要什么条件
  • 温州做网站建设哪家好公司网站建设 入账
  • 在线做名片做海报网站双鸭山建设局网站
  • 中国建设银行人力资源网站怎么优化自己的网站
  • 做封面网站中国有几大电商平台
  • 怎么做网站界面设计它有什么特点
  • 网站建设使用的工具推广普通话作文
  • 都什么企业需要网站吗个人淘宝客网站
  • 网站数据分析指标百度推广优化排名怎么收费
  • 外贸建网站免费模板商务网站建设实训报告1600字
  • 怎样注册自己的网站互动网站案例
  • B站跟随系统深色模式脚本——让你的B站体验更丝滑
  • Wordpress 手机网站自己做的网站如何让别的网可以查看