当前位置: 首页 > news >正文

Python实验项目9 :网络爬虫与自动化

实验 1:爬取网页中的数据。

要求:使用 urllib 库和 requests 库分别爬取 http://www.sohu.com 首页的前 360 个字节的数据。

# 要求:使用 urllib 库和 requests 库分别爬取 http://www.sohu.com 首页的前 360 个字节的数据。
import urllib.request
import requests
# 使用 urllib 库爬取 http://www.sohu.com 首页的前 360 个字节的数据。
url = 'http://www.sohu.com'
req = urllib.request.Request(url)
res = urllib.request.urlopen(req)
data = res.read(360)
print(data)


# 使用 requests 库爬取 http://www.sohu.com 首页的前 360 个字节的数据。
#url = 'http://www.sohu.com'
#res = requests.get(url)
#data = res.content[:360]
#print(data)

实验 2:测试 BeautifulSoup 对象的方法。

要求:

1)创建 BeautifulSoup 对象。
2)测试搜索文档树的 find_all()方法和 find()方法。
# 实验 2:测试 BeautifulSoup 对象的方法。
# 要求:
# 1)创建 BeautifulSoup 对象。
# 2)测试搜索文档树的 find_all()方法和 find()方法。
from bs4 import BeautifulSoup
import requests
# 过http请求加载网页
response = requests.get("http://www.sohu.com")
# 创建BeautifulSoup对象
soup = BeautifulSoup(response.text, "html.parser")
# 搜索文档树的find_all()方法
print(soup.find_all("a"))
# 搜索文档树的find()方法
print(soup.find("a"))

 

 实验 3:爬取并分析网页页面数据。

 (1)使用requests库爬取https://www.hnnu.edu.cn/main.htm首页内容。
(2)编写程序获取https://www.hnnu.edu.cn/119/list.htm的通知公告的信息。  
# 实验 3:爬取并分析网页页面数据。
# (1)使用requests库爬取https://www.hnnu.edu.cn/main.htm首页内容。
# (2)编写程序获取https://www.hnnu.edu.cn/119/list.htm的通知公告的信息。
import requests
from bs4 import BeautifulSoup
url = 'https://www.hnnu.edu.cn/main.htm'
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')
print(soup.find_all('a'))
print(soup.find('a'))

for i in range(1,23,1):
    url = 'https://www.hnnu.edu.cn/119/list.htm{}.htm'.format(i)
    res = requests.get(url)
    soup = BeautifulSoup(res.text,'html.parser')
    print("-------------------------------------------------------")
    print(soup)
    #print(soup.find('a'))

http://www.dtcms.com/a/5481.html

相关文章:

  • Qt 文字描边(基础篇)
  • 总结MySQL 的一些知识点:MySQL 运算符
  • 机器视觉技术与应用实战(Chapter Two-03)
  • 了解Spring Boot:重要注解详解
  • 向量、矩阵、数组、向量空间
  • <VR串流线方案> PICO 4 Pro VR串流线方案 Oculus Quest2 Link串流线方案
  • 计算机网络:网络层(无分类编址CIDR、计算题讲解)
  • 一篇文章了解Flutter Json系列化和反序列化
  • ​ 轻量应用服务器:亚马逊云科技打造全球领先的云计算解决方案
  • 【深度强化学习】策略梯度方法:REINFORCE、Actor-Critic
  • 前后端传参格式
  • 04-Nacos中负载均衡规则的配置
  • C# 数据的保存和提取(.TXT格式)
  • 外包干了3个月,技术退步明显。。。
  • SSL证书HTTPS保护服务
  • YOLOv8使用自定义改进后的模型同时《加载官方预训练权重》教程,附代码
  • C_1练习题答案
  • 算法通关第十九关-青铜挑战理解动态规划
  • Maven项目引入本地jar
  • 使用drawio绘制依赖关系图
  • 智能优化算法应用:基于和声算法3D无线传感器网络(WSN)覆盖优化 - 附代码
  • vue整个页面可以拖拽导入文件
  • 在windows系统搭建LVGL模拟器(codeblock工程)
  • [论文笔记] 大模型主流Benchmark测试集介绍
  • 【第二章】docker +Jenkins+git+allure+python3安装
  • 『K8S 入门』二:深入 Pod
  • 云原生之深入解析如何在Kubernetes中快速启用Cgroup V2支持
  • Docker与K8s的区别
  • 数据可视化设计:让数据故事更有说服力
  • Excel实现字母+数字拖拉自动递增,步长可更改