当前位置：首页 > news >正文

python(一)网络爬取

news 2025/11/9 1:26:23

在爬取网页信息时，需要注意网页爬虫规范文件robots.txt

eg:csdn的爬虫规范文件 csdn.net/robots.txt

User-agent:
下面的Disallow规则适用于所有爬虫（即所有用户代理）。星号*是一个通配符，表示“所有”。

Disallow：

禁止爬虫访问的路径

1、首先下载python的相关类库

pip install requests
pip install beautifulsoup4

requests 是一个http库，可以发送网络请求。

beautifulsoup4 主要用来解析html文档。

2、引入相关库

import requests    
from bs4 import BeautifulSoup

3、编写相关代码

url = 'https://www.....com'    
response = requests.get(url)    
  
html_content = response.text  
soup = BeautifulSoup(html_content, 'html.parser')  
  
titles = soup.select('h2') 
for title in titles:  
    print(title.text)

url : 需要爬的页面路径

response = requests.get(url) 发送get请求并接受

html_content = response.text 取出页面主体

soup = BeautifulSoup(html_content, 'html.parser') 由beautifulsoup对主体中的h5标签解析

titles = soup.select('h2') 选择所有的h2标签

最后循环遍历打印出所有h2 标签

4、测试

查看全文

http://www.dtcms.com/a/9724.html

小程序中使用less

Rust编程（四）PackageCrateModule

C# EventHander

Linux 安装Mysql

c++数字和字符串的转化

常用的几个ChatGPT网站，国内可用！

원클릭으로 주류 전자상거래 플랫폼 상품 상세 데이터 수집 및 접속 시연 예제 (한국어판)

版本 23.0.0 , docker 安装 , docker目录迁移正确方法

BaseDao增删改查

HTTPS

使用filezilla连接Ubuntu22.04虚拟机

Linux renice命令教程：如何优雅地调整进程优先级(附案例详解和注意事项)

【笔试】美团2023年秋招第5场笔试（后端数开软件方向）

Linux内核之debugfs_create_dir与debugfs_create_file实例与调用栈流程(三十二)

每日一题 --- 四数相加 II[力扣][Go]

星闪BLE与蓝牙

maven 依赖机制

鸿蒙系统，作为华为自主研发的一款全新操作系统

要将Oracle中的表从按年分区转换为按月分区，并且保持数据不变,不锁表

程序汪若依微服务华为云Linux部署保姆教程

QGraphicsView实现图片放大、缩小、鼠标拖动、以鼠标点放大缩小

SpringBoot集成Solr全文检索

非隔离恒压AC-DC电源IC：SM7035P

服务器被挖矿了怎么办，实战清退

RK3568-开启ptp服务

Docker常见软件部署2

简单了解原型模式

C++——vector类及其模拟实现

专业130+总分410+西南交通大学924信号与系统考研经验西南交大电子信息通信工程，真题，大纲，参考书。

【echart】数据可视化+vue+vite遇到问题

1、首先下载python的相关类库

2、引入相关库

3、编写相关代码

4、测试

相关文章：