当前位置: 首页 > news >正文

python(一)网络爬取

        在爬取网页信息时,需要注意网页爬虫规范文件robots.txt

        eg:csdn的爬虫规范文件 csdn.net/robots.txt

User-agent: 
        下面的Disallow规则适用于所有爬虫(即所有用户代理)。星号*是一个通配符,表示“所有”。

Disallow:

        禁止爬虫访问的路径

1、首先下载python的相关类库

pip install requests
pip install beautifulsoup4

        requests 是一个http库,可以发送网络请求 。

        beautifulsoup4 主要用来解析html文档。

2、引入相关库 

import requests    
from bs4 import BeautifulSoup  

3、编写相关代码

url = 'https://www.....com'    
response = requests.get(url)    
  
html_content = response.text  
soup = BeautifulSoup(html_content, 'html.parser')  
  
titles = soup.select('h2') 
for title in titles:  
    print(title.text)

        url : 需要爬的页面路径

        response = requests.get(url)  发送get请求并接受

        html_content = response.text 取出页面主体

        soup = BeautifulSoup(html_content, 'html.parser')  由beautifulsoup对主体中的h5标签解析

        titles = soup.select('h2')   选择所有的h2标签

        最后循环遍历打印出所有h2 标签

4、测试

相关文章:

  • 小程序中使用less
  • Rust编程(四)PackageCrateModule
  • C# EventHander
  • Linux 安装Mysql
  • c++数字和字符串的转化
  • 常用的几个ChatGPT网站,国内可用!
  • 원클릭으로 주류 전자상거래 플랫폼 상품 상세 데이터 수집 및 접속 시연 예제 (한국어판)
  • 版本 23.0.0 , docker 安装 , docker目录迁移正确方法
  • BaseDao增删改查
  • HTTPS
  • 使用filezilla连接Ubuntu22.04虚拟机
  • Linux renice命令教程:如何优雅地调整进程优先级(附案例详解和注意事项)
  • 【笔试】美团2023年秋招第5场笔试(后端数开软件方向)
  • Linux内核之debugfs_create_dir与debugfs_create_file实例与调用栈流程(三十二)
  • 每日一题 --- 四数相加 II[力扣][Go]
  • 星闪BLE与蓝牙
  • maven 依赖机制
  • 鸿蒙系统,作为华为自主研发的一款全新操作系统
  • 要将Oracle中的表从按年分区转换为按月分区,并且保持数据不变,不锁表
  • 程序汪若依微服务华为云Linux部署保姆教程
  • 国家主席习近平同普京总统共见记者
  • 叙利亚政权领导人首访西方国家,与法国总统讨论叙局势
  • 新华时评:任凭风云变幻,中俄关系从容前行
  • 印官员称巴基斯坦在克什米尔实控线附近开火已致7死38伤
  • 巴基斯坦外交部:印度侵略行径侵犯巴主权
  • 恒瑞医药通过港交所上市聆讯,最快或5月挂牌上市