当前位置: 首页 > news >正文

爬虫学习笔记

定制request

传递URL

有params = param_data , 这个就是传入一些,用户密码之类的在这里插入图片描述

定制请求头

无法访问时候,就是页面禁止爬取,此时要定制Headers
获取方法
进入网页–>点鸡network 选项卡–>刷新–>找到Doc–>点鸡name 下方的网址–>
然后复制User-Agent (Hoysst)在这里插入图片描述

在这里插入图片描述
先写base_url 然后加入headers 参数是headers = headers ,一样是写成字典的形式

网络超时

为request的 timeout参数设置等待描述,如果服务器在指定时间之内没有应答就返回异常
在这里插入图片描述

解析网页

BeautifulSoup 简介

bs用来解析网页,支持CSS 选择器,Python 标准库中的HTML 解析器

from bs4 import BeautifulSoup
soup = BeautifulSoup("<html>A Html Text</html>","html.parasr")
两个参数:第一个是文本,第二个是解释器
soup.prettify() 格式化输出

BeautifulSoup 四大对象

BeautifulSoup 将HTML 文档转换成一个复杂的树形结构,每个节点都是一个Pyhton 对象
它们分别是:tag, NavigableString, BeautifulSoup, Comment

Tag:

在这里插入图片描述
有两个属性: name 和attrs

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>tag.name
# 'b'tag['class']
# 'boldest'tag.attrs
# {'class': 'boldest'}type(tag.attrs)
# <class 'dict'>

NavigableString

bs 用NavigableString 来包装夹在tag 中间的的字符串。
但是字符串中间不能包含其他的tag

soup = BeatutifulSoup('<b class="boldest">Extremely bold</b>')
s = soup.b.string
print(s)        # Extremely bold
print(type(s))  # <class 'bs4.element.NavigableString'>
这个 s 就是一个 NavigableString 对象

BeautifulSoup

BeautifulSoup 对象表示的是一个文档的全部内容。大部分时候,可以把它当作 Tag 对象。但是 BeautifulSoup 对象并不是真正的 HTM L或 XML 的 tag,它没有attribute属性,name 属性是一个值为“[document]”的特殊属性。

Comment

一般表示 文档的注释部分

soup = BeautifulSoup("<b><!--This is a comment--></b>")
comment = soup.b.string
print(comment)          # This is a comment
print(type(comment))    # <class 'bs4.element.Comment'>

遍历文档树

搜索文档树

CSS 选择器

http://www.dtcms.com/a/457370.html

相关文章:

  • javaweb配置(自用)
  • VS Code行为数据的A/B测试方法论
  • JavaScript进阶篇:DOM核心知识解读
  • 网站吸流量wordpress isux主题
  • C++学习记录(16)红黑树
  • 前后端Long类型ID精度丢失问题
  • 微信小程序,组件中使用全局样式
  • 做网站必须要认证吗poi player wordpress
  • pytest+requests+allure生成接口自动化测试报告
  • leetcode 2300 咒语和药水的成功对数
  • 湖南城乡建设部网站首页长沙网红店
  • 从 0 到 1 搭建实时数据看板:RabbitMQ+WebSocket 实战指南
  • Linux(含嵌入式设备如泰山派)VNC 完整配置指南:含开机自启动(适配 Ubuntu/Debian 系)
  • 网站营销活动泰安市高新区建设局网站
  • 玳瑁的嵌入式日记 --------API总结
  • [xboard] 26 kernel启动流程之initrd、initramfs、ramdisk核心异同
  • 鸿蒙实现滴滴出行项目之侧边抽屉栏以及权限以及搜索定位功能
  • 从OpenAI发布会看AI未来:中国就业市场的重构与突围
  • 乔拓云网站建设wps怎么做网站
  • TensorFlow2 Python深度学习 - TensorFlow2框架入门 - 立即执行模式(Eager Execution)
  • 监控系统2 - framebuffer
  • 大型网站响应式wordpress3.8.3
  • Django `models.Field` 所有常见配置参数的完整清单与说明表
  • 音乐播放器-单html文件
  • 18+网站推广平面设计师素材网站
  • 告别传统SEO!拥抱下一代流量密码:生成式引擎优化(GEO)实战指南
  • 不抽佣美团核销API接口,同时支持美团抖音核销,快速接入
  • 优化网站关键词的技巧建设银行忘记密码网站
  • 网站建设属于服务还是货物为什么asp.net做的网站上传后不显示照片
  • TT直流减速电机(STM32)