当前位置: 首页 > news >正文

[Python练习]使用Python爬虫爬取豆瓣top250的电影的页面源码

1.安装requests第三方库

在终端中输入以下代码(直接在cmd命令提示符中,不需要打开Python)

pip install requests -i https://pypi.douban.com/simple/

从豆瓣网提供的镜像网站下载requests第三方库

pip install requests

是从国外网站下载,速度慢甚至有时候无法下载

2.导入第三方库

import requests

3.编写代码

import requests

response = requests.get('https://movie.douban.com/top250')
print(response.text)  # 打印返回的原始HTML

4.运行

运行代码之后,没反应,无输出结果

可以看一下返回的页面请求状态码是多少:

状态码是418,所有4开头的状态码都表示客户端错误,也就是说我们这边发送的请求存在问题。418状态码表示服务器不想响应你的请求。

但是我们的请求并没有问题。其实,这里是豆瓣在用这个状态码回应爬虫:希望服务正常的浏览器而不是爬虫程序的请求

遇到这种情况,可以绕过去的一个方法就是可以定义请求头,把程序伪装成浏览器

可以新建一个叫做headers的字典变量,请求头的User-Agent里面会给服务器提供一些客户端的信息。所以要去指定User-Agent的值

现在的问题是User-Agent的值是什么?

我们可以从浏览器发送的请求里去“抄作业”

回到浏览器,进入任何一个页面,右键,点击检查

找到“网络”或network。

刷新一下网页,这样你就能看到浏览器发出的所有http请求。随便点击一个请求,找到User-Agent

把冒号后边的信息复制下来到代码中

修改代码为:

import requests

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
}

response = requests.get('https://movie.douban.com/top250',headers=headers)
print(response.status_code)

运行成功

现在,获取豆瓣top250的电影的页面源码:

import requests

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
}

response = requests.get('https://movie.douban.com/top250',headers=headers)
print(response.text)

相关文章:

  • 怎么修改或移除WordPress后台仪表盘概览底部的版权信息和主题信息?
  • What is `HttpServletRequestWrapper` does?
  • Mac ❀ 如何在MacOS上安装pip软件包
  • 为什么要用B+树
  • 初识MySQL
  • chrome 307状态码
  • Elasticsearch:聊天机器人教程(二)
  • 基于Docker官方php:7.4.33-fpm镜像构建支持67个常见模组的php7.4.33镜像
  • AI对决:ChatGPT与文心一言的比较
  • 2024年【陕西省安全员A证】考试题及陕西省安全员A证模拟考试题库
  • C++(1) —— 基础语法入门
  • 【生存技能】git操作
  • 文心一言 vs. ChatGPT:哪个更胜一筹?
  • linux安装QQ(官方正版)
  • wins安装paddle框架
  • 【数据库原理】(29)数据库设计-需求分析阶段
  • 蓝桥杯准备
  • 【K8s学习】
  • Docker RTMP服务器搭建与视频流推送示例(流媒体服务器tiangolo/nginx-rtmp,推流客户端ffmpeg)
  • 如何在网络爬虫中解决CAPTCHA?使用Python进行网络爬虫
  • 巴方:印度上周导弹袭击造成至少40名平民死亡
  • 睡觉总做梦是睡眠质量差?梦到这些事,才要小心
  • 牧原股份子公司与养殖户种猪买卖纠纷案一审胜诉
  • 金价大跌!足金饰品每克一夜便宜14元,涨势是否已终结?
  • 中国恒大:清盘人向香港高等法院申请撤回股份转让
  • 金俊峰已跨区任上海金山区委副书记