当前位置: 首页 > news >正文

Python爬虫之爬取并下载哔哩哔哩视频

亲自使用过,太好用了

# 导入requests模块,模拟发送请求
import requests
# 导入json
import json
# 导入re
import re

# 定义请求头
headers = {
    'Accept': '*/*',
    'Accept-Language': 'en-US,en;q=0.5',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
}


# 正则表达式,根据条件匹配出值
def my_match(text, pattern):
    match = re.search(pattern, text)
    print(match.group(1))
    print()
    return json.loads(match.group(1))


def download_video(old_video_url, video_url, audio_url, video_name):
    headers.update({"Referer": old_video_url})
    print("开始下载视频:%s" % video_name)
    video_content = requests.get(video_url, headers=headers)
    print('%s视频大小:' % video_name, video_content.headers['content-length'])
    audio_content = requests.get(audio_url, headers=headers)
    print('%s音频大小:' % video_name, audio_content.headers['content-length'])
    # 下载视频开始
    received_video = 0
    with open('%s_video.mp4' % video_name, 'ab') as output:
        while int(video_content.headers['content-length']) > received_video:
            headers['Range'] = 'bytes=' + str(received_video) + '-'
            response = requests.get(video_url, headers=headers)
            output.write(response.content)
            received_video += len(response.content)
    # 下载视频结束
    # 下载音频开始
    audio_content = requests.get(audio_url, headers=headers)
    received_audio = 0
    with open('%s_audio.mp4' % video_name, 'ab') as output:
        while int(audio_content.headers['content-length']) > received_audio:
            # 视频分片下载
            headers['Range'] = 'bytes=' + str(received_audio) + '-'
            response = requests.get(audio_url, headers=headers)
            output.write(response.content)
            received_audio += len(response.content)
    # 下载音频结束
    return video_name


if __name__ == '__main__':
    # 换成你要爬取的视频地址
    url ='https://www.bilibili.com/video/BV1zK4y1B7Z8/?share_source=copy_web'
    # 发送请求,拿回数据
    res = requests.get(url, headers=headers)
    # 视频详情json
    playinfo = my_match(res.text, '__playinfo__=(.*?)</script><script>')
    # 视频内容json
    initial_state = my_match(res.text, r'__INITIAL_STATE__=(.*?);\(function\(\)')
    # 视频分多种格式,直接取分辨率最高的视频 1080p
    video_url = playinfo['data']['dash']['video'][0]['baseUrl']
    # 取出音频地址
    audio_url = playinfo['data']['dash']['audio'][0]['baseUrl']
    video_name = initial_state['videoData']['title']
    print('视频名字为:video_name')
    print('视频地址为:', video_url)
    print('音频地址为:', audio_url)
    download_video(url, video_url, audio_url, video_name)

它可以爬取并下载视频文件和音频文件!

更多资源已上传https://www.123pan.com/s/f83gjv-cLsod.html 提取码:4G4q

相关文章:

  • 剪枝例题一道
  • 10 | MySQL为什么有时候会选错索引?
  • 如何在一个pycharm项目中创建jupyter notebook文件,并切换到conda环境中
  • 数据结构之顺序表及其实现!
  • 存算一体成为突破算力瓶颈的关键技术?
  • SpringCloud-MQ消息队列
  • 从零开始手写RPC框架(4)
  • 【操作系统学习笔记】文件管理2.1
  • Git 开源的版本控制系统-06-share to github 如何把项目代码共享到 github
  • 设计模式 工厂模式
  • LeetCode904:水果成篮
  • 智能革新:2024年AI辅助研发的挑战、机遇与未来展望
  • 在职场上,如何提升影响力
  • 七、软考-系统架构设计师笔记-数据库设计基础知识
  • 类复习【C#】
  • 【敬伟ps教程】文字处理工具
  • c#触发事件
  • Spring Boot 注解教程
  • SMT32 TIM1 PWM(发送固定脉冲数)步进电机梯形图加速
  • 深入理解nginx一致性哈希负载均衡模块[上]
  • 两部门发布山洪灾害气象预警:北京西部、河北西部等局地山洪可能性较大
  • “子宫内膜异位症”相关论文男性患者样本超六成?福建省人民医院发布情况说明
  • 长三角多地重启游轮跨市游,“恢复苏杭夜航船”呼声又起
  • 观察|22项达全球最优,世行为上海营商环境“盖章”
  • 默茨当选德国总理
  • 福特汽车撤回业绩指引,警告关税或造成15亿美元利润损失