当前位置: 首页 > news >正文

【爬虫】逆向爬虫初体验之爬取音乐

寻找数据

打开F12中的网络页面,播放音乐后,筛选媒体,会发现当前这首歌曲音频链接地址,打开后,点击“标头”就能能看到请求URL
在这里插入图片描述
截取“.mp3”前面的一部分进行搜索,搜索出来了很多数据包,但都是重复的,其实只有两个。一个就是我们已经找到的音频链接,另一个就是网易云音乐的接口文件
在这里插入图片描述
打开这个“v1”数据包,在标头可以看到他的请求URL,在负载
可以看到有两个表单数据分别是paramsencSecKey
在这里插入图片描述
在这里插入图片描述
在预览页面中,可以看到请求的返回值,是一个JSON格式的数据,而我们要的音乐链接就是url所对应的值
在这里插入图片描述

代码实现

有了上面这些请求数据,我们可以用代码来向网易云音乐发送请求,然后下载歌曲到本地。其中,headers里的cookie需要在标头中的“请求标头”中复制,这里我就不展示我的cookie了。代码模拟浏览器给网易云音乐发送请求,获取到一个json数据,从中找到所需要的url,接着向这个url发送请求进一步获取二进制的音频内容,然后以二进制写入的方式打开文件,把音乐保存到了本地。

import requestsheaders = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0","referer":"https://music.163.com/","cookie":your_cookie
}
def download_music():url = "https://music.163.com/weapi/song/enhance/player/url/v1?csrf_token=528a132e63865dc4c681934d2a7bb31f"data = {"params":"sZ3h9aF5g8SsP4JiHaXuJqi4E+V+aP/ut4FZfUkzOi0bJbr2N7/PvLx3xTcrAeu05Bcb+LG2c77NKfZ01ShNSMYBd8iVxGggg2QFkM8Enes/2kqHwYziVSFB0dHl3NgY2SSBadA2UwJrt28eDXNDsiIATRORvGkCCFmXDEJXCb83sqJWJixEB2sE57L2jZ5oesC9Dsv1mHczuPyC7+OZYw==","encSecKey":"16c8e6d77d5831c34d374bf7c4c9fbf1993cdd0145eb9dcf2eeca8cdf037edda15c0f58c36c60b3765ee7087d6df32e3cf37976e0fe4bc4dfd4e4acf06e45e73317d8b9d4f27941076c5bf334f5456f687854797e2966a14a2fe0bc27592dc5a5553d6ad8339b4fd0e9094726d8633c06f2fdf16a0f90b94103ce79dab78c5f7"}response = requests.post(url=url,data=data,headers=headers)json_data = response.json()music_url = json_data["data"][0]["url"]music_content = requests.get(url=music_url,headers=headers).content# 向音频链接发起请求,获取二进制的音频内容with open(f"music.mp3","wb") as f:# 以二进制写入的方式打开文件,写入音频内容f.write(music_content)print("下载成功")
download_music()

逆向解密

上面的代码是我们在已知paramencSecKey这两个数据的情况下实现下载音频文件。通过尝试下载其他歌曲也不难看出,只要提供正确的paramencSecKey我们就能下载到所对应的音乐了。而这两个值到底从何而来呢?
在搜索框中搜索"encSecKey",我们找到了一个JS文件
在这里插入图片描述
点击后在响应面板中右键,在源面板中打开
在这里插入图片描述
在源代码页面进行搜索,找到了一段代码
在这里插入图片描述

var bVz9q = window.asrsea(JSON.stringify(i9b), bsC6w(["流泪", "强"]), bsC6w(BA5F.md), bsC6w(["爱心", "女孩", "惊恐", "大笑"]));
e9f.data = j9a.cr0x({params: bVz9q.encText,encSecKey: bVz9q.encSecKey
})

从这个代码可以看出,我们要找的paramsencSecKey来自于一个名为bVz9q的对象中。而他又来自于一个window.asrsea的函数。
给这行代码打上断点,鼠标悬停在asrsea上。
在这里插入图片描述
我们直接定位到了这个函数所在的地方,点击蓝色下划线的文字跳转
在这里插入图片描述
跳转到了一个名为d的函数,原来这个window.asrsea就是d
函数d中需要传入四个参数分别是a,b,c,d,而在刚刚调用部分的代码中,我们可以看到他传入的四个参数分别为

  • JSON.stringify(i9b)
  • bsC6w([“流泪”, “强”])
  • bsC6w(BA5F.md)
  • bsC6w([“爱心”, “女孩”, “惊恐”, “大笑”])
    其中,在控制台输入后面四个参数,我们得到的都是如下的定值
    在这里插入图片描述
    而第一个参数中的i9b比较特殊,通过断点调试发现这是一个变化的值。网易云音乐的所有接口都会经过这一行代码,而在播放音乐后我们找到了一个i9b的值如下图
    在这里插入图片描述
    这个值就是在调用音频接口时候的值,不难看出,这个i9b中的编号就是歌曲网址中最后的那一串数字。至于csrf_token,这其实是一个固定值,他就是请求URL最后的那串东西。这么一来问题就迎刃而解了。
    我们只要有歌曲的id就能得到i9b,然后把JSON.stringify(i9b)和其余三个参数传入到asrsea获得加密的数据——paramsencSecKey然后作为负载发送请求给网易云音乐,就能下载到歌曲了。
    在这个js代码中,把相应加密的代码复制下来到本地的js文件。
    最后我们定义如下函数方便通过python中的execjs模块调用。
function json_encode(i9b){return JSON.stringify(i9b);
}

完整的js文件太大了就不展示了。

批量下载

现在已经可以实现通过歌曲id下载到对应的歌曲了,而如果想实现批量下载也非常简单。只要获取到歌单的url然后发送请求,通过re正则表达式提取出页面中的歌曲超链接中的歌曲id,然后分别下载这些歌曲id对应的音频文件就行了。

完整代码

下面附上完整的代码

import requests
import execjs
import reheaders = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0","referer":"https://music.163.com/","cookie":your_cookie
}
def download_music(music_id,music_name):# 编译js代码js_code = execjs.compile(open("爬网易云/网易.js",encoding = 'utf-8').read())#加密参数i9b = {"ids": '', "level": 'exhigh', "encodeType": 'aac', "csrf_token": '528a132e63865dc4c681934d2a7bb31f'}i9b['ids'] = f"[{music_id}]"# 调用解密函数e = '010001';f = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7';g = '0CoJUm6Qyw8W8jud';i9b = js_code.call("json_encode",i9b)rdata = js_code.call("asrsea", i9b,e,f,g)url = "https://music.163.com/weapi/song/enhance/player/url/v1?csrf_token=528a132e63865dc4c681934d2a7bb31f"data = {"params":rdata["encText"],"encSecKey":rdata["encSecKey"]}response = requests.post(url=url,data=data,headers=headers)json_data = response.json()music_url = json_data["data"][0]["url"]music_content = requests.get(url=music_url,headers=headers).content# 向音频链接发起请求,获取二进制的音频内容with open(f"爬网易云/music/{music_name}.mp3","wb") as f:# 以二进制写入的方式打开文件,写入音频内容f.write(music_content)def get_info_list(list_id):list_url = f"https://music.163.com/playlist?id={list_id}"response = requests.get(url=list_url,headers=headers)html = response.text# <a href="/song?id=1360122230">花月</a>info = re.findall('<a href="/song\?id=(\d+)">(.*?)</a>',html)info_list = [[music_id,music_name] for music_id,music_name in info]return info_listdef get_song_name(music_id):url = f"https://music.163.com/song?id={music_id}"response = requests.get(url=url,headers=headers)html = response.text# <em class="f-ff2">花月</em>name = re.findall('<em class="f-ff2">(.*?)</em>',html)[0]return namemode = input("选择爬取模式:\n 1.单曲下载 \n 2.批量下载\n")if __name__ == '__main__':if mode == "1":music_id = input("请输入歌曲ID:")music_name = get_song_name(music_id)download_music(music_id,music_name)print(f"《{music_name}》下载完成")elif mode == "2":list_id = input("请输入歌单ID:")info_list = get_info_list(list_id)for music_id,music_name in info_list:download_music(music_id,music_name)print(f"《{music_name}》下载完成")print("批量下载完成")
http://www.dtcms.com/a/267182.html

相关文章:

  • 408第三季part2 - 计算机网络 - 物理层
  • 由coalesce(1)OOM引发的coalesce和repartition理解
  • 3dmax一键烘焙很多张贴图合并成一张贴图插件支持fbx/obj/blender多材质模型合并为一张贴图
  • OneCode自主UI设计体系:架构解析与核心实现
  • web前端面试-- MVC、MVP、MVVM 架构模式对比
  • Vue.js TDD开发深度指南:工具链配置与精细化测试策略
  • 爬虫工程师Chrome开发者工具简单介绍
  • Kafka消息积压的多维度解决方案:超越简单扩容的完整策略
  • 牛客刷题 — 【排序】[NOIP2010] 导弹拦截(排序枚举)
  • 光伏发电园区管理系统 - Three.js + Django 实现方案
  • React Hooks全面解析:从基础到高级的实用指南
  • 【论文解读】Referring Camouflaged Object Detection
  • SqueezeBERT:计算机视觉能为自然语言处理在高效神经网络方面带来哪些启示?
  • 7月5日星期六今日早报简报微语报早读
  • 在服务器上配置MQ注意的问题
  • Gartner《Stream Processing: 新一代数据处理范式》学习报告
  • Flink-状态恢复-isRestore分析
  • 使用影刀RPA实现每日消防巡检提醒
  • 常见高危端口风险分析与防护指南
  • PostgreSQL表操作
  • Python Fabric库【系统管理工具】全面讲解
  • MQTT与HTTP在物联网中的比较:为什么MQTT是更好的选择
  • Go语言的web框架--gin
  • 【解决“此扩展可能损坏”】Edge浏览器(chrome系列通杀))扩展损坏?一招保留数据快速修复
  • 编译ADI NO-OS工程
  • 【机器学习实战笔记 14】集成学习:XGBoost算法(一) 原理简介与快速应用
  • 数据可视化:图表选择与Python实战指南
  • 大数据在UI前端的应用探索:基于用户行为分析的产品优化策略
  • error C2338: YOU_MIXED_MATRICES_OF_DIFFERENT_SIZES
  • 【Modern C++ Part3】Understand-decltype