当前位置：首页 > news >正文

python爬虫(二) ---- JS动态渲染数据抓取

news 2025/10/7 5:30:46

python爬虫之JS动态渲染数据抓取

一、环境准备
二、爬取思路
三、代码示例
四、结果展示

一、环境准备

练习地址: https://spa1.scrape.center/page/1
requests：发出请求
pandas：保存数据到 csv文件

依赖安装命令:

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

二、爬取思路

JS动态渲染的数据是前后端分离的, 直接通过地址无法获取到具体的数据, 需要找到数据返回的api, 然后通过requests请求api拿到数据(一般为json数据), 最后进行解析获取想要的内容
在浏览器开发者模式中, 选中网络 -> Fetch/XHR, 找到api, 如下图所示:
分析这个json结构, 解析出需要的内容

三、代码示例

import requests
import pandas as pddef request(url):r = requests.get(url);return r.json();def parseJson(json_data):movie_list = []results = json_data['results']for result in results:movie_info = {'name': f"{result['name']} - {result['alias']}",'categories': ','.join(result['categories']),'location': ','.join(result['regions']),'duration': result['minute'],'release_date': result['published_at'],'score': result['score']}movie_list.append(movie_info)return movie_listdef save(data):df = pd.DataFrame(data);# 设置表头df.columns = ['电影名', '类型', '地域', '时长', '上映时间', '评分'];df.to_csv("data_js.csv", index=False, encoding='utf-8-sig');if __name__ == '__main__':# 发出请求jsonData = request('https://spa1.scrape.center/api/movie/?limit=10&offset=0')print(f'获取jsonData成功..')# 解析jsonmovie_list = parseJson(jsonData);print('解析json成功..')# 存储数据save(movie_list)print('写入文件成功...')