抖音 pc + 翻页
代码实现步骤:
request模块
1.发送请求模拟浏览器对于url地址发送请求
2.获取数据:获取服务器返回响应数据
3.解析数据:提取我们需要的数据内容
4.保存数据:把提取出来的数据保存到本地文件中
drissionpage模块
自动化模块:模拟人的行为对于浏览器进行操作
1.打开浏览器,访问网站
2.获取数据
3.解析数据
4.保存数据
drissionpage官方文档:DrissionPage官网https://www.drissionpage.cn/运行代码如下:
from DrissionPage import ChromiumPage
import requestsheaders = {'referer':'https://www.douyin.com/','user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36'}
dp = ChromiumPage()dp.listen.start('web/aweme/post/') # 监听
# 访问网站
dp.get('https://www.douyin.com/user/MS4wLjABAAAAx7--dRYA0mPwhwvxNJ-35i6sB8d1Kv4Sj1WmugquqiHK19QYlB18Ikx6cECT1RVO?from_tab_name=main')for page in range(1, 11):r = dp.listen.wait() print(f'正在采集第{page}页')json_data = r.response.bodyinfo_list = json_data['aweme_list']for index in info_list:try:# 标题title = index['desc']# 视频链接video_url = index['video']['play_addr']['url_list'][0]# 视频idvideo_id = index['aweme_id']video_content = requests.get(url=video_url, headers=headers).contentwith open(f'video\\{title}---{video_id}.mp4', 'wb') as f:f.write(video_content)print(title, video_url, video_id)except:passdp.scroll.to_see('css:.ayFW3zux')