当前位置：首页 > news >正文

python 上海新闻爬虫

news 2025/11/1 0:24:01

1. 起因，目的:

继续做新闻爬虫。我之前写过。
此文先记录2个新闻来源。
后面打算进行过滤，比如只选出某一个类型新闻。

2. 先看效果

过滤出某种类型的新闻，然后生成 html 页面，而且，自动打开这个页面。
比如科技犯罪类的新闻。

3. 过程:

代码 1 ，爬取东方网

很久之前写过，代码还能用。
这里虽然是复制一下，也是为了自己方便。

import os
import csv
import time
import requests"""
# home: https://sh.eastday.com/
# 1. 标题, url， 来源，时间
"""headers = {'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'
}def get_data(pages):file_name = '5.8.400.csv'             # 400个标题。has_file =  os.path.exists(file_name)# 打开文件，写入模式with open(file_name, 'a', newline='', encoding='utf-8') as file:# 创建一个csv.DictWriter对象，用于写入字典数据columns = ['title', 'url', 'time','source']writer = csv.DictWriter(file, fieldnames=columns)# 写入表头if not has_file:writer.writeheader()# 爬取数据. 默认是 20页，每页20条。 每天大概有400个新闻。for i in range(pages):print(f"正在爬取第{i+1} / {pages}页数据")time.sleep(0.5)url = f"https://apin.eastday.com/apiplus/special/specialnewslistbyurl?specialUrl=1632798465040016&skipCount={i * 20}&limitCount=20"resp = requests.get(url, headers=headers)if resp.status_code!= 200:print(f"请求失败：{resp.status_code}")breakret = resp.json()junk = ret['data']['list']for x in junk:item = dict()# print(x)item["time"] = x["time"]item['title'] = x["title"]item["url"] = x["url"]item["source"] = x["infoSource"]# 写入数据writer.writerow(item)# print(item)get_data(pages=20)

代码 2 ，爬取，澎湃新闻

也是很简单。

import os
import csv
import time
import requests
from datetime import datetime, timedelta# 请求头
headers = {'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36','Content-Type': 'application/json',  # 响应头要求 Content-Type'Referer': 'https://www.thepaper.cn/',  # 引荐来源，遵循 strict-origin-when-cross-origin'Origin': 'https://www.thepaper.cn'  # 跨域请求需要 Origin
}def get_thepaper_data(file_name='peng_pai_400.csv', max_pages=100, channel_id='-8'):"""爬取澎湃新闻数据，保存到 CSV 文件参数：file_name: 输出 CSV 文件名max_pages: 最大爬取页数channel_id: 新闻频道 ID"""# 检查文件是否存在has_file = os.path.exists(file_name)# 打开 CSV 文件，追加模式with open(file_name, 'a', newline='', encoding='utf-8') as file:columns = ['title', 'url', 'time', 'source']writer = csv.DictWriter(file, fieldnames=columns)if not has_file:writer.writeheader()# 计算 startTime（当前时间戳）current_time = int(time.time() * 1000)  # 当前毫秒时间戳start_time = current_time  # 使用此时此刻的时间# 爬取数据for page in range(1, max_pages + 1):time.sleep(0.5)  # 请求间隔payload = {'channelId': channel_id,'excludeContIds': [],  # 留空，需根据实际需求调整'province': '','pageSize': 20,'startTime': start_time,'pageNum': page}url = 'https://api.thepaper.cn/contentapi/nodeCont/getByChannelId'resp = requests.post(url, headers=headers, json=payload, timeout=10)if resp.status_code != 200:print(f"请求失败：{url}, 状态码: {resp.status_code}, 页码: {page}")breakret = resp.json()# print(f"页面 {page} 响应：{ret}")news_list = ret['data']['list']for item in news_list:# print(item)news = {}news['title'] = item.get('name', '')news['url'] = f"https://www.thepaper.cn/newsDetail_forward_{item.get('originalContId', '')}"news['time'] = item.get('pubTimeLong', '')news['source'] = item.get('authorInfo', {}).get('sname', '澎湃新闻')# 转换时间格式（如果 API 返回时间戳）news['time'] = datetime.fromtimestamp(news['time'] / 1000).strftime('%Y-%m-%d %H:%M:%S')# 直接写入，不去重writer.writerow(news)print(f"保存新闻：{news}")if __name__ == "__main__":get_thepaper_data(file_name='peng_pai_400.csv', max_pages=20, channel_id='-8')

4. 结论 + todo

1 数据来源，还需要增加。可选项：

- 上观新闻 shobserver.com   与解放日报关联，报道上海本地案件。
- 新浪新闻 news.sina.com.cn  全国性新闻，包含科技犯罪。
- 腾讯新闻 news.qq.com       聚合多种来源，覆盖广泛。

聚合。提取出自己感兴趣的新闻，比如，科技犯罪。

希望对大家有帮助。

查看全文

http://www.dtcms.com/a/177776.html

vue-grid-layout实现拖拽修改工作台布局

Qt/C++开发监控GB28181系统/警情订阅/目录订阅/报警事件上报/通道上下线

＜template＞标签的用法

基于Kubernetes的Apache Pulsar云原生架构解析与集群部署指南（下）

FastExcel 本地开发和Linux上上传Resource文件的差异性

kotlin JvmName注解的作用和用途

游戏引擎学习第264天:将按钮添加到分析器

VTK|.obj文件数据处理＋Jet/Viridis/CoolToWarm/Grayscale/Rainbow/风格颜色渲染

如何使用极狐GitLab 软件包仓库功能托管 helm chart？

实践005-Gitlab CICD全项目整合

Java并发编程几个问题的解答

在登录页面上添加验证码

超详细！RxSwift 中的 BehaviorRelay 使用教程（含原理 + 示例 + 实战）

NetSuite 如何得到所有Item最近一次采购订单的货品单价？

不再踩坑！React.memo正确用法及性能优化实战

AI时代企业应用系统架构的新思路与CIO变革指南

21、魔法传送阵——React 19 文件上传优化

轻量级证件照制作 AI 工具 HivisionIDPhotos 介绍

单片机自动排列上料控制程序下

DSP28335 串口中断收发及FIFO使用

剖析 FFmpeg：从基本功能到过滤器，实现音视频处理的灵活性

国内云内网接入方案

JAVA房屋租售管理系统房屋出租出售平台房屋销售房屋租赁房屋交易信息管理源码

linux中的常用命令(一)

运维打铁：服务器分类及PHP入门

ElasticSearch基本概念

手撕基于AMQP协议的简易消息队列-8（单元测试的编写）

【即插即用涨点模块】DSConv动态蛇形卷积：自适应聚焦细长弯曲的局部结构特征，助力分割高效提点【附源码+注释】

从简历筛选到面试管理：开发一站式智能招聘系统源码详解

JavaScript 性能优化全攻略：从基础到实战

1. 起因， 目的: