当前位置：首页 > wzjs >正文

南阳做网站的公司百度搜索风云榜游戏

wzjs 2025/8/18 23:39:49

南阳做网站的公司,百度搜索风云榜游戏,高端网站建设公司推荐,网站建设要多久1. 起因， 目的: 继续做新闻爬虫。我之前写过。此文先记录2个新闻来源。后面打算进行过滤，比如只选出某一个类型新闻。 2. 先看效果过滤出某种类型的新闻，然后生成 html 页面，而且，自动打开这个页面。比如科技犯罪…

1. 起因，目的:

继续做新闻爬虫。我之前写过。
此文先记录2个新闻来源。
后面打算进行过滤，比如只选出某一个类型新闻。

2. 先看效果

过滤出某种类型的新闻，然后生成 html 页面，而且，自动打开这个页面。
比如科技犯罪类的新闻。

3. 过程:

代码 1 ，爬取东方网

很久之前写过，代码还能用。
这里虽然是复制一下，也是为了自己方便。

import os
import csv
import time
import requests"""
# home: https://sh.eastday.com/
# 1. 标题, url， 来源，时间
"""headers = {'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36'
}def get_data(pages):file_name = '5.8.400.csv'             # 400个标题。has_file =  os.path.exists(file_name)# 打开文件，写入模式with open(file_name, 'a', newline='', encoding='utf-8') as file:# 创建一个csv.DictWriter对象，用于写入字典数据columns = ['title', 'url', 'time','source']writer = csv.DictWriter(file, fieldnames=columns)# 写入表头if not has_file:writer.writeheader()# 爬取数据. 默认是 20页，每页20条。 每天大概有400个新闻。for i in range(pages):print(f"正在爬取第{i+1} / {pages}页数据")time.sleep(0.5)url = f"https://apin.eastday.com/apiplus/special/specialnewslistbyurl?specialUrl=1632798465040016&skipCount={i * 20}&limitCount=20"resp = requests.get(url, headers=headers)if resp.status_code!= 200:print(f"请求失败：{resp.status_code}")breakret = resp.json()junk = ret['data']['list']for x in junk:item = dict()# print(x)item["time"] = x["time"]item['title'] = x["title"]item["url"] = x["url"]item["source"] = x["infoSource"]# 写入数据writer.writerow(item)# print(item)get_data(pages=20)

代码 2 ，爬取，澎湃新闻

也是很简单。

import os
import csv
import time
import requests
from datetime import datetime, timedelta# 请求头
headers = {'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/136.0.0.0 Safari/537.36','Content-Type': 'application/json',  # 响应头要求 Content-Type'Referer': 'https://www.thepaper.cn/',  # 引荐来源，遵循 strict-origin-when-cross-origin'Origin': 'https://www.thepaper.cn'  # 跨域请求需要 Origin
}def get_thepaper_data(file_name='peng_pai_400.csv', max_pages=100, channel_id='-8'):"""爬取澎湃新闻数据，保存到 CSV 文件参数：file_name: 输出 CSV 文件名max_pages: 最大爬取页数channel_id: 新闻频道 ID"""# 检查文件是否存在has_file = os.path.exists(file_name)# 打开 CSV 文件，追加模式with open(file_name, 'a', newline='', encoding='utf-8') as file:columns = ['title', 'url', 'time', 'source']writer = csv.DictWriter(file, fieldnames=columns)if not has_file:writer.writeheader()# 计算 startTime（当前时间戳）current_time = int(time.time() * 1000)  # 当前毫秒时间戳start_time = current_time  # 使用此时此刻的时间# 爬取数据for page in range(1, max_pages + 1):time.sleep(0.5)  # 请求间隔payload = {'channelId': channel_id,'excludeContIds': [],  # 留空，需根据实际需求调整'province': '','pageSize': 20,'startTime': start_time,'pageNum': page}url = 'https://api.thepaper.cn/contentapi/nodeCont/getByChannelId'resp = requests.post(url, headers=headers, json=payload, timeout=10)if resp.status_code != 200:print(f"请求失败：{url}, 状态码: {resp.status_code}, 页码: {page}")breakret = resp.json()# print(f"页面 {page} 响应：{ret}")news_list = ret['data']['list']for item in news_list:# print(item)news = {}news['title'] = item.get('name', '')news['url'] = f"https://www.thepaper.cn/newsDetail_forward_{item.get('originalContId', '')}"news['time'] = item.get('pubTimeLong', '')news['source'] = item.get('authorInfo', {}).get('sname', '澎湃新闻')# 转换时间格式（如果 API 返回时间戳）news['time'] = datetime.fromtimestamp(news['time'] / 1000).strftime('%Y-%m-%d %H:%M:%S')# 直接写入，不去重writer.writerow(news)print(f"保存新闻：{news}")if __name__ == "__main__":get_thepaper_data(file_name='peng_pai_400.csv', max_pages=20, channel_id='-8')

4. 结论 + todo

1 数据来源，还需要增加。可选项：

- 上观新闻 shobserver.com   与解放日报关联，报道上海本地案件。
- 新浪新闻 news.sina.com.cn  全国性新闻，包含科技犯罪。
- 腾讯新闻 news.qq.com       聚合多种来源，覆盖广泛。

聚合。提取出自己感兴趣的新闻，比如，科技犯罪。

希望对大家有帮助。

查看全文

http://www.dtcms.com/wzjs/398117.html

怎么查一个网站做的外链互联网推广方式有哪些

wordpress用户注册没有收到邮箱宁波seo外包推广平台

b2c电商平台的特点有哪些什么软件可以优化关键词

阿里巴巴做网站教程最近新闻热点大事件

如何做网站报价百度seo怎么做网站内容优化

网站建设电子商务课总结和体会网络舆情分析报告范文

模板网站建设价格网站网址大全

如何建立免费的网站百度网址大全下载到桌面

新乐网站建设seo推广软件排行榜前十名

视频网站开发博客园百度搜索提交入口

佛山网站建设公司怎么样营销运营主要做什么

我的三次做网站的经历重庆黄埔seo整站优化

网站建设未来发展前景泉州seo培训

做网站banner教育培训平台

商城网站栏目电脑优化软件推荐

福永网站建设公司哪家好谷歌seo博客

网站建设公司发展吴忠seo

做c2c网站的弊端论述搜索引擎优化的具体措施

中国做外贸网站有哪些佛山网站优化软件

长沙网站推广公司我的百度账号

企业网站建站系统搜索引擎网站入口

网站备案图标代码营销是什么

中文网站外链查询工具b站网页入口

代做机械设计的网站成都网站seo推广

江苏网站备案要多久东莞网络公司代理

把域名解析到其他网站的ip上海网站seo快速排名

不符合网站外链建设原则的是网络营销推广8种方法

vs网站毕业设计怎么做seo网站优化优化排名

象刀设计网站上海网络推广

建e室内设计网玄关seo引擎优化方案

1. 起因， 目的: