当前位置: 首页 > news >正文

爬虫小案例csv写入

 

1.csv简单小案例

import csv

header = ['姓名', '年龄', '性别']
data = [
    ['张三', 25, '男'],
    ['李四', 35, '女']
]
# newline=''消除空行
with open('数据写入.csv', 'w', encoding='gbk', newline='')as f:
    # 第一步 实例化写入对象
    w = csv.writer(f)
    # 第二部写入表头
    w.writerow(header)
    # 第三步 写入多行数据
    w.writerows(data)

    # PermissionError: [Errno 13] Permission denied: '数据写入.csv'
    # 文件未关闭

2.实战-腾讯招聘信息(仅供学习考)

import requests, jsonpath, time, csv


class Start(object):
    # 类实例化时会执行
    def __init__(self):
        self.headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
        }
        self.sum_list = []
        self.h = [
            '招聘职位',
            '国家',
            '地区',
            '类别',
            '任务',
            '最新日期',
            '工作需求'
        ]

    def get_html(self, index):
        print(f'当前页数{index}============')
        url = f'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp={int(time.time() * 1000)}&countryId=&cityId=&bgIds=&productId=&categoryId=40001001&parentCategoryId=&attrId=&keyword=&pageIndex={index}&pageSize=10&language=zh-cn&area='
        response = requests.get(url, headers=self.headers)
        # 提取数据
        json_data = response.json()  # 将响应当中的内容取成json格式  字典   列表

        # 解析数据
        RecruitPostName = jsonpath.jsonpath(json_data, '$..RecruitPostName')  # 匹配时不能有空格
        CountryName = jsonpath.jsonpath(json_data, '$..CountryName')
        LocationName = jsonpath.jsonpath(json_data, '$..LocationName')
        CategoryName = jsonpath.jsonpath(json_data, '$..CategoryName')
        Responsibility = jsonpath.jsonpath(json_data, '$..Responsibility')
        LastUpdateTime = jsonpath.jsonpath(json_data, '$..LastUpdateTime')
        RequireWorkYearsName = jsonpath.jsonpath(json_data, '$..RequireWorkYearsName')
        # 整合数据
        for i in zip(RecruitPostName, CountryName, LocationName, CategoryName, Responsibility, LastUpdateTime,
                     RequireWorkYearsName):
            lis = [i[0],
                   i[1],
                   i[2],
                   i[3],
                   i[4].replace('\r', '').replace('\n', ''),
                   i[5],
                   i[6]]
            self.sum_list.append(lis)

    def save_csv(self):
        # print(self.sum_list)
        with open('腾讯招聘.csv', 'w', encoding='gbk', newline='')as f:
            # 第一步 实例化写入对象
            w = csv.writer(f)
            # 第二部写入表头
            w.writerow(self.h)
            # 第三步 写入多行数据
            w.writerows(self.sum_list)


if __name__ == '__main__':
    s = Start()  # 实例化类对象
    for index in range(1, 11):
        s.get_html(index)

        s.save_csv()

3.当当网书籍信息,上传到资源

相关文章:

  • 【多模态处理篇三】【DeepSeek语音合成:TTS音色克隆技术揭秘】
  • 1.27作业
  • C语言的内存分配:malloc和free
  • 【精调】LLaMA-Factory 快速开始4 自定义个一个sharegpt数据集并训练
  • 使用 C++ 和 gRPC 的常见陷阱及解决方案
  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_atoi 函数
  • 自注意力机制和CNN的区别
  • 安装Bash completion解决tab不能补全问题
  • 普通人怎样用好Deepseek?
  • leetcode刷题记录(一百一十六)——5. 最长回文子串
  • AutoGen 技术博客系列 九:从 v0.2 到 v0.4 的迁移指南
  • 【多语言生态篇四】【DeepSeek×Rust:安全内存管理实践】
  • 断开ssh连接程序继续运行
  • 【进程 】
  • Windows系统本地部署DeepSeek-R1+本地知识库+联网搜索+Agent功能
  • 每日定投40刀BTC(4)20250218 - 20250222
  • Linux 驱动入门(5)—— DHT11(温湿度传感器)驱动
  • 迎接2025,立个flag
  • uniapp 中使用天地图,安卓端、h5
  • 解析多模态、Agent与Code模型的演进
  • AI世界的年轻人|“热潮下要有定力”,她的目标是让机器人真正步入家庭
  • 贵州黔西市游船倾覆事故发生后,多家保险公司紧急响应
  • 上海今日降雨降温,节后首个工作日气温回升最高可达28℃
  • AI世界的年轻人|横跨教育与产业,他说攻克前沿问题是研究者的使命
  • 老人误操作免密支付买几百只鸡崽,经济日报:支付要便捷也要安全
  • 5名中国公民在美国交通事故中遇难