当前位置: 首页 > news >正文

机器学习数据处理

1.将xslx转为csv格式

import os
import pandas as pddef xlsx_to_csv_recursive(root_folder, output_root=None):"""递归转换文件夹及其所有子文件夹中的 xlsx 文件Parameters:root_folder (str): 包含xlsx文件的根文件夹路径output_root (str, optional): 输出csv文件的根文件夹路径,如果为None则保存在原文件夹"""# 如果没有指定输出文件夹,则使用原文件夹作为输出位置if output_root is None:output_root = root_folder# 使用os.walk递归遍历根文件夹及其所有子文件夹# root: 当前遍历的文件夹路径# dirs: 当前文件夹中的子文件夹列表# files: 当前文件夹中的文件列表for root, dirs, files in os.walk(root_folder):# 计算当前文件夹相对于根文件夹的相对路径# 例如:如果root_folder是"C:/data",当前root是"C:/data/subfolder"# 那么relative_path就是"subfolder"relative_path = os.path.relpath(root, root_folder)# 构建对应的输出文件夹路径# 将相对路径添加到输出根目录下output_folder = os.path.join(output_root, relative_path)# 如果输出文件夹不存在,则创建它(包括所有必要的父目录)if not os.path.exists(output_folder):os.makedirs(output_folder)# 遍历当前文件夹中的所有文件for filename in files:# 检查文件是否为Excel格式(.xlsx或.xls)if filename.endswith('.xlsx') or filename.endswith('.xls'):# 构建完整的Excel文件输入路径xlsx_path = os.path.join(root, filename)# 构建CSV输出文件名:将原文件扩展名替换为.csv# os.path.splitext将文件名分割为(名称,扩展名)# 例如:"data.xlsx" -> ("data", ".xlsx")csv_filename = os.path.splitext(filename)[0] + '.csv'# 构建完整的CSV文件输出路径csv_path = os.path.join(output_folder, csv_filename)try:# 使用pandas读取Excel文件# pd.read_excel会自动处理xlsx和xls格式df = pd.read_excel(xlsx_path)# 将DataFrame保存为CSV文件# index=False: 不保存行索引# encoding='utf-8-sig': 使用带BOM的UTF-8编码,确保中文等特殊字符正确显示df.to_csv(csv_path, index=False, encoding='utf-8-sig')# 打印成功信息,显示相对路径和文件名print(f"成功转换: {os.path.join(relative_path, filename)}")except Exception as e:# 如果转换过程中出现错误,捕获异常并打印错误信息print(f"转换失败 {filename}: {str(e)}")# 使用方法
# 请将下面的路径替换为你的实际文件夹路径
root_folder = "D:\Code\python\pro01\故宫数据"  # 例如: "C:/我的文档/Excel数据" 或 "./data"# 调用函数开始转换
xlsx_to_csv_recursive(root_folder, "故宫数据csv")# 可选:如果你想将CSV文件保存到不同的文件夹,可以指定output_root参数
# xlsx_to_csv_recursive(root_folder, "输出文件夹路径")

2.数据标准化处理

http://www.dtcms.com/a/465178.html

相关文章:

  • 学习笔记: 从C语言基础到Python基础的过渡
  • C语言编写、测试、维护、审查规范
  • 公司网站建设价格标准东莞产品网络推广
  • 从KPI入手,全面掌握LTE网络性能测试与优化
  • 基于LLaMA-Factory的LoRA微调实战与性能剖析​
  • 网络层协议之VRRP协议
  • 3.2 无连接传输: UDP
  • 利用R语言绘制直方图
  • Transformer Decoder 中序列掩码(Sequence Mask / Look-ahead Mask)
  • 《R for Data Science (2e)》免费中文翻译 (第9章) --- Layers(2)
  • php集成VSCode开发
  • 邯郸市民网企业网站优化公司有哪些
  • 陕西 餐饮 网站建设外贸网站建设公司价格
  • 开源书签管理器Faved
  • 【全开源】企业微信SCRM社群营销高级版系统+uniapp前端
  • 深入浅出MATLAB数据可视化:超越plot()
  • 基于IMBT框架的定制开发开源AI智能名片S2B2C商城小程序直播营销规范化研究
  • 开源 C++ QT QML 开发(十五)通讯--http下载
  • 【CANN训练营】+开源之星+GitCode算子开发环境快速搭建手册
  • 西安网站建设网站网站集约化建设
  • 设计网站名称wordpress无法发送
  • python获取国内股票数据
  • Win64下MSYS2开发环境完整配置指南
  • Linux进程第九讲——进程状态深度解析(三):僵尸进程(Z态)的本质、风险与实验验证
  • 系统之间文件同步方案
  • VTK实战:vtkImplicitSelectionLoop——用隐式函数实现“环选”的核心逻辑与工程实践
  • 使用compose和WheelView实现仿IOS中的3D滚轮控件-三级联动
  • Burpsuite工具使用
  • 做网站设计电脑需要什么配置企业如何建设网站呢
  • 旅游网站制作内容淘宝网站小视频怎么做的