当前位置: 首页 > wzjs >正文

高端网站设计地址浙江省建设局网站

高端网站设计地址,浙江省建设局网站,广水网站定制,网站设计开发网站问题描述 在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset&…

问题描述

在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset,则在读取到对应位置时报错OSError: Corrupt snappy compressed data.

解决思路

一开始以为是单条数据错误,想把这条数据用try catch来handle住,失败。后来意识到,load_dataset加载的时候,进度条的数据量是跳变的,说明加载机制是读取每个parquet文件,读取完成后把这个文件的条目数加在总数上。能卡在一个具体的点上,说明出问题的是某一个parquet文件。于是检查每个parquet文件的校验码,发现某个文件校验失败。重新下载后,数据集可以正常加载,无论是否streaming.

反思

由于校验流程比较麻烦耗时,平时下载数据集一般只简单看一下文件大小是否正确,如果每个文件的数据大小都正确,就直接开始做。这次的教训说明,当文件多了之后,校验还是很重要的。以后应该写一个自动校验的程序,来确保下载的数据来源正确。

http://www.dtcms.com/wzjs/804464.html

相关文章:

  • 兰州网站建设多少钱wordpress权限管理
  • 哪些企业网站做的好电商网站开发主要的三个软件
  • 在线员工后台网站建设网页设计考试题目
  • 企业网站备案费用刚做的网站怎么
  • 用linux系统怎么自己建设网站网络销售公司
  • 网站开发人员招聘要求做网站设计的广告公司
  • 郑州最新政策济宁优化公司
  • 网站ip地址范围戏曲网站建设的可行性分析
  • 金融网站模版下载前端需要学什么语言
  • 合肥公司做网站个人做外包网站多少钱
  • 定西兰州网站建设智慧团建电脑版登录入口官网
  • 网站建设制作、微信公众号自行创建网站的平台
  • 都芳漆中文网站建设合肥建设厅官方网站
  • 中铁建设集团有几个局济南官网seo技术厂家
  • 盐城网站制作wordpress用微博sdk
  • 惠州做棋牌网站建设金融投资网站开发
  • 无极网站维护php网站怎么做的
  • 网站模块删除企业网站建设需要多少钱
  • 手机搭建网站教程打电话叫人做网站
  • 网站管理建设落实报告邢台网站建设58
  • 儿童网站html模板如何免费建造网站
  • 网站开发部门工资入什么科目桂林象鼻山介绍
  • python网站开发好吗抖音代运营朋友圈宣传文案
  • 如何做一网站创造网站
  • 唐山网站定制seo的宗旨是什么
  • 常州网站排名提升室内装修设计师怎么找
  • 微网站建设方式建设企业功能型网站
  • 大连市建设学校网站网站如何做分享
  • 网站备案主体变更杭州余杭网站建设
  • 猪八戒网做网站如何付款营销型网站建设 课程