当前位置: 首页 > wzjs >正文

巨野网站定制个人网页设计

巨野网站定制,个人网页设计,个人可以做医疗信息网站吗,免费html网页源代码问题描述 在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset&…

问题描述

在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset,则在读取到对应位置时报错OSError: Corrupt snappy compressed data.

解决思路

一开始以为是单条数据错误,想把这条数据用try catch来handle住,失败。后来意识到,load_dataset加载的时候,进度条的数据量是跳变的,说明加载机制是读取每个parquet文件,读取完成后把这个文件的条目数加在总数上。能卡在一个具体的点上,说明出问题的是某一个parquet文件。于是检查每个parquet文件的校验码,发现某个文件校验失败。重新下载后,数据集可以正常加载,无论是否streaming.

反思

由于校验流程比较麻烦耗时,平时下载数据集一般只简单看一下文件大小是否正确,如果每个文件的数据大小都正确,就直接开始做。这次的教训说明,当文件多了之后,校验还是很重要的。以后应该写一个自动校验的程序,来确保下载的数据来源正确。

http://www.dtcms.com/wzjs/212569.html

相关文章:

  • 新乡网站建设win10系统优化工具
  • 关于电视剧的网站设计网页云南seo公司
  • 江油建设局网站免费访问国外网站的app
  • 盐城做网站找哪家好推广项目的平台
  • 水泥制品做阿里巴巴还是网站好外贸营销策略都有哪些
  • 重庆做汉堡的餐饮公司网站长沙网站seo推广公司
  • 瑞安企业做网站临沂seo整站优化厂家
  • 怎么把视频做成网页链接如何优化关键词提升相关度
  • wordpress 缩略图不显示网站seo博客
  • 网站如何做线上推广谷歌在线浏览器入口
  • 重生做二次元网站免费制作自己的网站
  • 柳州做网站那家好网页推广平台
  • 需要网站建设的是哪一类人在线seo短视频
  • 帮别人做网站开什么内容的专票seo外包服务
  • android 不装插件 wordpress关键词优化快速
  • 永州高端网站建设网站建设哪家好公司
  • wordpress变英文北京seo优化排名
  • 中国最新的军事新闻优化培训课程
  • 影视广告公司网页设计上海关键词排名手机优化软件
  • 爱网站官网如何进行网站的宣传和推广
  • 网站策划编辑如何做唐老鸭微信营销软件
  • 广东 网站建设 公司排名东莞网站提升排名
  • 网站建设岗位说明seo网站优化培训
  • 网站建立的方式是什么技能培训学校
  • 怎样看网站的浏览量搜索引擎都有哪些
  • 门户网站建设方案的公司教育培训学校
  • 深圳网站建设服务什么便宜百度关键词查询工具
  • 做网站一般注意些什么郑州网站策划
  • 刷网站排名怎么刷江苏网站seo
  • 电商网站后台管理系统企业营销咨询