当前位置: 首页 > wzjs >正文

巨野网站定制群排名优化软件

巨野网站定制,群排名优化软件,网站建设合作流程图,.net网站与php网站问题描述 在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset&…

问题描述

在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset,则在读取到对应位置时报错OSError: Corrupt snappy compressed data.

解决思路

一开始以为是单条数据错误,想把这条数据用try catch来handle住,失败。后来意识到,load_dataset加载的时候,进度条的数据量是跳变的,说明加载机制是读取每个parquet文件,读取完成后把这个文件的条目数加在总数上。能卡在一个具体的点上,说明出问题的是某一个parquet文件。于是检查每个parquet文件的校验码,发现某个文件校验失败。重新下载后,数据集可以正常加载,无论是否streaming.

反思

由于校验流程比较麻烦耗时,平时下载数据集一般只简单看一下文件大小是否正确,如果每个文件的数据大小都正确,就直接开始做。这次的教训说明,当文件多了之后,校验还是很重要的。以后应该写一个自动校验的程序,来确保下载的数据来源正确。

http://www.dtcms.com/wzjs/466701.html

相关文章:

  • wordpress网站维护长尾关键词搜索网站
  • 网站建设公司如何开拓客户怎么推广销售
  • 做网站开发工资怎样品牌运营公司
  • 简约的网站怎么打广告宣传自己的产品
  • 医院网站 整站源码外链链接平台
  • 建设官方网站需要那些人员网站权重划分
  • 毕业设计代做网站推荐最有效的线下推广方式
  • 杭州网站设计公司联系亿企邦全国新冠疫苗接种率
  • 沈阳网站优化建设爱站网怎么使用
  • 网站建设设计公营销战略包括哪些方面
  • 厦门外贸商城网站建设会计培训班的费用是多少
  • 网站开通微信支付接口开发友情链接的形式有哪些
  • 康定网站建设品牌营销理论
  • 咸阳做网站开发公司哪家好私人做网站
  • 上海代办网站备案西安关键词优化平台
  • 网站建设氺金手指排名15快速建网站
  • 北京建设局网站最新疫情新闻100字
  • 个人网站电商怎么做网络科技公司骗了我36800
  • oa系统登录上海牛巨微seo
  • 杭州做销售去哪个网站好定制网站建设
  • 大德通网站建设新网站推广方案
  • 响应式网站可以做缩放图吗制作一个网站的全过程
  • 艾辰做网站百度推广后台登陆
  • 网站制作人员seo优化需要多少钱
  • 专门做艺术字的网站网络推广网站建设
  • 网络公司怎样推广网站会计培训班需要学多长时间
  • 开发公司资质查询上海搜索优化推广哪家强
  • 合肥网版制作电脑优化
  • 企业门户网站开发抖音推广方案
  • 大望路网站建设推广策划方案模板