当前位置: 首页 > wzjs >正文

巨野网站定制免费的seo优化工具

巨野网站定制,免费的seo优化工具,做简历模板的网站都有哪些,公司做网站需要给百度交钱吗问题描述 在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset&…

问题描述

在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset,则在读取到对应位置时报错OSError: Corrupt snappy compressed data.

解决思路

一开始以为是单条数据错误,想把这条数据用try catch来handle住,失败。后来意识到,load_dataset加载的时候,进度条的数据量是跳变的,说明加载机制是读取每个parquet文件,读取完成后把这个文件的条目数加在总数上。能卡在一个具体的点上,说明出问题的是某一个parquet文件。于是检查每个parquet文件的校验码,发现某个文件校验失败。重新下载后,数据集可以正常加载,无论是否streaming.

反思

由于校验流程比较麻烦耗时,平时下载数据集一般只简单看一下文件大小是否正确,如果每个文件的数据大小都正确,就直接开始做。这次的教训说明,当文件多了之后,校验还是很重要的。以后应该写一个自动校验的程序,来确保下载的数据来源正确。

http://www.dtcms.com/wzjs/283104.html

相关文章:

  • 网站的建设意义成都关键词seo推广电话
  • web网站建设教程什么是sem和seo
  • 磐安网站建设什么是全网营销推广
  • 上海网站公司网络平台推广有哪些渠道
  • 58网站怎么做才有客户问北京网站优化服务
  • 手机网站搭建公司网络营销的流程和方法
  • 赣榆区住房和城乡建设局网站今日新闻快讯
  • python简单小游戏代码手机优化软件下载
  • 做网站的公司 经营范围湖南seo推广系统
  • 域名租赁网站舆情服务公司
  • 做网站可以没有框架吗资源搜索引擎搜索神器网
  • 网站制作 中企动力公司网络营销课程学什么
  • 长沙公司做网站自己建网站怎样建
  • 做网站办什么营业执照如何推广我的网站
  • 手机网站制作教程html5+css3视频教程大全友情链接代码美化
  • 太原招聘网站开发销售成功案例分享
  • linux做商务网站电商运营培训机构哪家好
  • 厦门 外贸商城网站如何在手机上建立自己的网站
  • 郑州注册公司网上核名网站网络营销的功能有哪些?
  • 深圳网站公司哪家好最近七天的新闻大事
  • 网站中使用特殊字体三亚百度推广开户
  • 成都装修公司网站建设百度关键词推广怎么收费
  • 重庆网站建设推广优化济南头条今日新闻
  • 淮北做网站公司seo高级
  • 濮阳做网站网络营销个人总结
  • 企业网站属于广告吗谷歌seo排名优化
  • 在哪里可以做公司网站网站快速收录技术
  • 云南省建设厅标准员网站从事网络销售都有哪些平台呢
  • 设计一个完整的静态网站西安网络优化大的公司
  • 做家务的男人们在哪个网站播出网站推广怎样做