当前位置: 首页 > wzjs >正文

中小企业网站建设框架微信推广链接怎么制作

中小企业网站建设框架,微信推广链接怎么制作,诚信通网站怎么做外链,惠安网站建设报价问题描述 在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset&…

问题描述

在huggingface上下载很大的数据集,用多个parquet文件的格式下载到本地。使用load_dataset加载的时候,进度条加载到一半会报错DatasetGenerationError: An error occurred while generating the dataset;如果加载为IterableDataset,则在读取到对应位置时报错OSError: Corrupt snappy compressed data.

解决思路

一开始以为是单条数据错误,想把这条数据用try catch来handle住,失败。后来意识到,load_dataset加载的时候,进度条的数据量是跳变的,说明加载机制是读取每个parquet文件,读取完成后把这个文件的条目数加在总数上。能卡在一个具体的点上,说明出问题的是某一个parquet文件。于是检查每个parquet文件的校验码,发现某个文件校验失败。重新下载后,数据集可以正常加载,无论是否streaming.

反思

由于校验流程比较麻烦耗时,平时下载数据集一般只简单看一下文件大小是否正确,如果每个文件的数据大小都正确,就直接开始做。这次的教训说明,当文件多了之后,校验还是很重要的。以后应该写一个自动校验的程序,来确保下载的数据来源正确。

http://www.dtcms.com/wzjs/9050.html

相关文章:

  • 高端网站开发成本公司做网站推广
  • 桂城网站制作公司谷歌优化教程
  • 网站建设上市如何联系百度人工客服电话
  • 如何投稿小说到各大网站图片优化
  • wordpress不能放大图片网站seo顾问
  • 新闻源网站怎么做网址搜索
  • 网站logo图怎么做的可以直接进入的舆情网站
  • 淘宝联盟网站推广怎么做贺贵江seo教程
  • 成都彩票网站建设自己开发网站
  • 山西省建设主管部门网站白云区最新疫情
  • 设计师工作室网站网站提交入口大全
  • 网站做等保三级建设推广引流图片
  • 做文案选图片素材的网站seo广告优化多少钱
  • 做网站要备案吗 要几天新闻源
  • 什么网站可以做自考试题狠抓措施落实
  • 物理机安装虚拟机做网站好处百度广告管家
  • 淮安 做网站 app如何网上免费做推广
  • 经营阅读网站需要怎么做网络seo啥意思
  • wordpress 增加内存网站优化排名软件哪些最好
  • 常见网站架构域名大全免费网站
  • 哪个网站做平面能兼职推广普通话主题手抄报
  • 17一起广州做网站网络服务合同纠纷
  • 做网站暴利小红书seo优化
  • 西安网站设计建设公司 概况百度网盘app下载安装
  • 怎么做门户网站设计搜索引擎名词解释
  • 网页设计与网站建设报告书济南网站推广优化
  • 洛阳网络公司西安seo外包服务
  • 鄂州网站开发怎么制作网站教程步骤
  • wordpress get_field网络搜索引擎优化
  • 曲阜市网站建设能打开各种网站的浏览器下载