当前位置: 首页 > news >正文

高质量数据集|建设三大难点

25年3月国家数据局发文“建设高质量数据集,让人工智能更聪明”,提到“高质量数据集构建是一项复杂而关键的任务,需要了解模型应用场景和需求,进而开发、构建和维护数据资源,提供持续有效的高质量数据集”。5月中国信息通信研究院人工智能研究所发文 “从“经验驱动”到“标准驱动” 推动人工智能高质量数据集建设”,提出高质量数据集建设的 “三大难点” ,本质上揭示了当前数据工程从 “量的积累” 转向 “质的提升” 过程中,在目标对齐、流程管理、技术支撑三个核心维度存在的系统性障碍。这三个难点相互关联、相互影响,共同制约着数据集从 “可用” 到 “高质量可用” 的跨越。以下结合具体场景说明:

1、目标定位模糊化:“数据生产” 与 “业务需求” 的脱节

我们常常提到“场景驱动",而在落地时就存在目标、做法不明确,数据人员干完发现无法满足业务团队要求的数据质量要求。目标定位模糊的核心问题是数据集建设缺乏明确的价值导向,陷入 “重数量轻质量、重采集轻应用” 的误区。

具体表现

企业或团队往往将 “数据量” 作为核心指标(如 “收集 100 万条样本”),却未明确这些数据要服务于哪些具体的智能场景(如 “用这些数据训练的模型要解决什么业务问题?提升哪些核心指标?”)。例如,某制造业企业为训练设备故障预测模型,收集了大量设备运行日志,但未聚焦 “故障前 24 小时的关键参数波动” 这一核心需求,反而纳入了大量无关的环境数据(如车间温湿度的非异常记录),导致数据集看似庞大,却无法有效提升模型的故障预警精度。

深层原因

数据工程团队与业务团队的割裂。数据团队可能更关注 “技术可行性”(如能否采集到数据),而业务团队未清晰传递 “场景必要性”(如模型需要识别哪些关键特征才能支撑决策),导致数

http://www.dtcms.com/a/312763.html

相关文章:

  • [硬件电路-140]:模拟电路 - 信号处理电路 - 锁定放大器概述、工作原理、常见芯片、管脚定义
  • [硬件电路-133]:模拟电路 - 信号处理电路 - 电荷放大器概述、工作原理、常见芯片、管脚定义
  • 深度学习(鱼书)day10--与学习相关的技巧(后两节)
  • 仿TCmalloc内存分配器
  • 后端研发转型爬虫实战:Scrapy 二开爬虫框架的避坑指南
  • C++入门自学Day5-- C/C++内存管理(续)
  • jvm之jconsole的使用
  • Maven 常用命令详解
  • react native中markdown添加数学公式的支持
  • 文明存续的时间博弈:论地球资源枯竭临界期的技术突围与行动紧迫性
  • STM32-驱动OLED显示屏使用SPI(软件模拟时序)实现
  • 【stm32】按键控制LED以及光敏传感器控制蜂鸣器
  • PYTHON从入门到实践-18Django模版渲染
  • 我的世界进阶模组开发教程——伤害(2)
  • 20250803让飞凌OK3576-C开发板在Rockchip的原厂Android14下适配声卡NAU88C22YG【Android部分】
  • C++:STL中的栈和队列的适配器deque
  • 多模态大模型的原理
  • 机器人产业需要技术与资本双驱动,在泡沫期中探索商业化路径
  • Python中的sys.path与PYTHONPATH全解析:模块导入路径的底层机制与最佳实践
  • LDAP身份验证前世今生
  • Corrosion2靶机练习笔记
  • 大语言模型的解码策略:贪婪解码与波束搜索
  • Coze 打通飞书多维表格,实现数据增删改查操作实战详解
  • kraft的设计与实现
  • 嵌入式——数据结构:单向链表的函数创建
  • Linux系统之mcookie 命令详解
  • Java小红书源码1:1还原uniapp_仿小红书源码
  • Nginx负载均衡配置
  • STM32 串口发送
  • sqli-labs:Less-25关卡详细解析