当前位置: 首页 > news >正文

【学习笔记】高质量数据集

        在数字化转型过程中,企业高层、CEO、CTO、信息化负责人和IT技术人员都明白一个道理:数据是新型生产资料。但并非所有数据都能创造价值。

        只有高质量的数据集,才能真正成为企业决策的可靠依据,成为机器学习模型的营养源泉,成为数字化转型的坚实基础。

       

一、什么是高质量数据集?

        高质量数据集绝非简单的数据堆砌。它好比是精心提炼的原油,而非刚刚开采出来的原始石油。一个高质量数据集必须具备以下四个关键特征:

        1. 准确性: 数据必须真实反映客观事实,误差率控制在可接受范围内。错误的数据比没有数据更可怕,它会导致错误决策,造成实质性损失。

        2. 完整性: 数据集应包含所有必要的信息,缺失值应在合理范围内。就像拼图缺少关键碎片就无法展现全貌,不完整的数据难以支撑全面分析。

        3. 一致性: 数据在不同系统、不同时段中应保持统一的格式和标准。相互矛盾的数据会制造混乱,降低决策效率。

        4. 时效性: 数据必须及时更新,反映最新情况。过时的数据如同发霉的粮食,非但无益,反而有害。

        高质量数据集不是自然产生的,而是精心设计、系统建设的结果。它是数据要素化的前提,是数字化变革的基石。

        

二、如何建设高质量数据集?七大核心环节

        建设高质量数据集是一项系统工程,需要企业从战略到执行的全方位投入。以下是七大关键环节,每个环节都至关重要,不容忽视。

        环节一:明确业务目标,定义数据需求

        数据建设不是无的放矢。一切数据工作都应从业务目标出发

        在开始收集数据之前,必须回答:这些数据将用于解决什么业务问题?支持什么决策?优化什么流程?

        比如,如果你希望提升客户满意度,就需要收集客户行为数据、反馈数据;如果要优化供应链,就需要物流数据、库存数据、供应商数据。

        关键行动:

  • 召集业务部门与数据团队共同研讨

  • 明确关键业务问题与数据需求

  • 确定数据使用的优先级

        环节二:设计科学的数据架构

        良好的数据架构是高质量数据的蓝图。它决定了数据如何被组织、存储、集成和访问。

        传统的数据仓库与新兴的数据湖各有优劣,企业应根据自身情况选择合适架构。越来越多的企业采用湖仓一体的混合模式,兼顾灵活性和规范性。

        关键行动:

  • 设计合理的数据分层(原始层、清洗层、应用层)

  • 规划数据流向与集成方式

  • 选择适合的技术栈(云计算/本地部署)

        环节三:制定统一的数据标准

        没有规矩,不成方圆。统一的数据标准是保证数据质量的前提

        这包括数据命名规范、数据类型定义、编码规则、数据精度要求等。例如,日期的格式应统一为“YYYY-MM-DD”而非各式各样的表达方式。

        关键行动:

  • 建立企业级数据字典和元数据管理

  • 制定数据建模和数据库设计规范

  • 统一关键业务指标的计算口径

        环节四:建立数据质量监控体系

        质量是测量出来的,也是监控出来的。必须建立全链路的数据质量监控体系

        通过设置数据质量校验规则,对数据采集、处理、加工的每个环节进行质量检查,及时发现并预警数据问题。

        关键行动:

  • 定义数据质量评估指标(完整性、准确性、时效性等)

  • 实施数据质量探查和剖析

  • 建立数据质量告警和应急机制

        环节五:实施有效的数据治理

        数据治理是确保数据质量的组织与制度保障。它涉及组织架构、职责分工、流程制度和绩效管理。

        优秀的数据治理能够明确数据责任方(Data Owner)、管理方(Data Steward)和使用方的权利与义务,形成数据质量管理的闭环。

        关键行动:

  • 建立数据治理委员会和组织架构

  • 明确数据权责和流程制度

  • 将数据质量纳入部门和个人绩效考核

        环节六:选择合适的技术工具

        工欲善其事,必先利其器。合适的技术工具可以大大提高数据建设的效率和质量

        从数据集成、数据开发、数据质量到数据服务,市场上已有成熟的低代码平台、数据平台和工具链可供选择。

        关键行动:

  • 评估企业现有技术能力和未来需求

  • 选择合适的数据技术栈(ETL工具、数据平台、数据质量工具等)

  • 避免盲目追求新技术,选择适合企业现状的方案

        环节七:培养数据文化,持续优化

        数据建设不是一次性项目,而是一个持续优化的过程。最重要的是培养企业的数据文化

让每个员工都认识到数据的重要性,自觉维护数据质量,主动使用数据决策,形成数据驱动的组织习惯。

        关键行动:

  • 定期开展数据培训和交流

  • 建立数据质量持续改进机制

  • 表彰和奖励数据最佳实践

       

三、评估“高质量数据集”的质量

        

        第一,制定数据质量评价指标体系

        量化评估模型是数据质量管控的基础。企业在建设高质量数据集的过程中,应针对数据生产的各个环节,设计精细化的量化指标体系,实现对数据质量的可衡量与可追踪。我们通常采用静态质量动态质量两种评价维度进行综合度量。

        其中,静态质量主要关注数据本身的关键属性,评估维度包括准确性、完整性、一致性和时效性等。重点考察数据在领域覆盖、来源可靠性、隐私保护以及安全合规方面的表现,确保数据具备良好的结构性和规范性。

        静态质量可进一步细分为两个方面:

        一是文档完整性,即数据集应配套完整的说明文档,涵盖基本信息、内容特征、建设过程及应用说明,确保使用者能够准确理解数据的背景与用途;

        二是质量合规性,即数据本身需满足人工智能模型开发与训练的基本要求,包括完整性、规范性、一致性和及时性等,同时符合相关隐私保护和安全合规标准。

        而动态质量则更强调数据集在实际应用中的效果,尤其是在模型训练和部署过程中的表现。通过引入代表性模型开展基准测试,结合标准评测数据集与量化指标,可以客观衡量模型性能的提升程度,从而明确数据集是否真正具备“高质量”的应用价值。

        主要体现为场景适用性,即通过模型测试与性能评估,可以验证数据集在真实业务环境中的价值,从而更准确地界定其“高质量”的标准。

        一般的高质量数据评估指标体系,建议如下:

图片


        第二,建立动态评估机制

        评估机制的核心遵循两个重要原则:

        一方面,评估应贯穿于高质量数据集建设的全过程,而非仅在最终阶段进行一次性检查。只有将质量评估嵌入每一个环节,才能实现真正的过程管控与持续优化。

        另一方面,在数据集建设的各阶段应遵循“事前规划、事中监控、事后复盘”的闭环管理模式:

  • 事前规划:在数据生产前,明确质量标准与流程,从源头控制数据质量,确保生产有章可循;

  • 事中监控:在生产过程中部署实时监测机制,对超标指标及时预警,触发人工复核,防止问题积累;

  • 事后复盘:数据生产完成后,进行系统性复盘,对比质量目标与实际结果,分析偏差原因,为后续优化提供依据。

图片

   


        综上所述,构建高质量数据集需要以指标体系评估机制为基础,以模型效果导向的持续优化闭环为抓手,形成数据质量的持续提升路径。通过“模型反馈—质量诊断—流程优化”的闭环机制,实现从应用效果反推数据质量问题,再反向驱动流程改进。

        在这一过程中,数据质量与模型性能形成良性互动,通过持续迭代不断优化,推动数据集体系向更高质量演进,确保人工智能应用真正建立在优质数据之上,释放最大价值。

四、行业高质量数据集的实践

4.1 行业背景

        在“双碳” 目标与供应链现代化战略的双重驱动下,能源电力、供应链领域正加速迈入 数据驱动业务” 新阶段。作为人工智能与实体经济深度融合的核心载体,高质量数据集不仅是提升电网负荷预测精度、优化供应链库存周转率的关键支撑,更是破解数据孤岛、推动数据要素在交易所合规流通的核心抓手。

        当前,上海数据交易所“电力负荷预测数据集、深圳数据交易所 供应链金融可信数据集” 等标杆产品陆续挂牌,标志着两大领域的数据要素化已进入实操阶段。本文将以数据治理专家视角,结合国内数据交易所实践经验,系统拆解高质量数据集的定义、建设逻辑与落地路径,为行业从业者提供从理论到实践的完整指引。

4.2 概念重定义

        高质量数据集并非传统意义上经过数据质量治理后的海量业务数据的堆砌,而是契合行业场景需求、具备 高价值应用、高知识密度、高技术含量” 三高核心特征的结构化数据资源,在能源电力与供应链领域呈现出鲜明的行业属性。

        4.3 行业数据集的建设背景

        高质量数据集建设并非偶然,而是政策引导、技术革新与产业需求共振的结果,尤其数据交易所的兴起,为数据合规流通提供了核心场景支撑。

        1. 政策层面:从 数据要素” 到 行业赋能” 协同布局

 •国家顶层设计明确方向:2023 年中央政治局集体学习强调 深化数据资源开发利用,《数据要素 ×” 三年行动计划(2024-2026 年)》直接提出 打造能源、物流领域高质量大模型训练数据集,为行业发展定调;

行业政策细化落地:《关于加快推进能源数字化发展的若干意见》要求建立跨区域电力数据共享机制,《十四五” 现代物流发展规划》明确 构建供应链数据标准体系,推动政策从 宏观” 向 实操” 下沉;

数据交易所政策支撑:上海、深圳等地数据交易所出台《能源数据集挂牌指引》《供应链数据资产评价规范》,例如上海数据交易所对合规性、可追溯性、应用价值” 三项指标达标的数据集,给予挂牌绿色通道,降低合规流通门槛。

        2. 技术层面:大模型重构数据工程范式,数据质量要求再升级

能源大模型需求:电力调度大模型需数十亿条时序数据(如 5 分钟级负荷数据),新能源大模型需融合气象、地理多模态数据,传统 小样本数据” 已难以支撑模型 涌现” 能力;

供应链大模型需求:全局优化大模型需跨主体数据(供应商、物流商、零售商),多模态数据(订单文本、物流视频、库存图像)融合难度显著提升,例如某供应链大模型曾因数据模态不全,调度优化准确率仅 75%,补充 IoT 数据后准确率提升至 91%

技术工具革新:自动化标注(如电力设备缺陷图像 AI 预标注)、合成数据(如模拟供应链中断场景数据)等技术,大幅降低对人工数据的依赖,某能源企业通过合成数据技术减少 60% 现场数据采集成本。

        3. 产业层面:数据成 护城河,数据交易所破解流通难题

能源电力:跨区域电网数据孤岛(如华北、华东电网数据标准不统一)导致负荷预测偏差,某省级电网通过数据集整合,跨区域调度效率提升 18%

供应链:多主体数据割裂(供应商库存、物流商时效、零售商订单分属不同系统)加剧牛鞭效应,某快消企业通过数据集协同,订单波动幅度下降 25%

数据交易所价值凸显:截至 2024 年,国内 30 余家数据交易所累计挂牌能源 供应链类数据集超 200 个,其中上海数据交易所 电力现货交易数据集、广州数据交易所 跨境物流时效数据集” 年交易额均突破千万元,实现 数据可用不可见” 的合规流通。

        4.4 需求现状:三大痛点制约,数据要素化在路上

        尽管需求迫切,但能源电力与供应链领域高质量数据集建设仍面临“目标模糊、路径碎片、技术薄弱” 三大共性难题、痛点,呈现出行业特有的挑战。

        1. 目标定位模糊:“为数据而数据”,脱离业务场景

能源电力:部分企业采集海量电网数据却未绑定双碳” 目标,例如某电厂虽采集大量设备温度数据,却未与碳排放核算需求持续动态关联,导致数据无法支撑碳足迹追踪;

供应链:部分企业构建数据集时未锚定降本增效” 核心目标,例如某物流企业采集车辆轨迹数据后,未结合配送时效优化场景应用,数据价值转化率不到 10%,远低于行业平均水平;

本质问题:未形成数据采集 模型训练 业务反馈” 闭环,如某电网数据集因缺乏负荷预测模型反馈,数据更新频率与实际调度需求脱节(需 15 分钟更新却按日更新)。

        2. 实施路径碎片化:缺乏全链路数据管理规划,数据治理成本高

能源电力:跨部门数据标准不一,如调度数据(国网标准)、运维数据(南网标准)、营销数据(地方标准)无法直接融合,某省级电网数据清洗成本占数据集建设总成本的 45%,远超常规 20%-30% 的行业区间;

供应链:多主体数据孤岛严重,供应商、物流商、零售商数据分别存储于 ERPTMSPOS 系统,某零售企业整合供应链数据耗时 个月,远超 个月的预期周期;

典型案例:某能源集团曾尝试构建新能源数据集,但风电数据分散于风电公司、光伏数据归属光伏公司、储能数据由储能公司管理,跨主体协作效率低下,项目最终延期 个月。

        3. 技术底座薄弱:多模态处理能力不足,工具链适配性弱

能源电力:多模态数据(时序量测、巡检图像、调度文本)处理工具缺失,某电网曾用通用数据清洗工具处理传感器数据,异常值识别准确率仅 68%,改用电力专用工具后准确率提升至 92%

供应链:IoT 数据(GPSRFID)与文本数据(订单、合同)融合难度大,某物流企业用传统 ETL 工具处理多模态数据,数据准备周期长达 个月,无法支撑模型快速迭代;

行业短板:缺乏适配行业特性的工具,如能源领域需时序数据特征提取工具(如负荷趋势分解)、供应链领域需物流路径优化标注工具,通用工具难以满足精细化需求。

        4.5 认定标准:从合规” 到 好用

        高质量数据集需通过合规性、质量性、应用性” 三重认定,国内数据交易所(以上海、深圳为例)已形成明确评价体系,结合能源电力与供应链特性,核心指标可归纳为以下 

        

        4.6 构建方法论:三步走落地路径

        参考《人工智能高质量数据集建设指南》“体系规划 工程建设 质量监测” 三步走战略,结合能源电力与供应链的行业特性,可形成以下实操路径。

        1. 第一步:体系规划阶段 ——锚定业务目标,绘制数据资源地图

核心任务:破解目标模糊” 难题,将数据集建设与业务指标深度绑定;

能源电力领域:

        a. 构建知识索引:围绕 双碳”+“调度优化” 目标,梳理核心知识节点(如负荷类型、新能源出力特性、电网拓扑),形成 负荷 气象 碳排放” 关联图谱;

        b. 绘制资源地图:盘点内外部数据(内部:SCADA、智能电表;外部:气象、经济数据),标注数据类型(时序、文本、图像)、存储位置、权属关系,例如某省级电网的数据资源地图已覆盖 12 类数据源;

        c. 明确标准体系:制定数据采集标准(如负荷数据采样频率 分钟 次)、标注规范(如设备缺陷分 级:轻微、一般、严重)。

供应链领域:

        a. 构建知识索引:围绕 库存优化”+“物流降本” 目标,梳理核心知识节点(如商品属性、物流枢纽、库存阈值),形成 商品 仓库 物流” 关联图谱;

        b. 绘制资源地图:盘点多主体数据(供应商:产能数据;物流商:时效数据;零售商:订单数据),标注数据接口、更新频率,例如某零售企业的数据资源地图已覆盖 类数据源;

        c. 明确标准体系:制定商品编码标准(如 GS1)、物流数据格式(如 GPS 数据采用 WGS84 坐标系);

案例参考:国网某省电力公司通过体系规划,将数据集目标绑定新能源消纳率提升 5%”,避免 无目标采集,数据采集成本下降 30%

2. 第二步:工程建设阶段 —— 打造自动化数据工厂,破解路径碎片

核心任务:构建采集 清洗 标注 质检” 自动化流水线,实现多源数据高效整合;

能源电力领域:

        a. 数据采集:搭建多模态采集平台,整合 SCADA(实时量测)、无人机巡检(图像)、调度系统(文本)数据,采用边缘计算技术降低传输延迟(例如某电网数据采集延迟从 秒降至 秒);

        b. 数据清洗:开发电力专用清洗工具,针对性处理时序数据异常值(如用滑动窗口去噪)、缺失值(如基于负荷趋势填充),某电网数据清洗效率提升 60%

        c. 数据标注:采用 “AI 预标注 人工复核” 模式,如设备缺陷图像先由 AI 标注(准确率 85%),再由运维专家复核修正,标注效率提升 50%。

供应链领域:

        a. 数据采集:搭建 IoT + 文本融合采集平台,整合 GPS(物流轨迹)、RFID(商品定位)、ERP(订单)数据,采用 API 接口实现跨企业数据对接(例如某物流企业已对接 20 家供应商系统);

        b. 数据清洗:开发供应链专用清洗工具,处理物流数据异常值(如剔除 GPS 漂移数据)、订单数据重复值(如合并重复下单),某零售企业数据清洗时间从 15 天降至 天;

        c. 数据标注:采用 众包 自动化” 模式,如物流单据 OCR 标注由众包团队完成,AI 自动校验一致性(如订单号匹配),标注成本下降 40%

关键技术:参考文档中 DeepSeek 模型的 机器预处理 人工校准” 机制,能源电力领域可引入大模型辅助文本标注(如调度指令分类),供应链领域可引入大模型辅助物流场景标注(如异常包裹识别)。

3. 第三步:质量监测阶段 —— 构建全流程闭环,反向优化数据质量

核心任务:通过事前 事中 事后” 全流程监测,确保数据持续达标;

能源电力领域:

        a. 事前规划:制定质量标准(如负荷数据准确率≥99%),设定准入门槛(如量测数据误差超 0.5% 则拒收);

        b. 事中监控:搭建实时监测平台,监控数据完整性(如某区域数据缺失预警)、及时性(如采集延迟超 秒报警),某电网已实现异常数据实时拦截率 92%

        c. 事后复盘:通过负荷预测模型效果反向验证数据质量(如准确率未达标则回溯数据清洗环节),形成 模型反馈 数据优化” 闭环,某电网数据集经 轮优化后,预测准确率从 95% 提升至 98.5%

供应链领域:

        a. 事前规划:制定质量标准(如库存数据及时性≤1 小时),设定准入门槛(如物流数据更新超 10 分钟则拒收);

        b. 事中监控:搭建实时监测平台,监控数据一致性(如商品编码不统一预警)、准确性(如订单与物流数据不匹配报警),某零售企业已实现异常数据实时拦截率 88%

        c. 事后复盘:通过库存优化模型效果反向验证数据质量(如周转率未达标则回溯数据标注环节),形成闭环,某零售企业数据集经 轮优化后,库存周转率提升从 15% 至 22%

工具支撑:采用《人工智能高质量数据集建设指南》中的三道关卡(规则检测 人工抽样 模型效果),能源电力领域可使用 ADAQ 体系的时序数据评估工具,供应链领域可使用多模态数据评估工具。

4.7 数据运营:从存好” 到 用好,打通流通链路

        高质量数据集需通过资源管理 开放共享 流通交易” 三位一体运营,实现从 数据资产” 到 价值变现” 的跨越,能源电力与供应链领域可结合数据交易所实践,构建以下运营模式:

1. 资源管理:全生命周期管控,确保数据 可管、可溯

能源电力领域:

        分类分级管理:按 “核心数据(调度数据)重要数据(运维数据)一般数据(营销数据)” 分级,核心数据采用加密存储,一般数据按规开放共享;

        版本管理:按季节(丰水期、枯水期)、事件(极端天气)管理数据集版本,如某电网保留 12 个版本的负荷数据集,支持回溯分析;

供应链领域:

        分类管理:按 “商品数据(属性、库存)物流数据(轨迹、时效)交易数据(订单、支付)” 分类,交易数据需脱敏存储,物流数据按规开放共享;

        溯源管理:用区块链记录数据流转(如某物流企业用联盟链记录数据集调用记录),确保全链路可追溯;

        工具支撑:参考文档中的“资源目录” 机制,能源电力领域可搭建电力数据目录平台,供应链领域可搭建供应链数据目录平台,实现数据可视化管理。

2. 开放共享:平衡 安全” 与 效率,推动行业协同

能源电力领域:

        公共数据开放:向科研机构开放非敏感数据(如省级电力供需数据),支撑双碳研究,例如某省电力公司已向高校开放 5 年历史负荷数据,推动 10 项科研成果落地;

        行业联盟共享:组建跨区域电力数据联盟(如华北电网联盟),采用联邦学习实现 “数据不动模型动”,某联盟通过联邦学习将跨区域负荷预测准确率提升至 97%;  

供应链领域:

        企业协同共享:组建供应链数据联盟(如快消品联盟),共享物流时效、库存水平数据,该联盟已使成员企业缺货率平均下降 12%

        公共平台开放:向政府开放供应链安全数据(如重点商品物流轨迹),支撑应急调度,如某物流企业向应急管理部开放救灾物资物流数据;

        合规保障:参考文档中的“合规可信” 要求,采用数据脱敏、访问控制(如角色权限管理)等技术,确保数据共享安全。

3. 流通交易:依托数据交易所,实现 合规变现

能源电力领域:

        挂牌交易:在数据交易所挂牌 “电力负荷预测数据集”“新能源出力数据集,定价参考数据规模与质量(例如 10 亿条高质量时序数据定价 500 万元 年)、应用价值(如预测误差每降 1% 加价 10%),某省级电网数据集在上海数据交易所年交易额超 500 万元;

        服务模式:采用 “订阅制(如按月付费)、按次付费(如单次查询负荷数据),满足不同用户需求;

供应链领域:

        挂牌交易:在数据交易所挂牌 “供应链库存优化数据集”“跨境物流时效数据集,定价参考实际应用价值(例如库存周转率每提升 1%,定价相应加价 5%),某物流企业数据集在深圳数据交易所年交易额超 800 万元;

        服务模式:采用 “定制化服务(如为某企业定制区域供应链数据集)、“API 调用(如开放物流数据 API),提升使用便捷性;

        交易所联动:参考上海数据交易所的“数据资产登记” 机制,能源电力与供应链数据集需完成资产登记后挂牌,确保权属清晰、定价合理。

4.8 典型实践案例

        结合国内数据交易所挂牌案例与行业实践,选取两个典型案例,拆解高质量数据集的建设逻辑与应用成效:

        案例 1:国网某省电力公司 高质量电力负荷预测数据集(上海数据交易所 2024 年挂牌)

建设背景

“        双碳” 目标下,该省新能源(风电、光伏)并网比例提升至 35%,传统负荷预测依赖人工经验,预测误差超 5%,无法支撑电网精细化调度;

建设路径

        a. 体系规划:绑定 新能源消纳率提升 5%” 目标,构建 负荷 气象 经济 新能源” 知识索引,绘制覆盖 12 类数据源(SCADA、气象、GDP、新能源出力)的数据资源地图,明确负荷数据 分钟 次的采集标准;

        b. 工程建设:搭建多模态数据工厂,采集全省所有 220kV 及以上变电站的 分钟级负荷数据,用电力专用工具清洗极端天气下的负荷突增数据,采用 “AI 预标注 调度专家复核” 标注负荷类型(工业、居民、商业);

        c. 质量监测:通过 ADAQ 体系评估(完整性 98%、准确性 99.2%、及时性≤1 秒),结合负荷预测模型反向优化,将预测准确率从 95% 提升至 98.5%

运营成效

        行业应用:服务20家新能源企业,风电消纳率提升 5%,减少弃风电量 1.2 亿千瓦时,折合减少碳排放约8.4万吨(按火电平均碳排放系数计算);

        交易所流通:挂牌后年交易额520万元,成为上海数据交易所能源类 标杆数据集

        成本收益:数据集建设成本800万元,投用后电网调度成本下降18%,预计 1.5 年收回成本。

案例 2:京东物流 高质量供应链全局库存优化数据集(深圳数据交易所 2024 年挂牌)

•        建设背景:电商供应链面临多品类(10 万 + SKU)、多仓库(500 + 仓)” 挑战,库存积压严重,库存缺货率高达 12%,传统库存管理依赖人工经验,效率低下;

建设路径

        a. 体系规划:绑定 库存周转率提升 20%” 目标,构建 商品 仓库 物流 订单” 知识索引,绘制覆盖 类核心数据源(供应商产能、物流时效、仓库库存、零售订单)的数据资源地图,统一采用 GS1 商品编码标准;

        b. 工程建设:搭建多模态数据工厂,采集 IoT 数据(货车 GPS 轨迹、RFID 商品定位)、文本数据(订单合同、物流单据),用供应链专用工具清洗重复订单数据,采用 众包标注 + AI 校验” 标注库存异常类型(缺货、积压);

        c. 质量监测:通过深圳数据交易所评价体系(完整性 92%、准确性 98.5%、及时性≤5 分钟),结合库存优化模型反向优化,将库存周转率从 12 次 年提升至 14.6 次 年;

运营成效

        行业应用:服务 30 家快消企业,库存周转率平均提升 22%,缺货率下降 8%,某快消企业依托该数据集年降本超 1000 万元;

        交易所流通:挂牌后年交易额 830 万元,成为深圳数据交易所供应链类 明星数据集

        生态价值:推动构建 “供应商 物流商 零售商” 数据联盟,15 家企业加入,数据协同效率提升 40%

4.9 总结与展望:高质量数据集是数据要素化的核心引擎、

        能源电力与供应链领域的高质量数据集建设,已从“技术探索” 阶段进入 规模化落地” 新阶段。未来发展需聚焦三大核心方向:

        1.技术创新突破多模态数据融合(能源领域的时序 + 图像、供应链领域的 IoT + 文本)、合成数据(模拟极端场景)、自动化标注(行业专用工具)等关键技术,进一步降低建设成本;

        2.生态协同依托数据交易所构建数据供给 加工 流通 应用” 完整生态,推动能源电力领域的跨区域数据协同、供应链领域的跨主体数据共享,打破 数据孤岛

        3.标准统一加快制定行业数据标准(如电力数据采集标准、供应链商品编码标准),从根本上解决数据格式不统一、接口不兼容问题。

参考资料:

1.https://mp.weixin.qq.com/s/1f-zqZHLdTsHIXAXFCh6Kg

2. https://mp.weixin.qq.com/s/lOusXjA8eXztZvXghsYK6g

3.https://mp.weixin.qq.com/s/DHvX66JmMSVBmucF2DwAaA

http://www.dtcms.com/a/422873.html

相关文章:

  • 微美全息科学院(WIMI.US):互信息赋能运动想象脑电分类,脑机接口精度迎来突破!
  • 协议 NTP UDP 获取实时网络时间
  • 公司网站可以分两个域名做吗残疾人网站服务平台
  • spark pipeline 转换n个字段,如何对某个字段反向转换
  • 学习React-18-useCallBack
  • 长沙制作网站的公司与传统市场营销的区别与联系有哪些
  • 从语言到向量:自然语言处理核心转换技术的深度拆解与工程实践导论(自然语言处理入门必读)
  • 无人设备遥控器之无线发射接收技术篇
  • 《从数组到动态顺序表:数据结构与算法如何优化内存管理?》
  • 浏览器正能量网站2021网页设计免费模板图片
  • 花生壳内网穿透网站如何做seo优化目前最好的找工作平台
  • 1-wireshark网络安全分析——VLAN基础细节详解
  • android studio 无法运行java main()
  • 如何用 Claude Code 搭建安全、可测、可自动化的 GitHub CI 流程?
  • K6的CI/CD集成在云原生应用的性能测试应用
  • Selective Kernel Networks 学习笔记
  • wordpress 浮动留言框搜索引擎优化是什么工作
  • UNIX下C语言编程与实践9-UNIX 动态库创建实战:gcc 参数 -fpic、-shared 的作用与动态库生成步骤
  • 无锡市建设工程质量监督站网站三星网上商城投诉电话
  • Cesium快速入门到精通系列教程十九:Cesium 1.95 中地图模式
  • 内网穿透部署
  • port hybrid pvid vlan vlan-id 概念及题目
  • 十大高端网站定制设计在线制作图片的软件
  • sentinel docker gateway k8s 集群 主从
  • 嘉兴高端网站定制进销存软件排行榜前十名
  • 一个wordpress的爱好者北京关键词优化平台
  • 第四部分:VTK常用类详解(第111章 vtkGlyph3D符号化类)
  • 联邦大型语言模型、多智能体大型语言模型是什么?
  • Apache Doris 入门与技术替代方案
  • Day31_【 NLP _1.文本预处理 _(1)文本处理的基本方法】