中电金信 :十问高质量数据集:金融大模型价值重塑有“据”可循
2025年,随着大模型在金融领域的深度应用,高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期,国家政策不断深入推进:2月,国务院国资委启动“AI+”专项行动,着力攻克数据难题;5月,数字中国峰会发布了首批30项央企AI高质量数据集成果;6月,在央国企金融领域人工智能高质量数据集工作推进会上,14家企业共同签署了“央国企金融数据产业共同体倡议书”,旨在推动人工智能与数据产业深度融合。
何为高质量数据集,怎样构建?它又将为大模型的发展带来哪些突破?面对行业的共同关注和挑战,中电金信凭借自身在金融大模型领域的洞察实践,梳理出高质量数据集的十大关键问题。
定义标准:何为高质量数据集?
Q高质量数据的“黄金标准”是什么?
高质量数据可以从两个维度理解。首先是单个样本层面,高质量样本通常信息量更大,对模型训练更有帮助,尤其是“难例”样本——即模型处理难度高、提升效果明显的样本,这类数据价值更高。这类样本通常通过训练评测中的效果提升来判断;另一个维度是整体数据集的质量,比如在领域微调中,中电金信会用几千到几万条的SFT数据集。评估时,首先看任务覆盖是否全面,比如问答、写作、对话、推理、计算等都需涵盖,而且各类数据分布应均衡,避免某类比例过高影响效果;其次要看响应准确性,事实错误率应低于1%,逻辑矛盾也要尽量减少,这通常需通过人工或交叉审核保障;最后是指令的泛化能力。同一个问题,用户可能会用多种方式表达,因此训练数据也应涵盖多种提问方式,提升模型稳定性和泛化能力。以上是我们判断高质量数据的核心标准。
Q金融机构建设高质量数据集的关键点?
只有行业数据做到互联互通,才能够形成高质量的数据集,更多的数据价值才能够被发现和应用。金融行业的数据共享由于行业特色更加有难度,需要结合现在国家推行的可信数据空间来逐步推动。目前,各家金融机构都在构建自己的知识库,希望能够尽量减少大模型幻觉,而元数据是解决这一问题的重要抓手。要建立行业的高质量数据集,金融机构需要共享部分风险数据,并且将数据治理和AI结合后再对原有模式及技术升级,才能在实际应用场景中真正起到作用。
技术突破:如何构建高质量数据?
Q如何破解“数据量激增,价值却稀疏”的矛盾?
数据需“炼化”才能助力大模型学习,关键在于场景化萃取与自动化处理。中电金信构建AI数据原生工厂,致力于自动标注、场景数据萃取和合成数据(大大减少人工介入),以及全链路多模态数据构建和评价工具(涵盖数据接入管理、处理增强、智能标注、质量评估和安全管控)。未来数据管理的重要方向是将海量非结构化数据有效转化为知识库,并与结构化资产统一,构建共同的数据管理体系。
Q大模型的数据构建正经历哪些颠覆性变革?
技术演进正推动大模型的数据构建走向统一、轻量与智能,并正从割裂的范式向统一的训练框架演进,比如清华大学提出的IFT(直觉微调),将SFT与RLHF融合,从而减少了对数据的依赖,同时提升了训练效率,缩短了后训练流程;人工标注主导逐步让位于合成数据自动化标注;数据量并非越多越好。当前越来越多团队开始重视数据蒸馏技术,用以从海量数据中筛选出最具价值的部分。例如,手头可能有50万条数据,但真正有效的可能只有10 至20 万条。因此,关键在于通过合理策略挑选出有价值的数据进行训练。
Q随着多模态AI的发展,数据标注面临哪些新挑战?
在多模态场景下,比如涉及视觉、语音等复杂交互的任务中,跨模态对齐仍然离不开人工标注和指导。目前,数据标注有两个显著的变化:第一,从“重数量”转向“重质量”;第二,场景和领域适配的数据变得更为关键,甚至需求更多。举例来说,在企业级应用中,通用模型常常需要融合特定行业知识,比如金融领域中风控规则的多样性需要精确标注;工业质检中,缺陷样本非常稀缺,收集和标注工作对于模型的实用化至关重要。
Q高质量数据集共建的关键路径是什么?
开放共享与协同发展是破局之道。中电金信建立了千人数据标注团队支撑国产大模型训练,秉持开放理念,将可公开可共享的数据集和语料库开放给金融机构;联合13家企业共同签署“央国企金融数据产业共同体倡议书”,旨在通过发挥央国企的引领作用,推动人工智能与数据产业深度融合,实现“人工智能+”与“数据要素x”双向赋能,促进金融数据产业的高质量发展。
实施路径:如何推动数据价值落地?
Q如何实现金融数据的有效共享与价值互通?
金融机构间需建立高质量数据集共享机制,特别是在风险合规(如反洗钱、反电诈)等关键领域。互通的核心在于联合使用高质量数据集,而非直接共享敏感原始数据。在此呼吁国家相关部门及监管机构协同,建立行业级的数据共享与交换机制,促进数据合规流通与交易。
Q企业如何应对“数据驱动”的组织重塑?
首先,这轮是一次明显的技术升级,从数据到智能,过去几年其实一直在围绕数据和智能不断演进,包括架构和算法的升级。技术升级背后,企业组织流程其实也在发生深刻变化。第一,企业的组织模式正在从“以业务流程为中心”转向“以数据流为中心”;第二,数据赋能业务,尤其是制造、研发、营销等环节,越来越依赖跨部门的协同与融合,特别是业务和技术之间的界限在逐渐消融。比如说,我们要做智能决策,第一步得有数据,那哪些业务数据能用、怎么用?这些问题其实只有业务方能梳理清楚。而模型怎么训练、技术怎么落地,这又是技术团队的任务。所以未来真正有效的组织架构,可能是一种业务与技术深度融合、扁平化、能快速协同的模式,只有这样,企业才能更好地利用这些数字化工具和智能化手段来推动转型升级。
Q如何确保金融大模型的数据价值最大化?
建立覆盖数据构建、质量控制到效果评测的完整体系。在数据资产全局视角下,通过标准化管理、多维度质量评估和定期性能验证,确保大模型在金融领域发挥最大价值。中电金信金融大模型数据集入选国务院国资委“首批央企人工智能行业高质量数据集”,正是对此体系有效性的有力印证。
Q金融大模型爆发增长,行业面临哪些核心数据挑战?
生成式AI正强力驱动数据集建设,但需突破数据广度与质量的双重挑战。当前痛点在于重复投入与数据孤岛。为此,中电金信提出四级数据分类框架:公开数据、行业可共享数据、内部Know-how数据、涉客户数据需分级管理。同时,数据治理亟须与新技术(如大模型)深度融合,利用大模型提升元数据管理精度,通过知识库更精准分析数据影响性和“血缘关系”。
以高质量数据为引擎,通过技术创新与生态共建,中电金信正协同行业伙伴铺设一条“金融数据快车道”,持续为金融等重点行业贡献数智力量。