当前位置：首页 > news >正文

⼤模型驱动的DeepInsight Copilot在蚂蚁的技术实践

news 2025/7/22 8:04:57

本文整理自潘兰天（蚂蚁数据智能团队数据分析平台技术专家)在DA数智大会2025·上海站的演讲实录。

本文围绕AI技术在数据分析领域的应用及DeepInsight Copilot产品展开。DeepInsight是一款蚂蚁长期深耕数据分析领域的BI产品，本文首先介绍了DeepInsight Copilot产品概要，包括其在数据、信息、洞察、决策建议四个环节的功能与优势。随后阐述用户需求驱动下的技术演进，从FAQ模式到多模式融合分析，分析各代产品优缺点。接着讲解了技术架构发展、关键能力如门控智能体、可视化图表生成等。文中还探讨了DeepInsight Copilot规模化使用中的痛点及解决方案，探讨AI技术带来的机遇与挑战。

分享嘉宾｜潘兰天（蚂蚁数据智能团队数据分析平台技术专家）

编辑整理｜丁世奇

一、DeepInsight Copilot 产品概要介绍

数据从生产到内部消费的流程通常涵盖四个主要环节：数据采集、数据加工、数据分析以及数据应用。在这一流程中，DeepInsight 主要聚焦于数据分析环节。凭借多年的技术实践积累，我们将数据分析的核心流程提炼为四个关键部分。

首先是数据（Data），即传统意义上的数据表。在这个环节，我们着重保障数据资产的高质量、合规性、低成本以及有序性。

第二部分是信息（Information），其主要载体为报表，用于呈现汇总知识并体现业务语义，助力用户全面掌握业务状况。

第三部分为洞见（Insight），侧重于挖掘数据中的潜在规律，使用户能够先于竞争对手发现关键洞见。

第四部分是决策建议（Decison Recommendation），以可执行策略的形式呈现，其核心目标是借助决策智能系统快速生成决策建议，将最优决策时间压缩至分钟级别。

基于 DeepInsight（简称 DI），我们对其相关代码进行了长达八年的深度开发与优化，并推出了一系列商业智能（BI）产品。在数据环节，我们打造了强大的数据准备功能，支持引入 14 种以上不同数据源，并提供多表关联以及标准化数据集生产服务。数据处理完成后，进入信息环节，我们开发了报表制作与报表阅读功能。用户可以方便地创建工作簿与报表，并借助可视化拖拽操作轻松生成各类分析报表。在洞察环节，我们推出了自助分析模块，用户能够灵活取数、开展在线分析以及进行多轮探索，从而挖掘出隐藏在数据中的规律与洞见。最后，在决策建议环节，我们构建了智能分析模块，为用户提供了一个智能分析矩阵以及多种增强分析算法。在这些功能的基础上，我们进一步开发了五大 Copilot 助手，借助数据智能化手段，全方位提升用户数据分析的效率与效果。

在数据分析领域，我们明确了 Copilot 和智能体的相关定义。Copilot 是 ToB 产品中辅助用户完成一系列数据分析任务的模块，通常包含多个智能体；而 Pilot 则是 ToB 产品中替代用户完成任务的模块，也是由一系列具有泛化能力的数据分析智能体组成。数据分析智能体能够理解用户意图，并生成相应的数据分析动作。

在我们的场景中，Copilot 和智能体呈多对多关系，一个 Copilot 可复用多个智能体，一个智能体也可被多个 Copilot 使用。

目前，我们已构建了八大智能体，分别对应数据分析的八项能力，包括度量定义、口径查询、取数、分析、报表和图表制作、摘要解读、资产搜索、产品答疑和教学。基于这些智能体，我们进一步构建了五大 Copilot，每个 Copilot 会根据自身的产品特性和用户需求，组合使用对应的智能体，以实现数据分析的提效和效果提升。

在报表制作的 Copilot 场景中，它致力于通过智能化手段提升用户在报表和图表制作方面的效率。其核心能力体现在利用自然语言技术，让用户能够迅速地创建图表和生成界面操作。例如，以往用户可能需要进行十几次的拖拽操作才能生成一个图表，而现在只需下达指令，如“生成一个指标卡”或“生成一个折线图”，系统便能立即展示并生成相应的指标卡和折线图。此外，还有更高级的功能，用户可以通过自然语言生成具有完整思路的报表，这一功能尤其适合缺乏经验的用户，能够显著降低他们制作高质量报表的成本和难度。

报表制作的 Copilot 具备另一项高阶能力，即通过自然语言生成具有完整思路的报表。对于缺乏经验的小白用户而言，生成高质量报表往往成本较高，因为他们通常不清楚如何安排图表之间的逻辑关系。而我们的 DI 系统在此场景下可发挥优势：借助内置的报表思路模板以及用户自定义的看数思路，用户只需简单地发出一句指令，系统便能快速生成整张报表，且报表中的图表会按照清晰的逻辑和连贯的思路进行排列。

报表制作的 Copilot 还具备知识答疑功能。当用户配置报表时，如果遇到诸如颜色配置的问题，可以在 Copilot 中直接询问，例如“颜色怎么配置”，系统会立即提供相关功能的知识支持，从而减少人工咨询的成本。

同时，在报表阅读方面，Copilot 侧重于提供分析解读能力。用户只需在页面中输入一句话，即可快速呈现报表的全貌和摘要，并生成解读报告。此外，用户还可以针对报表中的特定指标进行深入分析，以产出有价值的分析洞见。

报表阅读侧的第二个核心能力是基于指标的自然语言取数。用户无需调整图表或报表，直接通过自然语言即可进行指标的下钻分析、分布分析等操作，极大提升了数据分析的灵活性和效率。

第三个核心能力是自然语言的口径问答。当用户对报表中的指标计算方式或数据来源有疑问时，可以通过自然语言查询，系统将快速追溯指标的计算逻辑和数据血缘，帮助用户确认数据资产的准确性和可靠性。

在智能数据 Copilot 中，我们还强化了资产查找功能。用户可以通过自然语言指令，如“查找某报表”或“定位某指标资产”，快速检索并确认相关资产，显著提高资产查找的效率。

此外，在自助分析 Copilot 中，我们引入了基于 Text2DAL（一种自训练的 SFT 取数模型）的自然取数能力，支持用户通过自然语言进行多轮取数操作，进一步丰富了数据分析的交互方式。

DI Copilot具备自然语言定义度量的核心能力。以往用户生成指标需从 DWD 表生产成 DWS，再生成 ADM 后进行指标计算与聚合，成本高、耗时长。如今用户仅需一句话即可快速定义指标。此外，DI Copilot还具备自然语言增强分析能力，用户可对二维表和取数结果进行预测、异动、波动等分析，快速获取洞见。

二、用户需求驱动的DeepInsight Copilot技术演进

在用户需求驱动下，DI Copilot技术历经三代演进。起步较早的第一代采用 FAQ 模式，回答精准但门槛高，用户需按固定模板提问，且无法识别用户真实意图。为改进不足，第二代引入对话模式。对话模式的优势在于门槛适中且采纳率高。用户只需输入部分意图，系统便会通过对话策略，如澄清追问和缺失反问等方式，逐步引导用户明确其需求。然而，其不足之处在于用户可能不知道如何有效提问。

我们由此发展出第三代引导式对话模式，融合业务知识、用户历史提问、增强分析算法及大模型，生成并推送最匹配的问题供用户点击或修改，快速完成数据分析取数。此模式降低分析门槛，提高采纳率，但不足之处在于自然语言指令与视觉可视化仍存在脱节。

我们由此发展出第四代多模式融合分析，将自然语言与组件拖拽相结合。在报表制作中，左侧配置区与右侧报表组件拖拽区共享同一上下文。用户可在左侧指令区输入自然语言指令，如“生成指标卡”，中间区域随即生成相应指标卡。用户随后可通过右侧拖拽操作为指标卡添加维度和度量，并继续在左侧输入指令添加过滤器或调整颜色。右侧自然语言输入与左侧拖拽操作联动，不仅提升了报表制作效率，还增强了用户对工具的熟练度。

我们对应发展了两代技术架构。第一代基于任务多轮对话系统，主要模块包括：

1. NLU（语言理解）：理解用户输入，识别意图和实体信息。

2. DM（对话管理）：跟踪对话状态，生成对话策略。

3. NLG（自然语言生成）：根据对话策略生成准确结果并返回给用户。

这一代架构通过多轮对话实现任务目标，但存在效率和表达能力的局限。

在 DI Copilot 的自助分析功能中，第一代多轮对话系统是这样实现的：假设用户提出一个取数问题，比如“帮我查询最近 30 天各商品类别的折扣平均值”。系统首先会进行意图识别，判断这是一个取数请求。接下来，系统会执行 NLU（语言理解）模块，对问题进行实体拆解，比如识别“最近 30 天”为订单日期，“折扣”为度量。然后，系统将这些信息以三元组的形式传递给 DM（对话管理）模块。在这里，DST（对话状态跟踪）会合并上下文信息，DPO（对话策略生成）则调用 Text2DAL 模型生成取数指令。最终，DAL 指令由执行引擎处理，生成取数结果并返回给 NLG（自然语言生成）模块，组装成自然语言回复用户。这个框架基于工程化思路设计，但在大模型时代，由于大模型能够覆盖 NLU 中的槽位提取和 DST 的多轮对话功能，这种架构逐渐显得落后。

为了应对第一代框架能力不足、无法支持单轮多任务协同以及不适用于复杂场景的问题，我们引入了第二代技术架构，并构建了一个标准的智能体架构。以下是其工作流程：

1. 用户提问：用户在 Copilot 矩阵的自助分析模块中输入取数问题，例如：“查看最近一年的利润，以及提升利润的公式是什么样子？”

2. 调用智能体结构：系统调用标准智能体结构。

3. 感知与理解：智能体结构中的感知与理解模块对问题进行实体识别和意图识别。

4. 推理子系统：将识别后的信息传递给推理子系统。

5. 智能化数智平台：推理子系统调用智能化数值平台。

6. 模型链接与语言生成：智能化数值平台链接基于百灵微调的Text2DAL模型，生成查询语言。

7. 工程子系统：生成的查询语言返回给工程子系统。

8. 计算引擎取数：工程子系统调用 DAL 计算引擎执行取数操作。

9. 结果返回：将取数结果组装并返回给用户。

从技术实现角度看，AI 应用主要有两种模式：提示词工程和微调工程。

提示词工程具有低成本、高灵活性和良好的适用性等优点，但其效果严重依赖提示词质量，对模型能力也有一定依赖，且稳定性较差。例如，更换或升级模型后，需要重新进行评测和回归测试。提示词工程适用于开放式泛化以及需要高度推理和规划能力的场景，如 DI 中的分析思路生成、看数思路生成和业务简报报告生成任务。

微调工程具有性能高、垂直领域表现好的优点，能够解决大模型在特定领域知识不足的问题。然而，其成本较高，每次微调都需要大量的计算和推理资源，还需要合成各种语料。此外，如果合成语料质量不高，可能会导致过拟合风险。微调工程适用于对输出有严格约束或代码类输出的场景。

在我们的试用场景中，微调主要应用于以下方面：

1. NLU（自然语言理解）模型：专注于提升对用户输入的精准理解，确保系统能准确识别用户的查询意图。

2. Text2Chart 模型：负责将用户的需求转化为图表生成的模型描述语言（DSL），实现报表和图表的自动化生成。

3. Text2DAL 模型：用于生成我们的专属分析语言 DAL，支持复杂的分析任务。

4. Text2Analysis 模型：针对增强分析场景，生成特定的分析指令，助力深入数据分析。

微调在这些场景中发挥作用，通过优化模型以适应特定任务需求，提升任务执行的准确性和效率。

接下来我们深入探讨 NLU（自然语言理解）和 Text2Chart模型的设计。关键能力之一是我们的门控智能体，其核心在于自然语言理解（NLU）。该智能体基于数据上下文理解用户意图，规划智能体的执行路径，并协同输出最终结果。例如，当用户询问“最近交易情况怎么样”时，我们的感知模块会识别出该问题包含两个取数意图（查看最近7天的交易金额和交易数量）以及一个分析意图（分析交易金额的趋势）。随后，任务会被拆解为两个并行的取数任务和一个分析任务，以便更高效地处理用户请求。

执行后，取数任务的结果将提供给分析智能体，用于进一步分析。之后，系统会整合分析结果与取数结果，形成统一的输出。这一过程构成一个完整的任务执行流程。最后，系统会协同工作，将取数和分析结果合并，发起智能体调用，获取结果并进行整合。

随着用户需求和产品功能的不断发展，我们的NLU系统经历了四次重要迭代：

1. 第一次迭代：采用规则识别方式，具有较高的精准度。但由于自然语言表达的多样性，规则无法穷举所有情况，容易产生冲突。

2. 第二次迭代：引入单职责模型，专注于取数任务的实体提取和意图识别，但多智能体上下文拓展能力有限。

3. 第三次迭代：开发通用NLU模型，整合多种智能体的通用实体和意图，但在处理模糊表达和口语化问题时准确率较低。

4. 第四次迭代：采用大模型门控加上强推理能力的DeepSeek进行理解和分发，提高自然语言处理的准确性和效率。

通过这些迭代，NLU系统不断优化，以更好地理解和处理用户的自然语言输入。

第二个关键能力是可视化图表生成流程，其核心在于 Text2Chart 大模型。当用户输入诸如“帮我去画一个主副指标卡，展示最近 7 天的单位成本和数量”之类的指令时，系统首先会在感知与理解阶段识别用户的意图，即制作图表。接着，系统会拆解问题中的数据集字段，也就是实体信息，例如，“最近 7 天”对应的是订单日期，“单位成本”和“数量”则是度量。随后，系统进入规划阶段，确定如何执行图表生成任务。之后，系统调用 Text2Chart 模型生成图表的 DSL（领域特定语言），同时将相关数据集信息填充到 DSL 中。最后，系统调用图表工具集，根据生成的 DSL 渲染图表并展示给用户。这一流程使得用户能够通过自然语言快速生成所需的可视化图表，极大提升了数据分析的效率和用户体验。

在可视化图表生成流程中，系统会根据用户问题的复杂性进行规划判断。如果问题涉及多个图表制作或需要构建数据分析思路，系统将生成一套详细的执行流程，并多次调用图表智能体以确保所有需求得到满足。接下来，系统进入推理阶段，基于 Text2Chart 模型生成图表的DSL，并将数据集相关信息填充其中。最后，系统调用图表工具集，生成可供前端渲染的图表，完成从用户指令到图表展示的全过程。

我们对Text2Chart模型的微调流程进行了精心设计，包含以下六大关键环节：

1. 语料合成：整合用户真实问题、专家领域模式以及模糊或长尾问题样本，构建全面的语料基础。

2. 模型训练：建立包含50多种核心图表类型、150多种界面操作指令以及3000多种自然语言模式的Text2Chart语料体系。

3. 评测集构建：开发从L1到L4的图表评测分类体系，为模型评估提供标准化框架。

4. 自动化评测平台：建立自动化评测平台，实现对模型训练效果的快速、客观评估。

5. 强化学习与反馈：基于用户反馈实施强化学习，针对性地进行模型优化和定向微调。

6. 持续迭代：通过螺旋式上升的方式不断提升Text2Chart模型的性能和准确性。

这一流程不仅确保了模型能够准确理解用户指令并生成相应的图表，而且通过持续的优化和评估，不断提升图表生成的质量和效率。

系统会自动化评估模型训练效果，并基于用户反馈进行强化学习，通过中断率分析和定向微调，持续提升 Text2Chart 模型的性能。我们会构建标准化反馈采集链路，收集用户显示和隐式反馈。然后通过分治方法调用多次模型，链式生成各环节参考答案，结合领域、DSL知识和程序约束校验答案合理性。LLM as Judge 也会调用多次模型，依据预设奖励规则和批判规则，对线上问题进行标注和正确率评价，形成分析结果明细。基于明细构建用户问题正确率分析报告，指导产品设计，自动化构建评测语料和线上合成语料，形成反馈闭环，持续提升模型技术水位。

依托 DI Copilot，我们构建了数据领域的自动化评测平台，对取数搜索和图表智能体进行全面评测。以图表为例，定义了 L1 到 L4 级别的指令评测集，形成丰富正确率评价体系，目前图表正确率已达到 94.71%。

第三个关键能力是自然语言生成分析报告。系统结合用户输入、系统或用户配置的分析主题、思路和方法，自动化生成分析报告。例如，用户提问：“我想看一下GMV的变动是怎么样子，然后他哪个地方有问题？然后他的未来发展是什么样子？”系统基于内置的多种基础算子进行深度归因分析，挖掘出根本原因。

通过多个步骤，如预测分析、异动分析和分布分析，系统最终生成一个图文融合的分析报告。这一过程展示了系统如何利用自然语言处理和数据分析能力，为用户提供了一个全面、深入的分析报告，帮助他们更好地理解和预测业务发展趋势。

三、DeepInsight Copilot 高阶智能化技术建设

在 DI Copilot 高阶智能化技术建设中，我们在蚂蚁内部广泛应用 DI Copilot，但在使用过程中遇到了一些挑战。首先，部分用户不清楚如何提问以获取有效的数据分析结果。其次，许多用户尤其是新手，缺乏生成高质量报表的思路。此外，一些用户在深度分析方面存在困难，不知道如何运用智能分析算法。

为了解决这些问题，我们设计了一套引导式问题推荐系统。该系统根据用户的不同等级（新手用户、普通用户、专家用户）推荐相应难度的问题，帮助用户快速上手并提升数据分析能力。针对报表生成问题，我们引入了多种分析思路，包括基础思路、行业特定思路和经典分析模型，以帮助用户生成高质量报表。系统还会根据用户提问，调用智能体进行分析思路规划和图表生成，最终完成报表渲染。