2025 | 时序预测新范式:多智能体AI系统实现全流程自动化!
在金融、气象、健康等众多领域,对未来的时间序列预测 (Time series forecasting) 都至关重要,它能帮助我们做出更明智的决策。然而,实际应用中的时间序列数据往往数量庞大、质量参差不齐,需要耗费大量人力进行数据清洗、模型选择和验证。现有的大多数模型要么只适用于特定场景,要么只关注模型本身而忽略了整个分析流程,导致自动化和通用性不足,这正是当前研究面临的难题。
为了应对这一挑战,本文提出了一种基于大型语言模型 (Large language models) 的通用智能体 (Agent) 框架,名为TimeSeriesScientist(简称TSci)。该框架通过模仿人类科学家的工作流程,实现了从数据诊断、模型规划、预测执行到报告生成全流程的自动化。实验证明,TSci的效果非常出色,其预测误差相比传统的统计模型和其它基于大语言模型的方案,平均分别降低了10.4%和38.2%。
另外我整理了ACMMM 2025论文+源码合集,感兴趣的自取!希望能帮到你!
原文 资料 这里!
二、论文基本信息

- 论文标题: TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis
- 作者姓名: Haokun Zhao, Xiang Zhang, Jiaqi Wei, Yiwei Xu, Yuting He, Siqi Sun, Chenyu You
- 作者单位: Stony Brook University, University of California, San Diego, University of British Columbia, Zhejiang University, University of California, Los Angeles, Case Western Reserve University, Fudan University
- 论文链接:https://y-research-sbu.github.io/TimeSeriesScientist/
- 代码链接:https://github.com/Y-Research-SBU/TimeSeriesScientist/
三、主要贡献与创新
- 首次提出了一个端到端的智能体框架TSci,利用大语言模型的推理能力与外部工具,自动化处理单变量时间序列预测任务。
- 创新性地引入了图表感知的多模态诊断方法,通过视觉分析来指导数据预处理 (Data preprocessing)、模式识别和模型选择。
- 在八个公开基准数据集上进行了广泛实验,证明了TSci框架优于传统的统计方法和当前先进的基于大语言模型的方法。
- 框架能够生成全面、透明的分析报告,不仅提升了预测的准确性,还极大地增强了整个预测流程的可解释性和可信度。
四、研究方法与原理
该论文提出的模型核心思路是:构建一个由四个专业智能体协作的自动化系统,模仿人类专家的完整工作流程,系统化地解决时间序列预测问题。

TSci框架由四个各司其职的智能体构成一个多智能体协作系统,它们分别是Curator、Planner、Forecaster和Reporter。
首先,Curator(数据策展员) 负责对原始数据进行诊断和预处理。它像一位数据管家,第一步是进行质量诊断。对于给定的时间序列数据 DDD,它会利用大语言模型的推理能力,结合外部工具分析其统计特性、缺失值和异常值情况,并推荐处理策略。这个过程可以形式化地表示为:
Q=Af(D)=⟨S,M,O,π⟩Q =A_f(D) = \langle S, M, O, \pi \rangle Q=Af(D)=⟨S,M,O,π⟩
在这里,AfA_fAf 代表质量诊断操作,SSS 是数据的基本统计信息(如均值、标准差等),MMM 和 OOO 分别是缺失值和异常值的信息,而 π\piπ 则是大语言模型推荐的处理策略。接着,Curator会根据策略 π\piπ 清洗数据,并自动生成三种关键的可视化图表:时间序列概览图、分解分析图和自相关分析图,以揭示数据内部的趋势、季节性和周期性等模式。最后,它会整合所有信息,生成一份包含数据质量、图表和模式分析的综合摘要,为后续步骤提供决策依据。

接下来,Planner(模型规划师) 登场,它的任务是根据Curator生成的分析摘要来缩小模型选择的范围。它会识别图表中的视觉模式(例如,识别出强季节性),并从一个预定义的模型库中挑选出最匹配数据特性的候选模型。对于每个被选中的模型 mim_imi,Planner会通过在验证集上进行评估来进行超参数优化 (Hyperparameter optimization),目标是找到使平均绝对百分比误差 (Mean Absolute Percentage Error, MAPE) 最小的参数组合 θi∗\theta_i^*θi∗。这个优化过程由以下公式定义:
θi∗=argminθi∈CiMAPEval(mi(θi))\theta_i^* = \arg \min_{\theta_i \in C_i} \text{MAPE}_{\text{val}}(m_i(\theta_i)) θi∗=argθi∈CiminMAPEval(mi(θi))
其中,MAPEval\text{MAPE}_{\text{val}}MAPEval 的计算方式为:
MAPEval(mi(θi))=100%∣D~val∣∑t∈D~val∣xt−x^t(i,θi)xt∣\text{MAPE}_{\text{val}}(m_i(\theta_i)) = \frac{100\%}{|\tilde{D}_{\text{val}}|} \sum_{t \in \tilde{D}_{\text{val}}} \left| \frac{x_t - \hat{x}_t^{(i,\theta_i)}}{x_t} \right| MAPEval(mi(θi))=∣D~val∣100%t∈D~val∑xtxt−x^t(i,θi)
这里的 x^t(i,θi)\hat{x}_t^{(i,\theta_i)}x^t(i,θi) 是模型 mim_imi 在参数 θi\theta_iθi 下的预测值。具体的优化流程在论文的算法1中有详细描述。完成优化后,Planner会对所有候选模型按其在验证集上的表现进行排序,选出表现最好的前k个模型。
然后,Forecaster(预测执行官) 接手Planner筛选出的顶级模型。它的核心任务是进行集成学习 (Ensemble learning)。它会分析这些模型的验证结果,智能地选择一种集成策略,例如,如果某个模型表现远超其他模型,就只用这个最好的模型;如果多个模型表现接近,就采用加权平均或中位数等方式来组合它们的预测结果。这种集成策略旨在结合不同模型的优点,以获得比任何单一模型都更稳定和准确的最终预测。确定策略后,Forecaster会在测试集上执行预测,并输出最终的预测结果和测试性能指标。
最后,Reporter(报告生成器) 负责收尾工作。它会将整个流程中的所有中间分析、决策理由、模型选择、预测结果和性能评估等信息整合起来,生成一份结构清晰、内容详尽的综合报告。这份报告不仅给出了最终的预测数值,还以自然语言解释了每一步的选择依据,使得整个复杂的预测过程变得透明、可解释,便于人类专家审查和理解。
原文 资料 这里!

五、实验设计与结果分析
为验证TSci框架的有效性,论文进行了一系列详尽的实验。实验使用了八个广为人知的公开数据集,包括ETTh1、ETTh2、ETTm1、ETTm2、Weather、ECL、Exchange和ILI,这些数据集覆盖了电力、气象、经济、健康等多个领域。为了评估预测性能,论文采用了两个关键指标:平均绝对误差 (Mean Absolute Error, MAE) 和MAPE。
对比实验

在与其它顶尖大语言模型(如GPT-4o、Gemini-2.5 Flash等)的对比中,TSci展现了压倒性的优势。论文中的表1清晰地展示了在八个数据集上的MAE和MAPE对比结果。数据显示,TSci在几乎所有测试案例中都取得了最好或次好的成绩。例如,在ETTh1数据集上,TSci的MAE仅为2.02,远低于其他模型的数值;在ILI数据集上,其MAE为1.41e5,同样是所有模型中最低的。总体而言,TSci的平均预测误差比第二名的方法低了38.2%,这证明了其作为一个通用框架的强大泛化能力和高准确性。

此外,论文还与传统的统计模型进行了比较。如图6所示,在ETT-small系列数据集上,TSci在大多数预测长度(horizon)下都优于统计方法。虽然在极短的预测长度上,一些简单的线性模型可能因其对局部自回归结构的捕捉而表现尚可,但随着预测时间的增长,TSci的优势变得愈发明显,反映了其适应不同数据模式的强大能力。
生成报告评估

为了评估框架的实用性和可解释性,论文还对Reporter生成的报告质量进行了评估。如表2所示,研究人员制定了五个评估维度,包括分析合理性、模型选择理由、解释连贯性、建议可操作性和结构清晰度。评估结果表明,TSci生成的报告在所有维度上均显著优于其他大语言模型直接生成的报告。特别是在分析合理性(AS)和模型选择理由(MJ) 这两个技术性最强的维度上,TSci的胜率普遍超过80%,这强调了其在做出严谨、有据可循的分析和决策方面的卓越能力。
消融实验

为了探究框架中每个模块的具体贡献,论文进行了消融实验。图7展示了分别移除数据预处理、数据分析和模型优化这三个关键模块后的性能变化。实验结果非常明确:移除任何一个模块都会导致预测性能下降。其中,移除数据预处理模块带来的性能下降最为严重,MAE平均增加了41.80%,这凸显了高质量数据对于可靠预测的决定性作用。移除数据分析和模型优化模块也分别导致了28.3%和36.2%的MAE增长,证明了智能体基于数据特性进行模型规划和参数调优的重要性。这些结果共同验证了TSci框架设计的完整性和各模块的必要性。
六、论文结论与评价
总结
本文成功地提出了TimeSeriesScientist(TSci),这是一个创新的、端到端的自动化时间序列预测框架。理论上,它通过一种模仿人类专家的多智能体协作机制,实现了数据处理、模型选择、集成预测和报告生成的全流程自动化与智能化。实验结果也证明了它的强大实力,在多个标准数据集上,TSci的预测准确性显著超越了现有的统计模型和其他领先的大语言模型方法,同时其生成的报告在严谨性和可解释性方面也表现出色。
评价
这项研究的实际意义在于,它为解决现实世界中复杂且繁琐的时间序列分析任务提供了一个通用且高度自动化的解决方案。对于需要处理大量时间序列数据的企业或研究机构而言,TSci可以极大地降低人力成本,提高分析效率和决策质量。其生成的透明报告也使得模型的决策过程不再是一个“黑箱”,增强了使用者对预测结果的信任。
从优点来看,TSci的模块化设计使其具有很强的灵活性和可扩展性,每个智能体的功能都可以独立优化或替换。同时,其端到端的自动化能力和强大的可解释性是其最核心的优势。然而,该方法也存在一些潜在的不足。首先,它依赖于像GPT-4o这样功能强大的底层大语言模型,这意味着计算成本和对API的依赖可能较高。其次,目前框架主要针对单变量时间序列,在更复杂的多变量预测场景下的适用性还有待验证。
为了进一步完善此方法,未来的研究可以尝试将TSci扩展到多变量时间序列预测,或者探索使用更轻量级的大语言模型作为核心,以在保证性能的同时降低运行成本。此外,可以考虑引入更丰富的外部知识,让智能体在分析时能结合领域背景信息,从而做出更精准的判断。总的来说,TSci为AI智能体在科学分析领域的应用开辟了新的方向,具有重要的启发价值。
原文 资料 这里!
