当前位置: 首页 > news >正文

突破Transformer局限!MICN:线性复杂度实现时序预测新高度

今天,我为大家分享一篇在时序预测领域颇具创新性的算法——多尺度等距卷积网络MICN。这项发表于2022年的工作,针对传统Transformer模型在长期预测中存在的计算复杂度高、局部特征提取不足等痛点,创新性地提出了一种结合CNN与Transformer优势的混合架构。通过系统性地融合多尺度卷积、等距卷积等关键技术,MICN在保持线性计算复杂度的同时,在多个基准数据集上实现了显著的性能提升(多变量预测提升17.2%,单变量预测提升21.6%)。下面让我们具体解析这个将局部特征提取与全局相关性建模完美结合的创新框架。

 完整文章链接:突破Transformer局限!MICN:线性复杂度实现时序预测新高度

接下来,我将深入对这篇论文展开全面解读。和以往一样,我会严格依照论文的结构框架,从研究背景、核心论点、实验设计到最终结论,逐一对文章的各个关键部分进行细致剖析 ,力求为大家呈现这篇时间序列预测论文的全貌,挖掘其中的研究价值与创新点。

1. Abstract

近年来,基于Transformer的方法在长期序列预测领域取得了惊人的性能,但用于计算全局相关性的注意力机制存在较高复杂度,且无法像CNN结构那样针对局部特征进行定向建模。为解决上述问题,本文提出将局部特征与全局相关性相结合,以捕捉时间序列的整体特征(如波动、趋势)。为充分挖掘时间序列中的潜在信息,本研究采用多尺度分支结构对不同潜在模式分别建模。通过下采样卷积提取局部特征,利用等距卷积获取全局相关性,从而分离提取各模式特征。本文提出的多尺度等距卷积网络(MICN)不仅更高效——在选用合适卷积核时具有关于序列长度的线性复杂度,同时展现出更优越的性能。在六个基准数据集上的实验表明,相比最先进方法,MICN在多变量和单变量时间序列预测中分别实现了17.2%和21.6%的相对性能提升。

2. Introduction

时间序列预测相关研究在现实世界中有着广泛应用,例如传感器网络监控(Papadimitriou & Yu, 2006)、气象预报、经济金融(Zhu & Shasha, 2002)、疾病传播分析(Matsubara et al., 2014)以及电力负荷预测。其中,长期时间序列预测的实际需求正日益增长。因此,本文聚焦于长期预测任务,其核心问题是基于历史观测值

图片

,预测未来时段的值

图片

(其中

图片

)。  

作为经典的CNN基模型,TCN(Bai et al., 2018)通过因果卷积建模时序因果关系,并利用空洞卷积扩展感受野,能更好地整合序列局部信息,在中短期预测中取得竞争优势(Sen et al., 2019;Borovykh et al., 2017)。然而受限于感受野大小,TCN往往需要堆叠多层以建模时间序列的全局关系,这显著增加了网络复杂度和模型训练难度。  

基于注意力机制的Transformer(Vaswani et al., 2017)在自然语言处理(Devlin et al., 2019;Brown et al., 2020)、音频处理(Huang et al., 2019)乃至计算机视觉(Dosovitskiy et al., 2021;Liu et al., 2021b)等序列数据中展现出强大能力。近年来其被应用于长期序列预测任务(Li et al., 2019b;Wen et al., 2022),能有效建模序列长期依赖关系,推动预测精度与时长的跨越式发展(Zhu & Soricut, 2021;Wu et al., 2021b;Zhou et al., 2022)。通过学习到的注意力矩阵表征序列不同时间点的相关性,可较好解释模型如何基于历史信息进行未来预测。但其二次方复杂度存在缺陷,且token对间的计算存在冗余,故降低计算复杂度成为重要研究方向,代表性工作包括:LogTrans(Li et al., 2019b)、Informer(Zhou et al., 2021)、Reformer(Kitaev et al., 2020)、Autoformer(Wu et al., 2021b)、Pyraformer(Liu et al., 2021a)、FEDformer(Zhou et al., 2022)。  

完整文章链接:突破Transformer局限!MICN:线性复杂度实现时序预测新高度

http://www.dtcms.com/a/313922.html

相关文章:

  • LeetCode 132:分割回文串 II
  • 作物生长模型Oryza V3实战19:场景模拟常见问题及解决
  • Redis7基数统计(HyperLogLog)深度分析
  • PostGIS面试题及详细答案120道之 (091-100 )
  • 读懂Node Exporter采集数据的原理
  • Spring Boot + ShardingSphere 实现分库分表 + 读写分离实战
  • day15 SPI
  • PE 方法中的海面边界建模:光滑与粗糙海面条件解析
  • Android JUnit 测试框架详解:从基础到高级实践
  • C 语言枚举、typedef 与预处理详解
  • TinUI较复杂面板布局演示
  • 使用1panel将http升级至https的过程
  • 8.高斯混合模型
  • Next Terminal 实战:内网无密码安全登录
  • Ubuntu共享文件夹权限设置
  • 面试题:闭包和循环的异步如何结合
  • 《算法导论》第 1 章 - 算法在计算中的作用
  • 微型化 IMU:重塑无人机与机器人的性能边界
  • 从HTTP到WebSocket:打造极速实时通讯体验
  • 微帧GPU视频硬编优化引擎:面向人工智能大时代的AI算法与硬编协同优化方案
  • web第一次作业
  • cf Educational Codeforces Round 177 C. Disappearing Permutation
  • C++八股文——设计模式
  • 分布式版本控制工具Git
  • 微服务配置管理:Spring Cloud Alibaba Nacos 实践
  • Scrapy爬虫集成MongoDB存储
  • 基于单片机空气质量检测/气体检测系统
  • FPGA学习笔记——简单的乒乓缓存(RAM)
  • docker容器命令
  • Dbeaver数据库的安装和使用(保姆级别)