当前位置：首页 > news >正文

时间序列挖掘及建模

news 2025/7/16 8:28:24

一、时间序列

首先，什么是时间序列？简单说，就是按时间顺序记录的一组随机变量。比如我们连续 30 天记录的每日气温，按时间排好序，就是一条时间序列。我们挖掘它的目的，就是从历史数据中找规律，用来预测未来 —— 比如根据过去的销售数据预测下个月的销量，根据历史交通流量规划明天的出行路线。

那时间序列有哪些 “性格特点” 呢？主要有三个：

趋势性：就是长期来看的上升或下降趋势。比如近 10 年我国 GDP 持续增长，这就是明显的趋势性。
季节性：在一定周期内重复出现的波动。比如每年春节前后，航空机票销量会大幅上升，这就是季节性。
随机性：突然的、无规律的波动。比如一场突发暴雨导致某一天的打车量激增，这就是随机性。

根据这些特点，时间序列可以分为三大类：

纯随机序列：完全无规律，变量之间没任何关系，比如掷骰子的结果序列，这种序列没挖掘价值。
平稳非白噪声序列：均值和方差是常数，没有趋势，但有一定相关性（不是纯随机），适合用 AR、MA 等模型建模。
非平稳序列：均值或方差会变，有明显趋势或季节性，比如股票价格、月度销售额，这类序列需要先处理再建模。

二、建模前的 “准备工作”：时间序列预处理

拿到一条时间序列，不能直接建模，得先做预处理，核心是判断它是否平稳 —— 因为很多模型（比如 ARMA）只适用于平稳序列。怎么判断呢？主要有两种方法：

第一种是时序图检验。平稳序列的时序图应该围绕一个常数波动，均值和方差基本不变；如果图中明显有上升 / 下降趋势，或者波动越来越大，那就是非平稳的。比如 “1950-1998 年北京城乡居民定期储蓄占比” 的时序图，整体呈上升趋势，显然是非平稳的。

第二种是自相关图检验。自相关系数衡量序列自身在不同延迟期的相关性。平稳序列的自相关系数会快速衰减到 0 附近；而非平稳序列的自相关系数衰减很慢，甚至长期徘徊在较高水平。还是刚才的储蓄占比数据，它的自相关图衰减很慢，进一步印证了非平稳性。

三、平稳非白噪声序列：用 ARMA 模型 “捕捉规律”

如果预处理后，序列是平稳非白噪声的（有规律但平稳），我们就可以用 ARMA 模型来建模。它其实是 AR 模型和 MA 模型的组合，我们先简单了解下这两个 “基础款”：

AR (p) 模型：全称自回归模型，核心是 “用过去 p 个时刻的值预测当前值”。它的偏自相关系数（PACF）是 p 阶截尾的（超过 p 阶后突然变 0）。
MA (q) 模型：移动平均模型，核心是 “用过去 q 个时刻的随机误差预测当前值”。它的自相关系数（ACF）是 q 阶截尾的（超过 q 阶后突然变 0）。

而 ARMA (p,q) 模型，就是同时考虑自回归和移动平均，p 是 AR 的阶数，q 是 MA 的阶数。

那怎么建模呢？步骤很清晰：

先算序列的 ACF 和 PACF，根据截尾 / 拖尾特点确定 p 和 q（比如 AR 模型看 PACF 截尾，MA 看 ACF 截尾）；
估计模型的未知参数；
检验模型是否合格：关键看残差是不是纯随机序列（白噪声）。如果残差还有规律，说明模型没建好，得重新调 p 和 q；
模型合格后，就可以用来预测未来趋势了。

检验残差的方法有两种：一是正态性检验，p 值 > 0.05 说明残差非正态，可能有信息残留；二是 DW 检验，结果靠近 2 说明残差无自相关，靠近 0 或 4 则有问题。

四、非平稳序列：ARIMA 模型 “来帮忙”

现实中，我们遇到的大多是非平稳序列（有趋势或季节性），这时候 ARMA 就不够用了，得请出 ARIMA 模型。它的核心思路是：先通过 “差分” 把非平稳序列变成平稳序列，再用 ARMA 建模。

ARIMA (p,d,q) 中的 “d” 就是差分阶数 —— 比如 d=1，就是对序列做 1 阶差分（用当前值减前一个值），直到序列平稳。当 d=0 时，ARIMA 就退化成了 ARMA，所以 ARMA 其实是 ARIMA 的特殊情况。

除了 ARIMA，非平稳序列还有另一种处理思路：确定性因素分解，就是把序列拆成长期趋势、季节变动、循环波动和随机波动四个部分，分别建模再合成。不过 ARIMA 因为灵活性高，应用更广泛。

文章转载自：
http://almandine.hfytgp.cn
http://chiaus.hfytgp.cn
http://afloat.hfytgp.cn
http://autolyse.hfytgp.cn
http://benedict.hfytgp.cn
http://arteriole.hfytgp.cn
http://animal.hfytgp.cn
http://aerotherapeutics.hfytgp.cn
http://audible.hfytgp.cn
http://anchovy.hfytgp.cn
http://becoming.hfytgp.cn
http://cheesy.hfytgp.cn
http://bookmark.hfytgp.cn
http://canavalin.hfytgp.cn
http://beerslinger.hfytgp.cn
http://antilepton.hfytgp.cn
http://chemotactic.hfytgp.cn
http://ansa.hfytgp.cn
http://acceleratory.hfytgp.cn
http://aso.hfytgp.cn
http://aniseikonic.hfytgp.cn
http://bats.hfytgp.cn
http://aspectant.hfytgp.cn
http://agonizing.hfytgp.cn
http://canasta.hfytgp.cn
http://cantiga.hfytgp.cn
http://acquirement.hfytgp.cn
http://chamois.hfytgp.cn
http://agname.hfytgp.cn
http://astrolatry.hfytgp.cn

http://www.dtcms.com/a/281031.html

相关文章：

Linux系统集群部署模块之Keepalived双机热备

使用SQLMAP的文章管理系统CMS的sql注入渗透测试

Java全栈工程师面试实录：从电商系统到AIGC的层层递进

WSF70N10G N 沟道 MOSFET 在蓝牙耳机中的应用分析

Linux获取CPU/GPU的温度

docker部署gbase8s（数据持久化）并用可视化工具管理

NuGet01-安装及使用

gRPC实战指南：像国际快递一样调用跨语言服务 —— 解密Protocol Buffer与HTTP/2的完美结合

【GPIO】从STM32F103入门GPIO寄存器

Video Python(Pyav）解码一

面试150 完全二叉树的节点数

力扣73：矩阵置零

20250715_Sneak_neuro 靶机复盘

三种深度学习模型（LSTM、CNN-LSTM、贝叶斯优化的CNN-LSTM/BO-CNN-LSTM）对北半球光伏数据进行时间序列预测

【15】MFC入门到精通——MFC弹窗提示 MFC关闭对话框弹窗提示 MFC按键触发弹窗提示

C++(STL源码刨析/stack/queue/priority_queue)

Linux操作系统之信号：保存与处理信号

23种设计模式--#1工厂模式

运维打铁: 软件定义网络（SDN）的实践应用

tun2socks原理浅析

在新闻资讯 APP 中添加不同新闻分类页面，通过 ViewPager2 实现滑动切换

【LeetCode 热题 100】226. 翻转二叉树——DFS

Halcon双相机单标定板标定实现拼图

野卡恢复运营？关服已成趋势

路由器的核心原理以及作用

某东 jdgs参数unidbg环境检测patch分析

健康监测的微泰医疗的公司创始人背景、股权构成、产品类型及技术能力的全方位解读

腾讯元器开发流程解析

Enhancing Input-Label Mapping in In-Context Learning withContrastive Decoding

每日钉钉API探索：chooseUserFromList灵活选取自定义联系人