当前位置：首页 > news >正文

TeR-TSF 论文解读

news 2025/10/4 6:25:55

论文：Text Reinforcement for Multimodal Time Series Forecasting

现有工作、问题、解决方法

1.利用历史数值数据，挖掘周期性和多分辨率——固有模态的瓶颈，需要其他信息补充——文本

2.加入文本的方法：图注意力；基于transformer的图注意力——难以捕捉细微文本表示——llm更好编码事件与文本信息 llm——将时间序列视作固定输入，忽略随机波动性——整合概率模型整合概率框架（扩散模型等）的多模态时间学列框架（TSF）——文本的缺失、与时序没有对齐——数据增强

3.数据增强方法传统的插值、噪声注入、生成模型——增强单模态时间序列具有局限性；依赖静态增强策略；无法生成与数值观测数据有动态关联性的文本——llm自适应生成对应文本 llm——无法判断生成文本对下游时间序列预测的辅助效果——用间接评价指标，可以通过强化学习

4.强化学习聚焦于模型层面聚焦于数据增强技术主要集中在时间序列数据的增强上

文本往往缺失、稀疏或与数值不对齐，论文提出把文本视为可以被强化的模态

方法

本文中的方法：基于强化学习的方法增强文本信息

核心是一个闭环的文本强化—评估—偏好优化流程。先把历史数值转成可读文本（Stxt）并拼上原始文本 E 与任务提示 P，喂给 LLM（TeR）生成若干候选的“强化文本” E_aug；把每个候选与时间序列一起输入多模态 TSF（时间序列用 patch token 化的 Transformer 编码，文本做 embedding 并通过 cross-attention 融合）得到预测，再用双重 reward评估每个候选：一是基于下游预测效果的奖励（r1 = −MSE），二是基于任务相关关键词覆盖的奖励（r2）。按综合 reward 排序取最优与最差作为偏好对，使用 DPO（Direct Preference Optimization）直接微调 LLM，使其更倾向生成高 reward 的文本。生成—评估—DPO 按轮迭代 m 次，并在 TSF 侧用选出的强化文本重训练/评估，形成闭环自我改进。

动机：把下游目标直接反馈给文本生成器（避免盲目生成）、通过关键词约束保证可解释性、用 DPO 避开复杂不稳定的 RL 套路同时保留偏好式优化信号。

实验

1. 在 Time-MMD（覆盖 Agriculture/Climate/Economy/… 共 8 个领域）上做了全面实证比较和消融试验。与多种基线（仅 TSF、直接把文本拼入的 TFHTS、仅生成但不 RL 的变体、只用 r1、以及多种 SOTA 多模态方法）比较，TeR-TSF（采用 r1+r2 的双奖励并用 DPO 微调生成器）在平均 MSE/MAE 上取得最低或次低误差，表格与实验结果显示整体平均误差明显优于不优化文本质量的方案；

2. 消融实验显示生成候选数 k 从 1 增到 2 带来收益但过大反而降效，RL 迭代轮数 m 有最佳区间，LLM 大小也有“适中最好、过大易过拟合”的现象

3. t-SNE 和 case study 展示了强化文本在语义上更集中于“trend/seasonality/peak”等时序相关词，从机制上解释了为什么生成的文本更有助预测。局限：方法依赖生成器质量且计算开销（多候选生成 + 下游评估 + 多轮微调）高，若 LLM 严重幻觉也会带来风险。