GANs环境应用及启发思考
摘要
本周阅读了三篇基于GAN的时序预测在环境方面的文献,分别是在干旱、 大气污染PM2.5、地下水污染。从每篇文献的创新点入手,分析其模型架构图、总结实验思路,最后得出一些改进论文的思路和启发。
干旱
阅读文献:https://doi.org/10.1016/j.eswa.2023.122211
创新点
1、提出CNN-LSTM模型与GAN方法融合
提出的模型架构
输入输出
输入:水文变量、气象要素、植被与水体光谱特征
输出:SMI干旱指标
架构图
优点
1、CNN侧重于局部特征,LSTM是长期依赖
改进启发
1、该文献中将所提出的模型应用到了非洲北部、非洲西部、非洲中部和非洲东部,说明不同地区的气候或者季风会影响干旱程度,所以考虑是否可以将水质预测的研究范围扩大
2、该文献对非洲地区的干旱进行了2020、2021、2022的短期预测,以及2040、2060的长期预测。水质预测也可以放眼长期,做相关实验证明
3、水质指标与相关性变量的一个相关性大小的柱状图。文章应该对衡量指标和其他特征的相关性大小进行排序比较
PM2.5
阅读文献:https://doi.org/10.1016/j.jhazmat.2024.136709
创新点
1、建立采集到的输入数据与预测输出的非线性关系
2、提出的ResNet-BiLSTM预测模型与GAN数据增强方法相结合
3、对提出模型进行“敏感性实验”
提出的模型架构
输入输出
输入:企业排放的工业污染源指标
由于PM2.5的浓度不仅受到排放源的影响,还受到大气污染物相互作用等(文献中给出了air pollutant与PM2.5的相关性分析图)。
气象条件直接影响污染物在大气中的扩散、沉降、转化、浓度分布,以及污染物在大气中的化学反应和二次转化过程(文献中给出meteorological factors与PM2.5的相关系数)
所以模型输入包含三部分——大气污染物浓度、气象参数、排放数据
输出:预测的PM2.5值
架构图
上述架构由“数据建模”和“预测建模”两部分构成。
数据建模组件:通过GAN方法实现的数据异常检测+样本扩增+将原始数据划分为不同时间步长样本的时间序列(数据归一化)
预测建模组件:ResNet算法(提取多重特征,增强BILSTM的分析能力)+BILSTM组件+全连接层+输出层
将普通的GAN方法与 ResNet-BILSTM架构相结合,其中GAN不仅在“数据增强”方面有贡献,在作用于“异常检测”
优点
1、模型架构中引入ResNet残差网络,既能增加网络的深度,又能解决“梯度消失”的问题(skip connected)
2、BILSTM网络通过采用两个LSTM层,能同时捕捉序列中的前向与后向依赖关系
实验思路
收集数据——扩增数据集——异常检测——模型预测——确定评估指标——基线模型对比实验——敏感性实验
改进启发
1、影响到水质好坏的因素可能不止原始水文、水质数据,是否可以收集更多的水资源监测数据,从而使得输入有更加丰富的特征。
2、对得到的原始水文、水质数据和预测指标进行相关性分析,或者给出相关系数
3、论文中选择了一段时间的监测数据作为输入指标,但没有明确说明选择该时间段的原因(是否具有季节性?)
4、查阅资料发现TN和DO不仅受到水温、盐度的影响,还会受到大气压等的影响。可以做相关实验,将WT、PH不同比例变化得出DO的变化(来证明是否具有线性关系)
地下水污染
阅读文献:https://doi.org/10.1016/j.jhydrol.2025.132753
问题:传统单向GAN虽能有效构建逆向映射,却存在重大缺陷——其逆向推算结果无法通过模拟输出与实测浓度的比对验证
解决方法:双向生成对抗神经网络(Bi-GAN)框架
创新点
1、采用Bi-GAN,确保逆向映射与前向映射过程的一致性
2、自适应采样策略,因为该提出模型依赖于训练样本质量
3、数据驱动特性降低时间成本
提出的模型架构
输入输出
从已知的输出(污染物浓度分布)反推未知的输入(污染源特征和相关参数)
输入:污染物浓度分布
输出:污染源特征和相关参数,包括污染源的位置、释放强度、释放时间以及相关的水文地质参数(如渗透系数、弥散系数等)
架构图
优点
1、Bi-GAN通过评估模拟输出与实测浓度的相似度,该相似度指标将反馈指导逆向过程的训练优化。
2、自适应策略
该自适应采样与Bi-GAN重训练过程将持续迭代,直至模拟CC与Obs的偏差(B)降至指定容差值δ以内。
实验思路
设计假设案例(含水层的分区非均质性、连续介质非均质性条件)——构建数据集(污染源参数GCSP、生成对应的污染物浓度CC样本)——构建了Bi-GAN框架(包含正向过程(GCSP到CC)和逆过程(CC到GCSP))——实现从观测到的污染物浓度到污染源参数的估计,并利用正向过程验证估计结果的准确性——引入自适应采样策略,根据模型当前估计误差动态生成新的训练样本,进一步提高模型的估计精度——对比实验(如集合卡尔曼滤波EnKF和遗传算法GA)
改进启发
1、在水质预测方面,或许也可以将“反演法”应用到不同条件下的水质预测。就比如,首先建立一个正向模型,在特定的观测特征下预测出DO和TN;然后根据Bi-GAN的反向推理,根据DO和TN观测数据,来估计模型参数,如污染源强度、排放时间、环境条件等,这样就可以使用正向模型来预测在不同条件下的水质变化。
总结
三篇在环境领域的基于GAN的时序预测文献,大致的实验思路都是差不多的。他们的创新点都是由预测模型不同而有不同的特色,所以在本周汇报中着重分析了模型架构。三篇文献中的实验方法有很多值得采纳的,后续会根据这些方法来进行水质预测的实验来丰富文章内容。