偏最小二乘结构方程(PLS-SEM)_TomatoSCI分析日记
之前我们介绍过基于贝叶斯网络的结构方程,适用于数据驱动的因果探索。然而,当数据中包含潜变量(即由多个观测指标组合而成的综合概念)时,贝叶斯结构方程不太适用。这时,PLS-SEM能够很好地填补这一空白。PLS-SEM 的特点主要有两点:
①容许潜变量存在,可以将多个观测指标分类整合,简化数据结构;
②需要基于理论或研究目的提出路径假设,是一种假设驱动的模型分析方法。
1 潜变量的设定
①潜变量应代表明确的抽象概念,而非随意组合指标。指标必须能够共同反映潜变量的核心特性。例如,“水质”概念可以由 NH3N、NOx、TN、TP、pH 等指标构成。
②每个潜变量包含 3-5 个指标较为合适。指标过少(1-2 个)会削弱潜变量的解释力,而指标过多可能增加噪声,影响模型稳定性。如果指标较多,可考虑进一步划分潜变量,但应确保每个指标有意义。
2 路径的假设
- 需明确哪个潜变量作为自变量(影响因素),哪个潜变量作为因变量(被解释变量),如 A → B。不同软件或编程语言对方向的定义略有差异,R 中箭头所指即为因变量。
- 验证性研究——你的假设有理论或前人研究支撑,按照前人的假设。
- 探索性研究——前人研究很少或没有,你可以根据研究目的提出假设,然后做出模型后验证。
3 分析实例
在示例数据中,定义了四个潜变量:
Water quality:NOx、TN、TP、PO、DOC
Biodiversity:Shannon、Simpson、Chao
DOM Categories:Ami、Car、Lig、Lip、Pro
DOM Traits:HC、OC、NC、SC、SN(图1)。
路径假设如下:
水质(Waterquality)会直接影响生物多样性(Biodiversity);
生物多样性会一步影响 DOM 分类(DOMCategories)和 DOM 特征(DOMTraits)。
DOM 分类又会影响 DOM 特征。
模型输出包括三个部分:路径模型图、载荷可视化图以及结果文档,下面逐一介绍。
- 路径模型图(外部模型):变量之间箭头的指向和我们假设的一样,红色代表正影响,蓝色代表负影响,跟箭头上的系数符号是对应的。这是R的原始出图,十分粗糙,这里就先不优化。主要关注路径的方向以及是否显著(看p值,在结果文档里)、变量的R方(在结果文档里)。(图2)
- 载荷可视化图(内部模型):展示各观测指标在其所属潜变量上的标准化载荷大小,载荷值可以为正或负,正值表示该指标与潜变量正相关,负值表示反相关。载荷的绝对值越接近 1,说明该指标与潜变量的相关性越强、解释力越好。一般来说,载荷绝对值低于 0.7 的指标需要结合理论判断是否保留。本图按潜变量分组显示,方便观察每个潜变量的核心指标及其重要性。(图3)
文档结果:结果太多,只挑重要部分展示(图4)。①模型整体拟合指标(Goodness-of-Fit, GOF),这个可以看做整体的R方了,上限是1;②指标载荷的具体值;③潜变量之间的路径是否显著也就是关注p值;④变量的R方;⑤效应量,包括直接效应、中介效应和总效应。
4 总结与思考
PLS-SEM 与贝叶斯结构方程各有侧重:
·PLS-SEM:适合存在潜变量且以假设驱动的研究场景;
·贝叶斯结构方程:适合数据驱动、探索潜在因果关系的分析。
掌握这两类方法后,在处理多变量、因果或路径分析研究时,可以根据数据特点与研究需求灵活选择。对于一般的多变量研究,这两类结构方程均为常用且有效的分析方案。
TomatoSCI数据分析平台,陪你过完最后一关!✅冗余分析一键完成 ✅ 免登录 ✅ 实时专业答疑 ✅ 附参考资料。