针对跨学科环境挑战的大语言模型微调
摘要
大语言模型(LLMs)凭借先进的推理能力和数据整合能力,正在为各专业领域带来变革。然而,环境科学因其跨学科属性、专业术语体系以及从气候动态到生态系统管理的异质性数据,给大语言模型的应用带来了独特挑战。尽管在水文学、气候建模等子领域已取得进展,但目前尚无一个整合框架,能够生成高质量的领域专属训练数据,或在整个环境科学学科范围内评估大语言模型的性能。
为此,本研究提出了一个统一的技术流程(pipeline)以填补这一空白。该流程包含三个核心组件:
- EnvInstruct:用于提示词生成的多智能体系统;
- ChatEnv:规模达1亿词元(token)的均衡指令数据集,涵盖气候变化、生态系统、水资源、土壤管理和可再生能源五大核心主题;
- EnvBench:包含4998个评估项的基准测试集,可对分析、推理、计算和描述类任务进行评估。
基于该技术流程,研究人员对一个拥有80亿参数的模型(命名为EnvGPT)进行了微调。在独立的EnviroExam基准测试中,EnvGPT的准确率达到92.06±1.85%——相较于参数规模相当的基准模型LLaMA-3.1-8B,准确率提升了约8个百分点,且性能可与闭源模型GPT-4o-mini以及参数规模为其9倍的Qwen2.5-72B相媲美。在EnvBench基准测试中,EnvGPT在相关性(4.87±0.11)、事实准确性(4.70±0.15)、完整性(4.38±0.19)和表达风格(4.85±0.10)四个维度均获得大语言模型评估(LLM-assigned)的最高得分,在所有类