边缘大型语言模型综述:设计、执行和应用
(2025-08-31) A Review on Edge Large Language Models: Design, Execution, and Applications (Edge 大型语言模型综述:设计、执行和应用)
作者: Yue Zheng; Yuhao Chen; Bin Qian; Xiufang Shi; Yuanchao Shu; Jiming Chen; |
---|
期刊: ACM Computing Surveys (发表日期: 2025-08-31) |
期刊分区: ㅤㅤ ㅤㅤIF 23.8 ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤSCI Q1 ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ ㅤㅤ中科院 工程技术1区 ㅤㅤ ㅤㅤ |
本地链接: Zheng 等 - 2025 - A Review on Edge Large Language Models Design, Execution, and Applications.pdf |
DOI: 10.1145/3719664 |
摘要: Large language models (LLMs) have revolutionized natural language processing with their exceptional understanding, synthesizing, and reasoning capabilities. However, deploying LLMs on resource-constrained edge devices presents significant challenges due to computational limitations, memory constraints, and edge hardware heterogeneity. This survey provides a comprehensive overview of recent advancements in edge LLMs, covering the entire lifecycle—from resource-efficient model design and pre-deployment strategies to runtime inference optimizations. It also explores on-device applications across various domains. By synthesizing state-of-the-art techniques and identifying future research directions, this survey bridges the gap between the immense potential of LLMs and the constraints of edge computing. |
此文为机器辅助翻译,仅供个人学习使用,如有翻译不当之处欢迎指正
1 ABSTRACT
大型语言模型 (LLM) 凭借其卓越的理解、合成和推理能力,彻底改变了自然语言处理。然而,由于计算限制、内存限制和边缘硬件异构性,在资源受限的边缘设备上部署 LLM 会带来重大挑战。该调查全面概述了边缘 LLM 的最新进展,涵盖整个生命周期,从资源高效的模型设计和预部署策略到运行时推理优化。它还探讨了各个领域的设备应用程序。通过综合最先进的技术和确定未来的研究方向,这项调查弥合了 LLM 的巨大潜力与边缘计算的限制之间的差距。
2 Introduction
基于 Transformer 的大型语言模型 (LLM) 近年来取得了重大进展,重塑了自然语言处理 (NLP) 的格局。这种快速发展导致了几个开源 LLM 的出现,包括 Meta 的 LLaMA 系列 [38, 176, 177]、Google 的 Gemma [169, 170],以及最近的 DeepSeek AI 的 DeepSeek 系列 [58, 113]。LLM 的成功源于它们在自然语言理解、合成、推理和生成方面的卓越能力 [35, 36],推动了文档摘要、问答和文本重新表述等应用的突破 [92, 97, 115]。这些进步对学术和工业领域都产生了深远的影响,使 ChatGPT [135]、Copilot [129] 和 Gemini [168] 等广泛采用的工具得以开发。LLM 的持续进步突显了它们对人工智能 [23, 84, 194]、人机交互 [61, 72, 87] 等的变革性影响。
虽然基于云的部署传统上支持 LLM 的计算需求,但越来越需要将这些模型引入资源受限的边缘设备,包括个人代理 [147, 194]、办公助理 [61, 168] 和工业物联网 (IoT) 系统 [76, 174]。基于边缘的 LLM(直接在设备上执行)提供了关键优势:首先,本地推理可确保在没有互联网连接的情况下实现更快的响应和功能 [19],这对于机器人和自主系统中的应用至关重要 [23, 31, 198]。其次,在设备上处理敏感数据消除了与云传输相关的风险 [42, 168]。最后,设备上学习使模型能够适应用户特定的偏好和上下文 [13, 86, 137, 143]。
但是,在资源受限的边缘设备上部署 LLM 会带来重大挑战。首先,计算和内存约束对 LLM 加载和推理施加了很大的限制。LLM 通常由数十亿个参数组成,导致巨大的内存占用超过大多数边缘设备的 RAM 容量 [27]。例如,具有 7B 参数的 LLaMA-2 [177] 模型需要超过 8 GB 的内存,即使在 FP16 精度下也是如此。如果没有压缩技术,边缘设备在模型加载期间面临延迟峰值和内存溢出的风险 [112]。此外,自我注意机制相对于序列长度的二次复杂性加剧了计算需求,在边缘中央处理器(CPU)、图形处理单元(GPU)或神经处理单元(NPU)上造成了严重的吞吐量瓶颈[156]。
其次,边缘计算设备的异构性使运行时推理优化复杂化。边缘设备包括具有 ARM CPU 和有限内存的智能手机,以及配备低功耗芯片的 IoT 设备。在移动设备上,llama.cpp [49] 和 MLC LLM [171] 等框架优化了计算运算符,而边缘 GPU 则采用 vLLM [95] 等方法来缓解内存带宽限制并提高吞吐量。有效的软硬件协同设计对于使工作负载与硬件特定功能保持一致至关重要。此外,硬件的选择(例如CPU、GPU或NPU)及其与软件框架的集成直接影响推理效率,因此需要针对不同边缘环境量身定制的适应性解决方案[225]。
最后,开发实用的边缘应用程序仍然具有挑战性,尤其是在将集中式 LLM 处理与分布式边缘场景联系起来时。在个人和企业应用程序中,AutoDroid [194] 和 WebAgent [61] 等框架展示了保持任务自动化的响应性和准确性的复杂性。对于自动驾驶汽车 [23, 174] 等工业系统,精确的任务优先级和动态资源分配对于平衡 LLM 推理与实时控制过程至关重要。这些特定于域的优化对于确保 LLM 满足资源受限设备上的实际延迟和可靠性要求至关重要。
为了应对这些挑战,我们设计了一个全面的优化工作流,将技术集成到基于边缘的 LLM 部署的整个生命周期中,如图 1 所示。从量化、修剪和知识蒸馏等预部署方法开始,该工作流支持创建紧凑、资源高效的模型,从而在保持性能的同时减少计算需求。然后将这些模型部署到边缘设备上,其中运行时优化(涵盖软件级策略、硬件级增强和硬件-软件协同设计)确保无缝适应异构环境。最后,优化的模型为各种设备上的应用程序提供支持,从个人助理到企业系统和工业解决方案,展示了边缘 LLM 的实际影响。这个统一的流程有效地解决了关键的部署挑战,展示了离线压缩和实时优化如何共同支持各种实际应用程序。
按照这个工作流,本调查旨在全面探索在边缘和移动设备上启用 LLM 所涉及的关键领域,包括三个关键方面,如图 2 所示。具体说来
- 离线预部署模型设计技术。它专注于压缩模型,以减小大小并简化在边缘设备上的部署。由于规模、Transformer 架构和不同的任务,量化、修剪、知识蒸馏和低秩逼近等传统方法在 LLM 中面临着独特的挑战 [2, 77]。这些挑战激发了为 LLM 量身定制的新型压缩方法。量化通过用更少的位表示权重和激活来减小 LLM 的大小 [112, 153]。修剪去除了不必要的注意力头或其他 Transformer 组件,无论是结构上的还是非结构性的 [94, 197]。知识蒸馏将知识转移到更小的模型 [82, 110]。低秩近似利用矩阵冗余进行有效压缩 [69, 109]。补充方法,如高级预训练策略、数据管理和架构优化,进一步提高了压缩效果 [127, 130, 169]。
- 在线运行时推理优化。它引入了推理优化技术,可以提高资源受限的边缘设备上的 LLM 性能。关键策略包括软件级优化、硬件-软件协同设计和硬件级优化。软件级优化包括用于云边缘协作的资源感知调度策略 [17, 161, 227]、单设备推理场景 [51, 154, 216] 以及用于高效内存管理和张量作的轻量级框架 [95, 157]。软硬件协同设计将软件算法与特定的硬件功能集成在一起,促进了高效的硬件分析,并实现了硬件感知推理算法[56,186]。硬件级优化介绍了常用的边缘硬件设备,突出了它们在设备上 LLM 推理方面的创新 [172, 213]。
- 基于 LLM 的设备上应用程序。它展示了设备上 LLM 对个人、企业和工业领域的实际影响。在个人应用中,它们为 AI 助手提供日常管理、医疗保健监测和陪伴等任务,提供隐私保护和低延迟交互 [72, 119, 194]。在企业设置中,设备上的 LLM 通过消息完成、会议摘要和敏感数据的安全本地处理来提高工作效率 [105, 175, 234]。在工业场景中,它们实现了自动驾驶、故障定位和异常检测等实时和本地处理能力,提高了复杂环境下的效率和安全性 [54, 84, 174]。
通过采用这些创新技术和方法,开发人员可以利用减小模型大小和提高计算效率的优势,促进 LLM 在边缘设备上的无缝集成。这一进步不仅提高了边缘计算性能,还拓宽了 LLM 在资源受限环境中的适用性,有可能彻底改变边缘 AI 应用的格局。
本文其余部分的结构如下:第2节研究了LLM复杂性和边缘设备能力之间不断扩大的差距,回顾了高效LLM和边缘计算的相关工作,并分析了设备上LLM优化的研究趋势,为我们的调查奠定了背景。第3节和第4节分别介绍了离线预部署技术和在线运行时优化的最新方法。第5节深入研究了llm的设备上应用,强调了它们的巨大潜力。第6节讨论了设备上llm领域的未来方向和开放挑战,而第7节总结了调查,总结了获得的关键收获和见解。
3 背景和相关工作
LLM 的快速发展和对边缘计算的需求不断增长,导致人们对在资源受限的设备上部署这些强大的 AI 模型的兴趣日益浓厚 [112]。然而,由于 LLM 的计算复杂性与边缘设备的能力之间存在显著差异,这一努力受到了阻碍。图 3 说明了这种不断扩大的差距,显示了估计的 LLM 预训练 FLOP [18, 148](以 TFLOP 衡量)与边缘设备 [30