端侧大模型推理笔记
想要将大模型部署到端侧,下面是其常见操作学习笔记:
一、常见推理引擎框架
(1)llamacpp
llama.cpp 是一个用 C/C++ 编写的开源项目,旨在使用整数量化技术,在消费级硬件上高效地运行 LLaMA 及各种兼容架构的大语言模型。它的核心目标是极致的轻量化和高性能,使其成为端侧推理的明星项目。项目地址: https://github.com/ggerganov/llama.cpp。其核心优劣总结
方面 | 优势 | 劣势 |
---|---|---|
资源与性能 | ✅ 极致轻量:纯C++,无依赖,内存占用极低。 |