当前位置: 首页 > news >正文

LLM全栈框架完整分类清单(预训练+微调+工具链)

一、预训练框架

1. 大规模分布式训练框架

框架名称核心能力GitHub地址
Megatron-LM3D并行训练、FlashAttention支持、Transformer架构优化(NVIDIA生态)NVIDIA/Megatron-LM
DeepSpeedZeRO优化系列、3D并行、RLHF全流程支持(微软生态)microsoft/DeepSpeed
ColossalAI多维并行、Gemini内存管理、自动并行策略(国产最优方案)hpcaitech/ColossalAI
BMTrain中文模型优化、ZeRO实现、显存优化(OpenBMB生态)OpenBMB/BMTrain
Alpa自动并行训练、JAX/TPU原生支持(学术研究友好)alpa-projects/alpa
FastMoEMoE架构专用、动态路由优化(混合专家模型首选)laekov/fastmoe

2. 通用训练框架

框架名称核心能力GitHub地址
Fairseq序列模型优化、多任务支持(Meta官方框架)facebookresearch/fairseq
PaddlePaddle全栈支持、产业级优化(百度飞桨生态)PaddlePaddle/Paddle
MindSpore端边云协同、自动并行(华为昇腾生态)mindspore-ai/mindspore
OneFlow分布式训练、静态图优化(国产高性能框架)Oneflow-Inc/oneflow
JAX/Flax函数式编程、TPU原生优化(Google科研生态)google/jax

3. 预训练工具链

工具名称核心能力GitHub地址
Transformers集成数万预训练模型、多模态支持(Hugging Face生态核心)huggingface/transformers
ModelScope模型仓库+训练平台(阿里巴巴多模态生态)modelscope/modelscope
FairScale分布式训练、显存优化(Meta官方工具)facebookresearch/fairscale

二、微调框架

1. 全参数微调框架

框架名称核心能力GitHub地址
LitGPTFSDP支持、量化训练、全流程管理(Lightning AI官方方案)Lightning-AI/lit-gpt
DeepSpeed-ChatRLHF全流程优化、混合并行(微软对话模型专用)microsoft/DeepSpeed-Chat
MosaicML算法优化、云端训练(商业级SaaS方案)mosaicml/composer

2. 参数高效微调(PEFT)

框架名称核心能力GitHub地址
PEFTLoRA/QLoRA/AdaLoRA、Prefix Tuning(Hugging Face官方库)huggingface/peft
OpenDeltaDelta Tuning、多模态适配器(清华NLP组)thunlp/OpenDelta
S-LoRA服务化LoRA、动态批处理(Stanford优化方案)S-LoRA/S-LoRA

3. 指令微调框架

框架名称核心能力GitHub地址
LLaMA-Factory多模型支持、RLHF集成(社区最活跃框架)hiyouga/LLaMA-Factory
Chinese-LLaMA-Alpaca中文指令优化、词表扩展(中文领域首选)ymcui/Chinese-LLaMA-Alpaca
TRLRLHF训练、PPO/DPO实现(Hugging Face官方方案)huggingface/trl

4. 量化训练框架

框架名称核心能力GitHub地址
GPTQ低比特量化、训练后优化(IST-DASLab方案)IST-DASLab/gptq
QLoRA量化LoRA、显存占用优化(华盛顿大学方案)artidoro/qlora
BitsAndBytes8bit优化、量化训练(Tim Dettmers主导)TimDettmers/bitsandbytes

三、支撑工具链

1. 推理优化框架

框架名称核心能力GitHub地址
vLLMPagedAttention、高吞吐推理(工业级首选)vllm-project/vllm
TensorRT-LLMNVIDIA硬件优化、低延迟推理(企业级部署)NVIDIA/TensorRT-LLM
llama.cppCPU推理、GGUF量化(边缘计算首选)ggerganov/llama.cpp

2. 评估与基准测试

框架名称核心能力GitHub地址
OpenCompass多维度评估、性能分析(上海AI Lab)InternLM/opencompass
LM-Evaluation-Harness标准测试集、跨模型对比(EleutherAI)EleutherAI/lm-evaluation-harness

3. 数据处理工具

工具名称核心能力GitHub地址
Datasets数据加载与预处理(Hugging Face生态)huggingface/datasets
WebDataset流式处理、超大规模数据支持webdataset/webdataset

4. 分布式训练支持

框架名称核心能力GitHub地址
Ray资源调度、分布式计算(UC Berkeley方案)ray-project/ray
Horovod多框架支持、易用性优化(Uber开源)horovod/horovod

四、选型指南

预训练场景

  • 超大规模训练:DeepSpeed(ZeRO优化) + Megatron-LM(模型并行)
  • 国产化需求:ColossalAI(多维并行) + PaddlePaddle(产业级支持)
  • 学术研究:JAX/Flax(函数式编程) + Fairseq(序列模型优化)

微调场景

  • 参数高效:PEFT(LoRA/QLoRA) + OpenDelta(多任务适配)
  • 中文优化:Chinese-LLaMA-Alpaca(指令微调) + ChatGLM-Tuning(清华方案)
  • 工业级部署:vLLM(高吞吐) + TensorRT-LLM(NVIDIA硬件加速)

工具链补充

  • 数据处理:Datasets(标准化) + WebDataset(流式处理)
  • 量化压缩:GPTQ(训练后量化) + QLoRA(微调量化)

本清单覆盖 GitHub Star > 1k 的主流框架,按技术栈和场景分类,持续跟踪最新技术演进。

免责声明

本报告(“LLM全栈框架完整分类清单(预训练+微调+工具链)”)由[ViniJack.SJX] 根据公开可获得的信息以及作者的专业知识和经验撰写,旨在提供关于“LLM全栈框架完整分类清单(预训练+微调+工具链)”的分析和信息。

1. 信息准确性与完整性:

  • 作者已尽最大努力确保报告中信息的准确性和完整性,但不对其绝对准确性、完整性或及时性做出任何明示或暗示的保证。

  • 报告中的信息可能随时间推移而发生变化,作者不承担更新报告内容的义务。

  • 报告中引用的第三方信息(包括但不限于网站链接、项目描述、数据统计等)均来自公开渠道,作者不对其真实性、准确性或合法性负责。

2. 报告用途与责任限制:

  • 本报告仅供参考和学习之用,不构成任何形式的投资建议、技术建议、法律建议或其他专业建议。

  • 读者应自行判断和评估报告中的信息,并根据自身情况做出决策。

  • 对于因使用或依赖本报告中的信息而导致的任何直接或间接损失、损害或不利后果,作者不承担任何责任。

3. 技术使用与合规性:

  • 本报告中提及的任何爬虫框架、工具或技术,读者应自行负责其合法合规使用。

  • 在使用任何爬虫技术时,读者应遵守相关法律法规(包括但不限于数据隐私保护法、知识产权法、网络安全法等),尊重网站的服务条款和robots协议,不得侵犯他人合法权益。

  • 对于因读者违反相关法律法规或不当使用爬虫技术而导致的任何法律责任或纠纷,作者不承担任何责任。

4. 知识产权:

  • 本报告的版权归作者所有,未经作者书面许可,任何人不得以任何形式复制、传播、修改或使用本报告的全部或部分内容。

  • 报告中引用的第三方内容,其知识产权归原作者所有。

5. 其他:

  • 本报告可能包含对未来趋势的预测,这些预测基于作者的判断和假设,不构成任何形式的保证。

  • 作者保留随时修改本免责声明的权利。

请在使用本报告前仔细阅读并理解本免责声明。如果您不同意本免责声明的任何条款,请勿使用本报告。

相关文章:

  • VMware中的linux常用指令
  • STM32 缺一不可的最基础的初始化部分
  • CSS—引入方式、选择器、复合选择器、文字控制属性、CSS特性
  • smolagents学习笔记系列(六)Secure code execution
  • Redis 面试题
  • RT-Thread+STM32L475VET6——TF 卡文件系统
  • 创建型模式 - 原型模式 (Prototype Pattern)
  • 【Leetcode】两数之和
  • 【Blender】三、材质篇--01,Blender材质基础 原理化BSDF
  • Go红队开发—基础语法入门
  • 如何在 Ubuntu 上安装和使用 Podman ?
  • 【STL】4.<list>
  • kotlin 知识点 七 泛型的高级特性
  • Java 入门第一课 InteliJ IDEA 的快捷操作
  • 阿里云可观测全面拥抱 OpenTelemetry 社区
  • 【Keil5教程及技巧】耗时一周精心整理万字全网最全Keil5(MDK-ARM)功能详细介绍【建议收藏-细细品尝】
  • JVM相关面试题
  • 项目实战--网页五子棋(游戏房间)(6)
  • Pytorch实现之混合成员GAN训练自己的数据集
  • MySQL 使用 `WHERE` 子句时 `COUNT(*)`、`COUNT(1)` 和 `COUNT(column)` 的区别解析
  • 男子聚餐饮酒后身亡,同桌3人被判赔偿近20万元
  • 新任重庆市垫江县委副书记刘振已任县政府党组书记
  • 世界数字教育大会发布“数字教育研究全球十大热点”
  • 广西壮族自治区党委常委会:坚决拥护党中央对蓝天立进行审查调查的决定
  • 讲座预告|以危机为视角解读全球治理
  • 澳大利亚首例“漂绿”诉讼开庭:能源巨头因“碳中和”承诺遭起诉