当前位置: 首页 > news >正文

书生大模型InternLM2:从2.6T数据到200K上下文的开源模型王者

1. 引言:InternLM2——更强的模型

InternLM2系列的发布,其核心亮点不能z有四点:

  1. 卓越的开源性能:发布了1.8B, 7B, 20B的全系列模型,在各类客观与主观评测中均表现出色。
  2. 200K超长上下文窗口:通过创新的预训练和微调策略,实现了在200K“大海捞针”测试中近乎完美的表现。
  3. 全面的数据准备指导:详细阐述了预训练、SFT、RLHF各阶段的数据处理细节,为社区提供了宝贵的实践经验。
  4. 创新的RLHF训练技术:提出了COOL RLHF,有效解决了多偏好冲突和奖励滥用(reward hacking)问题。

2. 模型Infrastructure: InternEvo训练框架

强大的模型离不开强大的训练框架。InternLM2的训练依托于团队自研的InternEvo框架,这是一个专为大规模LLM训练设计的、高效且轻量级的解决方案。

  • 核心特性:
    • 混合并行策略: 深度融合了数据并行、张量并行、序列并行和流水线并行,能够将模型训练扩展至数千块GPU。
    • 极致的内存优化: 集成了多种ZeRO(Zero Redundancy Optimizer)策略,显著降低了训练所需的显存。
    • 高硬件利用率 (MFU): 通过FlashAttention、混合精度训练(BF16)等技术,实现了极高的模型浮点运算利用率(MFU)。论文中提到,在1024块GPU上训练7B模型时,MFU高达53%,远超DeepSpeed等框架。
    • 强大的长序列扩展能力: 能够支持高达256K token的序列长度进行训练,MFU仍能达到近88%。
    • 高容错性: 针对GPU数据中心常见的硬件故障问题,设计了高效的故障诊断和自动恢复机制。

InternEvo为InternLM2的成功奠定了坚实的工程基础。

3. Model Structure: LLaMA based

为了保证与现有开源生态的无缝衔接,InternLM2在模型结构上选择遵循LLaMA的设计原则。

  • 基础架构: 采用标准的Transformer架构。
  • 关键组件:
    • 归一化层: 使用RMSNorm替代LayerNorm。
    • 激活函数: 使用SwiGLU
http://www.dtcms.com/a/351045.html

相关文章:

  • 实体店转型破局之道:新零售社区商城小程序开发重构经营生态
  • kafka消费顺序保障
  • Kafa面试经典题--Kafka为什么吞吐量大,速度快
  • 高校科技成果转化生态价值重构
  • Go函数详解:从基础到高阶应用
  • Ubuntu Server 快速部署长安链:基于 Go 的智能合约实现商品溯源
  • 质押、ETF、财库三箭齐发:以太坊价值逻辑的重构与演进
  • Linux系统中,利用sed命令删除文档空格的方法汇总
  • Redis ZSET 深度剖析:从命令、原理到实战
  • 基于 Elasticsearch 解决分库分表查询难题
  • [Maven 基础课程]Maven 是什么
  • 【Linux操作系统】简学深悟启示录:环境变量进程地址
  • Java基础第5天总结(final关键字,枚举,抽象类)
  • Redis-数据类型与常用命令
  • Java数据结构——9.排序
  • 【OpenAI】ChatGPT-4o 全能AI-omni的详细介绍+API KET的使用教程!
  • Stream API 新玩法:从 teeing()到 mapMulti()
  • 多种“找不到vcruntime140.dll,无法继续执行代码”提示的解决方法:从原理到实操,轻松修复系统故障
  • 【Delphi】中通过索引动态定位并创建对应窗体类实例
  • CMake构建学习笔记20-iconv库的构建
  • MATLAB在生态环境数据处理与分析中的应用,生态系统模型构建与数值模拟等
  • 简述滚珠丝杆升降机的结构和原理
  • CSS 结构伪类选择器
  • 【BUG排查】调试瑞萨RH850F1KMS1时候随机出现进入到unused_isr
  • 一款基于 .NET 开源、功能强大的 Windows 搜索工具
  • GD32VW553-IOT开发板测评 搭建环境到电灯(QA分享)
  • 使用提供的 YAML 文件在 Conda 中创建环境
  • Conda的配置
  • 实时平台Flink热更新技术——实现不停机升级!
  • Caddy + CoreDNS 深度解析:从功能架构到性能优化实践(上)