当前位置：首页 > news >正文

AI瘦身狂魔！微软推出原生1-bit大模型，性能不减，内存仅需同行零头！

news 2025/9/2 6:52:02

瘦身之言：

在当今人工智能领域，大型语言模型（LLM）的发展日新月异。然而，随着模型规模的不断扩大，内存占用、能耗以及解码延迟等问题也日益凸显。为了应对这些挑战，微软研究院近日宣布了一个重大突破——发布了首个开源的、原生的1 bit大型语言模型：BitNet b1.58 2B4T。这款模型以其卓越的性能和高效的资源利用，为行业树立了新的标杆。

具体来说，BitNet b1.58 2B4T在多个关键指标上表现出色。首先，在内存占用方面，该模型的非嵌入层内存占用仅为0.4GB，这一数字远低于其他全精度模型。这意味着BitNet b1.58 2B4T能够在有限的硬件资源下运行，极大地降低了部署成本。其次，在能耗方面，BitNet b1.58 2B4T的估计解码能耗仅为0.028焦耳，这一能耗水平远低于其他同类模型，使其在大规模应用中更具经济性和可持续性。最后，在解码延迟方面，该模型在CPU上的平均延迟仅为29毫秒，这一速度远低于其他模型，确保了在实际应用中的高效性和实时性。

BitNet b1.58 2B4T 模型具备约20亿参数，在4万亿token的海量语料上完成训练，展现出与同级别全精度大模型（如 LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B）相媲美的性能，验证了极低比特模型在大规模训练下的潜力。

为了进行对比分析，我们选取了性能卓越的全精度模型Qwen2.5 1.5B，并对其分别应用了两种广泛认可的INT4量化技术：GPTQ和AWQ。

在内存占用方面，BitNet b1.58 2B4T展现出显著优势。其非嵌入层的内存占用仅为0.4GB，相较于Qwen2.5 1.5B的2.6GB大幅降低。即使Qwen2.5 1.5B经过INT4量化后，内存占用降至0.7GB，仍远高于BitNet b1.58 2B4T。

在性能表现上，尽管INT4量化有效减少了Qwen2.5 1.5B的内存占用，但BitNet b1.58 2B4T在多数基准测试中依然保持了更优的性能表现。

目前，大多数1bit模型要么是通过全精度模型的后训练量化（PTQ）实现的，但这种方法往往会显著降低模型性能；要么是规模较小的原生1bit模型，难以满足大规模应用的需求。而BitNet b1.58 2B4T模型则另辟蹊径，它完全从头开始训练，其核心创新在于用自定义的BitLinear层取代了传统的全精度线性层。这些BitLinear层具体包括：

模型在前向计算中实现极致量化：权重经absmean归一后映射至1.58-bit三值域 {-1, 0, +1}，激活则通过token-wise absmax策略量化为8-bit整型，兼顾动态表达与计算效率。配合SubLN架构设计，有效缓解低比特训练中的梯度波动，提升整体收敛稳定性

除核心的 BitLinear 层外，BitNet b1.58 2B4T 还融合了一系列成熟的 LLM 架构优化技术：在前馈网络（FFN）中采用 ReLU² 激活函数以增强非线性表达能力，使用旋转位置编码（RoPE）支持序列建模，并移除了所有线性层及归一化层中的偏置项，以简化结构并提升训练稳定性。

该模型的训练分为三个阶段，逐步提升模型能力。

预训练：旨在构建模型的基础语言理解与世界知识，采用包含公共文本和代码数据的多样化语料库。训练过程中使用两阶段学习率调度与权重衰减策略，以优化收敛性能。
监督微调（SFT）：基于多样化的指令遵循与对话数据集，提升模型对指令的理解能力及在对话场景中的响应质量。
直接偏好优化（DPO）：利用人类偏好数据直接优化模型输出，使其在有用性与安全性方面更符合人类期望，省去训练独立奖励模型的复杂流程。

参考链接：

https://arxiv.org/pdf/2504.12285https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4TBitNet b1.58 2B4T Technical Report

查看全文

http://www.dtcms.com/a/361195.html

博0进化版

9月校招难题怎么解？AI面试精准匹配人才

系统架构设计师备考第12天——计算机语言-建模形式化语言

Windows 命令行：cd 命令1，cd 命令的简单使用

数据结构：单链表的应用（力扣算法题）第二章

APP性能测试，你需要关注哪些指标？

React 学习笔记3 生命周期受控/非受控组件

阿里云代理商：轻量应用服务是什么？怎么用轻量应用服务器搭建个人博客？

大模型落地：从微调到部署的全景式实战指南

MFC应用防止多开

Prometheus Alertmanager 告警组件学习

Linux 正则表达式与grep命令

车载卫星通信：让自动驾驶“永不掉线”？

Kafka面试精讲 Day 4：Consumer消费者模型与消费组

指针数组与数组指针的区别

【第十一章】Python 队列全方位解析：从基础到实战

鸿蒙NEXT表单选择组件详解：Radio与Checkbox的使用指南

绝了！极空间搭配视频智语，生产力拉满，多平台视频摘要一键搞定

browsermobproxy + selenium 获取接口json

PLC操作

AI + 机器人：当大语言模型赋予机械 “思考能力”，未来工厂将迎来怎样变革？

森赛睿视觉AI：大模型加持，分类更智能

宋红康 JVM 笔记 Day09｜方法区

虚拟化技术是什么？电脑Bios中的虚拟化技术怎么开启

【2025ICCV】Vision Transformers 最新研究成果

NetCoreKevin-DDD-微服务-WebApi-AI智能体、AISK集成、MCP协议服务、SignalR、Quartz 框架-14-数据模型与持久化

YOLO 目标检测：YOLOv4数据增强、CIoU Loss、网络结构、CSP、SPPNet、FPN和PAN

架构选型：为何用对象存储替代HDFS构建现代数据湖

Linux之Shell编程（四）函数、数组、正则

小土堆目标检测笔记

瘦身之言：

相关文章：