当前位置: 首页 > news >正文

从零开始训练小型语言模型之minimind

文章目录

  • 从零开始训练小型语言模型之minimind
    • 什么是minimind
    • 从小模型开始

从零开始训练小型语言模型之minimind

什么是minimind

github: https://github.com/jingyaogong/minimind

目前市面上的大语言模型动辄上百亿参数,训练成本高昂。就算是自己想学习和研究,也会被巨大的硬件门槛挡在门外。而 MiniMind 通过精妙的设计,把模型参数压缩到了最小,让个人开发者也能亲手训练 AI 模型!

最小版本仅有 26M 大小(约为 GPT-3 的 1/7000),一张普通的游戏显卡就能运行。项目提供了完整的训练流程:

  • 基础语言能力训练(预训练)
  • 对话能力训练(指令微调)
  • 快速适应新任务(LoRA 微调)
  • 优化回答质量(DPO 偏好对齐)

本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。

从小模型开始

为什么建议大家从小模型开始,特别是一些开源小模型?

不说大模型数据训练和微调所需要的资金,算力等问题,就大模型训练所需要的训练和微调数据的收集,就已经是一个很大的工程量了。

之所以建议大家刚开始以小模型为主,原因就是因为从技术原理来说,大模型和小模型没有本质上的区别;只不过大模型和小模型由于量变导致的质变,大模型的复杂度与小模型不能同日而语。

而从学习和使用的角度来说,大模型和小模型最大的差距就是对算力的需求;虽然从效果上来说,小模型远不如大模型,但学习和使用小模型能够让我们快速地摸清大模型技术的脉络和主要框架。

最重要的是小模型有很强的实操性,因为其算力成本低,甚至可以在个人电脑上进行部署和运维,而且使用个人电脑也可以对它们进行训练和微调,这样就大大降低了我们的学习难度

http://www.dtcms.com/a/57089.html

相关文章:

  • cannon g3810打印机设置
  • Python自学指南:从入门到进阶(第一天)
  • Mysql的卸载安装配置以及简单使用
  • 【GPT入门】第3课 客服会话质检(思维链)
  • SGLang Router:基于缓存感知负载均衡的数据并行路由实践
  • 约束问题的最优性条件
  • 小迪安全-27-php开发,tp框架,路由访问,对象操作,内置过滤,核心漏洞
  • MoonSharp 文档一
  • 六十天前端强化训练之第十四天之深入理解JavaScript异步编程
  • 硬件小知识之升压电路--1
  • 驱动 AI 边缘计算新时代!高性能 i.MX 95 应用平台引领未来
  • Java面向对象(详细解释)
  • 【Mastering Vim 2_10】第八章:玩转 Vimscript(中)—— Vim9 脚本的基础语法概述
  • BUUCTF——[GYCTF2020]FlaskApp1 SSTI模板注入/PIN学习
  • 深入探讨AI-Ops架构 第一讲 - 运维的进化历程以及未来发展趋势
  • JQuery 语法 $
  • Python中`for`循环的简单使用示例
  • 数据结构链式表
  • 结合 Pandas 使用 SQLite3 实战
  • 大白话JavaScript实现一个函数,将数组中的元素进行去重
  • SPI驱动五) -- SPI_DAC上机实验(使用spidev)
  • 事务-Transaction
  • EXCEL自动化13 | 批量重命名工作簿中的工作表
  • 【AD】5-15 Active Route的自动布线辅助
  • postman接口请求中的 Raw是什么
  • 【愚公系列】《Python网络爬虫从入门到精通》045-Charles的SSL证书的安装
  • AIP-161 域掩码
  • AI 时代的新宠儿:向量数据库
  • 渗透测试之利用sql拿shell(附完整流程+防御方案)
  • 深度学习笔记——CNN卷积神经网络