当前位置: 首页 > news >正文

【DataWhale】快乐学习大模型 | 202507,Task08笔记

前言

其实个人感觉Encoder-Decoder是优于单纯Decoder的,可能是训练数据、参数量足够大力大砖飞了。

Decoder-Only PLM

从GPT1->GPT3的过程中,参数量逐步上升,训练数据逐步增多,效果越来越好。到了ChatGPT后因为强化学习的引入更有了出圈的效果提升。可见强化学习很重要,从2016年围棋上成就就能看出强化学习是让AI更智能的重要技术。
回过头来Decoder的本质根据之前的token来预测下一个token。
除了GPT之外,llama、GLM、Qwen等也出了后续的Decoder-Only的大模型

额外思考

现有大模型的优化点
1、预测一个token太慢,直接预测一整块的内容(已有相关研究,也有用文生图diffusion的那种直接预测所有再优化的)
2、输入token太多,每个都要用到相关的太占用内存(也有相关研究,可以更关注更有效地token)
3、算法和硬件的协同,如果flash attention等来优化计算,本质是模型运算速度主要看访存和计算
4、工程上的优化,如果kv-cache等,还有最近kimi2的1T参数的MoE模型,也可以把大部分放硬盘或内存激活了再放如显存让量化后的也能在单卡4090上跑起来。

参考资料

1、happy-llm 3.3 Decoder-Only PLM
2、仅需24GB显存!普通人如何在笔记本本地运行1T参数Kimi K2大模型?

http://www.dtcms.com/a/300854.html

相关文章:

  • STM32移植LVGL9.2.1教程
  • 视频转GIF工具,一键批量制作高清动图
  • CLAP文本-音频基础模型: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
  • 设计模式(四)创建型:生成器模式详解
  • 设计模式(三)创建型:抽象工厂模式详解
  • 第五章第二节 对射式红外传感器计次旋转编码器计次
  • 8.c语言指针
  • 标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝
  • AI驱动的金融推理:Fin-R1模型如何重塑行业决策逻辑
  • JSON格式化与结构对比
  • 2025年量子计算与前沿技术融合:六大变革性方向深度解析
  • Rust实战:高效开发技巧
  • 02人工智能中优雅草商业实战项目视频字幕翻译以及声音转译之以三方AI模型API制作方式预算-卓伊凡|莉莉
  • 【在Unity游戏开发中Dictionary、List介绍】
  • 基于Springboot+UniApp+Ai实现模拟面试小工具七:前端项目创建及框架搭建
  • 深入理解 Spring 中的 XmlBeanFactory 原理及实践
  • 【最新版】防伪溯源一体化管理系统+uniapp前端+搭建教程
  • ArKTS:List 数组
  • 机器学习特征选择 explanation and illustration of ANOVA
  • ROS2总结(二)
  • UDS 0x29 身份验证服务 Authentication service
  • Rust Web 全栈开发(十一):WebAssembly 尝鲜
  • 2507rust,rust写驱动
  • rust- 定义模块以控制作用域和隐私
  • 无刷电机三项霍尔连接线序组合详细分析与波形实例
  • ETF历史每笔成交分钟级高频数据深度解析
  • 墨者:通过手工解决SQL手工注入漏洞测试(MongoDB数据库)
  • Rust与Java DynamoDB、MySQL CRM、tokio-pg、SVM、Custors实战指南
  • 零基础 “入坑” Java--- 十四、字符串String
  • mybatis-plus实体类主键生成策略