当前位置: 首页 > news >正文

LLM 架构

LLM 分类 :

  • 自编码模型 (encoder) : 代表模型 : BERT
  • 自回归模型 (decoder) : 代表模型 : GPT
  • 序列到序列模型 (encoder-decoder) : 代表模型 : T5

自编码模型 (AutoEncoder model , AE)

  • 代表模型 : BERT (Bidirectional Encoder Representation from Transformers)
  • 特点 : Encoder-Only
  • 基本原理 : 在输入中随机 MASK 掉一部分单词,根据上下文预测这个词
  • 应用场景 : 内容理解任务,如 : 自然语言理解 (NLU )中的分类任务 (情感分析、提取式问答等 )

自回归模型 (Autoregressive model , AR)

  • 代表模型 : GPT
  • 特点 : Decoder-Only
  • 基本原理 : 从左往右学习的模型,只能利用上文或 下文的信息
  • 应用场景 : 生成式任务,如 : 自然语言生成 (NLG )领域的任务 (摘要、翻译、抽象问答等 )

序列到序列模型 (Sequence to Sequence Model)

  • 代表模型 : T5
  • 特点 : 同时使用编码器和解码器
  • 基本原理 : 将每个 task 视作序列到序列的转换/ 生成
  • 应用场景 : 需要内容理解和生成的任务,如 : 机器翻译

发展图 :

http://www.dtcms.com/a/24355.html

相关文章:

  • 用deepseek学大模型08-cnn残差网络
  • 代码随想录刷题day24|(字符串篇)151.反转字符串中的单词
  • SECS/GEM300应用案例参考
  • 剑指 Offer II 023. 两个链表的第一个重合节点
  • 大模型应用怎么学习,在哪里实现开发:Dify、AnyThingLLM、LangFlow
  • Python .py文件打包成.exe可执行程序,带托盘图标的可执行文件
  • MySQL-事务
  • 【深度强化学习】置信域策略优化(TRPO)
  • Python的那些事第二十五篇:高效Web开发与扩展应用实践FastAPI
  • 【操作系统】操作系统概述
  • vue3 子组件属性响应性丢失分析总结(四)
  • TMS320F28335二次bootloader在线IAP升级
  • 在windows10上,部署DeepSeek模型在本地电脑
  • 【钱包】【WEB3】【Flutter】一组助记词如何推导多个账号钱包
  • Unity 淡入淡出
  • agent和android怎么结合:健康助手,旅游助手,学习助手
  • 【插入排序】Insert_Sort
  • 电机控制::软件架构::微型软件架构
  • 基于开源Odoo、SKF Phoenix API与IMAX-8数采网关的圆织机设备智慧运维实施方案 ——以某纺织集团圆织机设备管理场景为例
  • I²C简介
  • OSPF协议五种网络类型中DR和BDR选举说明
  • Linux内核实时机制4 - 实时改造优化 - PREEMPT_RT方案
  • Linux学习笔记之深入理解进程调度
  • 3、cadence从零开始让一个VCO起振——如何调频
  • 复现log4j2的jndi注入成功反弹shell
  • SQL进阶技巧:如何统计用户跨端消费行为?
  • (leetcode 1749 前缀和)1749. 任意子数组和的绝对值的最大值
  • 【嵌入式Linux应用开发基础】进程实战开发
  • 华为固态电池引发的思索
  • 2.18寒假