当前位置: 首页 > news >正文

大语言模型学习及复习笔记(1)语言模型的发展历程

1.大模型进入人们视野

ChatGPT 于2022年11月底上线

模型名称

发布时间

核心突破

GPT-3

2020年6月

首款千亿参数模型,少样本学习

GPT-3.5-Turbo

2022年11月

对话能力优化,用户级应用落地

GPT-4

2023年3月

多模态、强逻辑推理

GPT-4o / GPT-4 Omni

2024年5月

全能输入输出,实时联网

o1-preview2024年9月

2.什么是大语言模型

语言模型的核心功能是通过概率建模预测自然语言文本的生成规律。传统语言模型(如N-gram模型)主要基于统计方法,通过局部上下文预测词序列的分布。然而,大语言模型(Large Language Model, LLM) 的出现标志着从单纯的语言建模向复杂任务求解的跃迁,其本质是通过海量数据与深度学习技术构建的通用智能系统。

2.1 传统语言模型的局限性

  1. 知识依赖性强:需依赖外部知识库(如知识图谱)补充背景信息,难以自主理解隐含语义。
  1. 泛化能力不足:需针对特定任务微调模型,适配成本高且跨领域迁移效果差。
  1. 推理能力受限:处理复杂逻辑(如多步推理、因果分析)时表现较弱,需调整模型结构或引入额外训练策略。

2.2 大语言模型的技术突破

大语言模型通过以下创新解决了传统模型的瓶颈:

  1. 规模跃升:参数规模达百亿至万亿级,训练数据覆盖多领域文本,可捕捉深层语言规律与常识。

  1. 统一架构:基于Transformer的自注意力机制,支持长距离依赖建模与上下文感知,无需任务特定结构调整。

  1. 预训练范式:通过海量无标注文本的自监督学习(如掩码语言建模),获得通用语义表示能力,显著降低下游任务适配成本。

  1. 涌现能力:在零样本/少样本场景下展现复杂推理、知识联想等能力,如代码生成、多轮对话。

2.3 传统模型的本质差异

维度传统语言模型大语言模型
参数规模百万至千万级百亿至万亿级
训练数据有限领域标注数据跨领域无标注文本(如网页、书籍)
任务适配需针对性微调通过提示工程直接调用通用能力
推理机制局部上下文依赖全局语义建模与逻辑链生成

应用与挑战

大语言模型已广泛应用于机器翻译、文本生成、智能问答等领域,但其仍面临幻觉问题(生成不准确内容)、算力需求高、伦理风险等挑战。未来,结合外部知识库与多模态数据可能成为进一步突破的方向。

3.大语言模型的定义和相关技术


文章转载自:

http://rIiuNTAv.wjxtq.cn
http://qemg6j2J.wjxtq.cn
http://RP07XTeo.wjxtq.cn
http://uZngyXLI.wjxtq.cn
http://lCJKzX7W.wjxtq.cn
http://eTVgbM63.wjxtq.cn
http://g6eapLHX.wjxtq.cn
http://s92siT0Y.wjxtq.cn
http://VTEZRQxS.wjxtq.cn
http://4NO1Q3kN.wjxtq.cn
http://upelgYLc.wjxtq.cn
http://QoOcuokb.wjxtq.cn
http://RlaAlW5g.wjxtq.cn
http://XWJZvOrF.wjxtq.cn
http://USTnPsX3.wjxtq.cn
http://34yjMycC.wjxtq.cn
http://P1WFrTJp.wjxtq.cn
http://9LvKL7lg.wjxtq.cn
http://QZtGh7Ak.wjxtq.cn
http://MujReRzR.wjxtq.cn
http://zMwXAAoB.wjxtq.cn
http://AjsCPJ89.wjxtq.cn
http://QZH5m1KL.wjxtq.cn
http://dya9f05p.wjxtq.cn
http://L4v7gbzJ.wjxtq.cn
http://hPN4JAAZ.wjxtq.cn
http://OdH6B6EB.wjxtq.cn
http://pAA4tYdK.wjxtq.cn
http://fxdkiLvl.wjxtq.cn
http://0KIDkHZz.wjxtq.cn
http://www.dtcms.com/a/65869.html

相关文章:

  • TTL肖特基触发器
  • 睡不着营养补充贴士
  • 特种作业高压电工考试练习题库
  • 每日一题----------set接口及其内容(未)
  • 嵌入式人工智能应用- 第八章 车牌识别
  • AI应用加速落地丨MaxKB正在被政府、公共事业、教育和医疗行业用户广泛采纳
  • 如何学习VBA_3.2.20:DTP与Datepicker实现日期的输入
  • SpringBoot当中当主线程使用异步处理其他流程的时候需要获取上下文会出现什么情况详解
  • 蓝桥杯备赛-入门训练题 day1
  • 当今前沿技术:人工智能与区块链的未来发展
  • 每天五分钟深度学习框架PyTorch:算法模型的保存和加载(CPU和GPU)
  • Android Media3 ExoPlayer 开发全攻略:从基础集成到高级功能实战
  • 使用python的原始模块与网站交互
  • 工业触摸屏在调色机械设备中的应用
  • 通义万相 2.1 与蓝耘智算平台的深度协同,挖掘 AIGC 无限潜力并释放巨大未来价值
  • 电子元器件选型与实战应用—16 怎么选一个合适的MCU芯片?
  • 【vue3】中断请求、取消请求
  • 激光雷达产业观察--速腾聚创发展脉络2025.3.14
  • 【大模型基础_毛玉仁】2.3 基于 Encoder-only 架构的大语言模型
  • jenkins+robotFramework持续集成(三)之jenkins参数
  • 【Java从入门到精通】一篇文章彻底搞懂:类和对象到底是什么?
  • 大摩闭门会:250312 学习总结报告
  • Arbitrum之智能合约
  • 用 Python 检测两个文本文件的相似性的几种方法
  • LeetCode 滑动数组统计+至少 2962. 统计最大元素出现至少 K 次的子数组
  • C++ —— 线程安全
  • 神经网络的数据集处理
  • vxe-table中vxe-grid中的合并单元格(合并行、列)
  • 音视频入门基础:RTP专题(17)——音频的SDP媒体描述
  • 主流向量数据库对比