当前位置: 首页 > news >正文

大语言模型基础

简介

AI大模型是“人工智能预训练大模型”的简称,包含了“预训练”和“大模型”两层含义,二者结合产生了一种新的人工智能模式,即模型在大规模数据集上完成了预训练后无需微调,或仅需要少量数据的微调,就能直接支撑各类应用。AI大模型主要分为三类:大语言模型、CV大模型和多模态大模型,我将分别介绍它们的背景知识、关键技术、演进路线和挑战。

什么是大语言模型

大语言模型(Large Language Model,LLM)是一种大规模预训练神经网络语言模型。

大规模:区别于已有的较小规模并主要用于理解类任务的预训练语言模型(如BERT),特指规模较大(数十亿到数千亿参数)并具有较强生成能力的语言模型。

预训练:在海量文本数据集上预训练,以GPT3为例, 300B tokens可用于训练参数量大小为175B的LLM。 "token"通常指的是一个离散的文本单元,它可以是单词、标点符号、数字或其他语言元素,这些元素被用作训练和生成文本的基本单位。

语言模型:通俗来说,指对于任意的词序列,能够计算出这个序列是一句话的概率的模型。用于预测未来或缺失tokens的概率。

语言模型的演进

语言模型的定义:

等价定义:从文本生成的角度,定义语言模型为:给定一个短语(一个词组或一句话),语言模型可以生成接下来的一个词。

统计语言模型 Statistical language models (SLM) :

起源于90年代的统计学习方法,基本思想是基于马尔可夫假设建立词预测模型,即每个词只依赖前序词。代表方法为N-gram语言模型。

神经语言模型 Neural language models (NLM):

N-gram的缺陷:将词看作离散变量并用one-hot表示,导致词与词不存在语义关联,且参数量级是指数级。

NLM通过结合词向量(word embedding)前馈神经网络来解决上面两个问题:

每个词用低维稠密向量表示,这就使得语义相似的词对应的向量在空间中相邻成为可能(前提是词向量训练的效果达到预期),给模型带来了泛化能力上的提升;神经网络强大的学习能力很适合拟合概率分布。

FFNNLM(2003,

相关文章:

  • 2025寒假天梯训练7
  • 【鸿蒙开发】第四十三章 Notification Kit(用户通知服务)
  • .Net面试宝典【刷题系列】
  • 《筑牢元宇宙根基:AI与区块链的安全信任密码》
  • 为AI聊天工具添加一个知识系统 之114 详细设计之55 知识表征
  • 深入解析BFS算法:C++实现无权图最短路径的高效解决方案
  • bboss v7.3.5来袭!新增异地灾备机制和Kerberos认证机制,助力企业数据安全
  • DeepSeek 助力 Vue 开发:打造丝滑的 键盘快捷键(Keyboard Shortcuts)
  • 鸿蒙5.0实战案例:基于自定义注解和代码生成实现路由框架
  • P1055 [NOIP 2008 普及组] ISBN 号码(java)【AC代码】
  • 【CXX】5 桥接模块参考
  • SQL Server导出和导入可选的数据库表和数据,以sql脚本形式
  • netcore libreoffice word转pdf中文乱码
  • Vue 3 和 Vite 从零开始搭建项目的详细步骤
  • JavaWeb-Tomcat服务器
  • 一周学会Flask3 Python Web开发-客户端状态信息Cookie以及加密
  • 鸿蒙-canvas-画时钟
  • vue从入门到精通(十一):条件渲染
  • VLM(视觉语言模型)与DeepSeek R1(奖励机制)如何结合
  • springboot的 nacos 配置获取不到导致启动失败及日志不输出问题
  • 政府部门网站建设内容/企业培训课程分类
  • 商丘网站制作方案/百度网盘下载速度