当前位置: 首页 > news >正文

一分钟了解大语言模型(LLMs)

一分钟了解大语言模型(LLMs)

A Minute to Know about Large Language Models (LLMs)

By Jackson@ML

自从ChatGPT上线发布以来,在短短的两年多时间里,全球ChatBot(聊天机器人)发展异常迅猛,更为突出的是,生成式人工智能(Generative AI)也广为人知,并上了热搜。

1. 什么是大语言模型?

在生成式人工智能广泛进入人们视野的时候,人工智能的这一特定领域,也迸发出前所未有的生机和活力。

生成式人工智能专注于创建能自主生成新的原创内容,并且无论从生成的高效还是质量方面,都令人敬畏。

大语言模型(Large Language Models, 简称LLMs) ,又称大规模语言模型或者大模型(依照不同书籍的译者所言),说白了就是一种生成式AI,通俗地说,就是能根据给定的输入(也就是prompts,提示词)生成人类可以理解的文本。

不同大语言模型产品的例子有:OpenAI推出的GPT系列,Gemini系列,Qwen(通义千问)系列等。

2. 大语言模型机理

大语言模型,是基于大量数据预训练的大型深度学习模型。它的底层转换器是一组神经网络,这些神经网络经由具备注意力机制编码器和解码器构成。

编码器和解码器既从一系列文本中提取含义,并理解其中的单词和短语之间的关系。
转换器LLM能进行无监督学习训练,其实,更精确的解释是,转换器可进行自主学习。通过这个过程,转换器可学会理解基本语法、语言和知识。

与早期的循环神经网络(Recurrent Neural Networks, 即RNN) 不同,转换器并行处理整个序列,可让数据科学家使用GPU训练基于转换器的大语言模型,从而大幅度缩短训练时间。

3. 大语言模型的强大功能

大语言模型非常灵活。一个模型可以执行多种不同的任务,例如:回答用户问题,总结文档,翻译语言以及完成语句等;尽管大语言模型可能破坏内容创作,并且使人们依赖搜索引擎和虚拟助手,但LLM表现出的非凡本领,依然为全球用户所痴迷。

LLM仅需用户输入相对较少的提示词,就能输出完整的、系统化的方案并且做出非凡的预测。LLM之所以带来的数据,相当一部分就是根据人类语言输入提示,从而生成内容。

4. 大语言模型的多种应用

LLM有很多不同的实际应用,为人们带来效率提升和系统方案。有以下几方面:

1) 文案写作

除了 GPT-3 和 ChatGPT 之外,Claude、Llama 2、Cohere Command 和 Jurassic 也可编写原件。AI21 Wordspice 建议修改原始语句以改善风格和语音。

2) 知识库回答

知识库问答技术,通常称为知识密集型自然语言处理(KI-NLP),是指可以根据数字存档中的信息帮助回答特定问题的 LLM。AI21 Studio playground 能够回答常识性问题就是此类示例。

3) 文本分类

使用集群,LLM 可以对含义或情绪相似的文本进行分类。用途包括衡量客户情绪、确定文本之间的关系和文档搜索。

4) 代码生成

LLM 擅长根据自然语言提示生成代码。示例包括 Amazon CodeWhisperer 和 GitHub Copilot 中使用的 Open AI Codex,它们可以用 Python、JavaScript、Ruby 和其它编程语言编码。其他编码应用包括创建 SQL 查询、编写 Shell 命令和进行网站设计。了解有关人工智能代码生成的更多信息。

5) 文本生成

与代码生成类似,操作文本生成可以完成不完整的语句,用来编写产品文档,或者像 Alexa Create 一样创作简短的儿童故事。

5. 大语言模型的企业和产品

已经发布的大语言模型企业和产品主要有以下这些:
1) OpenAI的GPT-3, GPT-4
2) Google的BERT, T5和PaLM
3) Meta的LLaMA
4) Microsoft的Turing-NLG
5) Anthropic的Claude
6) DeepMind的Gopher, Chinchilla
7) Cohere的Cohere AI
8) 阿里巴巴的通义千问(Qwen)
9) Hugging Face的BLOOM
10) NVIDIA的Megatron-Turing NLG
11) 腾讯的混元
12) EleutherAI的GPT-Neo, GPT-J
13) SenseTime的SenseChat
14) 清华大学的CPM
15) 北京大学的盘古
16) 复旦大学的MOSS
17) 上海AI Lab的OpenChat
18) IDEA的IDEA-CCNL
等等。

关于大语言模型的资源,应用,开发或者其它场景,还有很多很多。


人工智能技术好文陆续推出,敬请关注、收藏和点赞👍!

您的认可,我的动力!😃

相关阅读:

  1. 一分钟了解深度学习
  2. 一分钟了解manus - 全球首款通用AI Agent
  3. 社交网络分析(SNA)简介
  4. 检索增强生成(RAG)简介
  5. 新一代智能开发环境Trae应用指南
  6. 新一代AI程序开发利器Windsurf应用指南
  7. 新一代Python专业编译器Nuitka应用指南
  8. 新一代AI智能体开发环境Cursor应用指南
  9. 新一代Python包管理器UV应用指南

相关文章:

  • 基于ssm+mysql的高校设备管理系统(含LW+PPT+源码+系统演示视频+安装说明)
  • 音频分类的学习
  • De-biased Attention Supervision for Text Classifcation with Causality
  • 学习51单片机01(安装开发环境)
  • 基于Matlab的非线性Newmark法用于计算结构动力响应
  • STM32 之网口资源
  • 当 DeepSeek 遇见区块链:一场颠覆式的应用革命
  • 学习黑客蓝牙技术详解
  • SAP Fiori Elements Object Page
  • rocketmq 拉取消息
  • AI智能体 | 使用Coze一键制作“假如书籍会说话”视频,18个作品狂吸17.6万粉,读书博主新标杆!(附保姆级教程)
  • 输入一个正整数,将其各位数字倒序输出(如输入123,输出321)
  • 【行为型之模板方法模式】游戏开发实战——Unity标准化流程与可扩展架构的核心实现
  • Prometheus 的介绍与部署(入门)
  • 第二章 变量和运算符
  • git push 报错:send-pack: unexpected disconnect while reading sideband packet
  • c#队列及其操作
  • vscode调试c/c++
  • 在linux中,如何使用malloc()函数向操作系统申请堆内存,使用free()函数释放内存。
  • python打包exe报错:处理文件时错误:Excel xlsx file; not supported
  • 六连板成飞集成:航空零部件业务收入占比为1.74%,市场环境没有重大调整
  • 泽连斯基启程前往土耳其
  • 观察|本轮印巴冲突或促使印度空军寻求更先进战机
  • 沈阳卫健委通报“健康证”办理乱象:涉事医院已被立案查处
  • 香港根据《维护国家安全条例》订立附属法例
  • 字母哥动了离开的心思,他和雄鹿队的缘分早就到了头