当前位置：首页 > news >正文

大模型学习--第一天

news 2025/8/4 9:50:46

1、大模型问答原理

主要分为几个步骤：

首先大模型需要接收用户的问题或者prompt；第二步，大模型接收到了用户的输入，会根据分词器将输入分解成为一个个的小词组；第三步，大模型会根据分解出来的词组去进行向量的计算，称为向量化；第四步，大模型会根据组合起来的词组的向量去推测出可能的下一个词，最后组成结果放回给用户

大模型的问答工作流程

下面以“ACP is a very”为输入文本向大模型发起一个提问，下图展示从发起提问到输出文本的完整流程。

大模型的问答工作流程有以下五个阶段：

第一阶段：输入文本分词化

分词（Token）是大模型处理文本的基本单元，通常是词语、词组或者符号。我们需要将“ACP is a very”这个句子分割成更小且具有独立语义的词语（Token），并且为每个Token分配一个ID。如果您对通义千问的tokenizer细节感兴趣，请参考：Tokenization。

第二阶段：Token向量化

计算机只能理解数字，无法直接理解Token的含义。因此需要将Token进行数字化转换（即转化为向量），使其可以被计算机所理解。Token向量化会将每个Token转化为固定维度的向量。

第三阶段：大模型推理

大模型通过大量已有的训练数据来学习知识，当我们输入新内容，比如“ACP is a very”时，大模型会结合所学知识进行推测。它会计算所有可能Token的概率，得到候选Token的概率集合。最后，大模型通过计算选出一个Token作为下一个输出。

这就解释了为什么当询问公司的项目管理工具时，模型无法提供内部工具的建议，这是因为其推测能力是基于已有的训练数据，对它未接触的知识无法给出准确的回答。因此，在需要答疑机器人回答私域知识时，需要针对性地解决这一问题，在本小节第3部分会进一步阐述。

第四阶段：输出Token

由于大模型会根据候选Token的概率进行随机挑选，这就会导致“即使问题完全相同，每次的回答都略有不同”。为了控制生成内容的随机性，目前普遍是通过temperature和top_p来调整的。

2、大模型常见参数

temperature：主要的功能为它能够改变候选token中的一个比例，如图：

top_p：它可以在特定的集合token中进一步筛选出特定的token集合，如图：

总结一下，如果想要答案稳定，那么temperature越低、top_p 越低，想要创新性越好，那么反之

查看全文

http://www.dtcms.com/a/313293.html

Linux命令基础（上）

day 44 文件的规范书写与拆分

LCL滤波器及其电容电流前馈有源阻尼设计软件【LCLAD_designer】

机器学习——决策树（DecisionTree）

分享两个问题及其解决方法：发送AT没反应和wifi模块连接不上热点

Java设计模式之行为型模式（访问者模式）应用场景分析

MATLAB小波分析工具包进行时间序列的小波功率谱分析

基于Matlab的深度学习智能行人检测与统计系统

FastAPI入门：安全性

网安-逻辑漏洞-23登陆验证

【系统编程】错误处理、读写缓冲区及位图

文章分享---《Keil 再升级，修复了这些bug》

[自动化Adapt] 录制引擎

Nginx 相关实验（1）

C语言数据结构（7）贪吃蛇项目2.贪吃蛇项目实现

分离还是统一，这是个问题

STM32F103_Bootloader程序开发13 - 巧用逆向拷贝，实现固件更新的“准原子”操作，无惧升级中的意外掉电

时间空间复杂度

高质量数据集｜从武汉光谷《面向科技情报大模型的高质量数据集建设》招标项目谈起

实现游戏排行榜

SpringBoot项目数据脱敏（自定义注解）

关于corn

SpringAI无人机智能灌溉、本地化AI推理、分析气象站、分析球场草皮系统实践

Python操作Excel——从入门到精通

QML 将一个qml文件定义为公共的全局单例

外设数据到昇腾310推理卡之五 3403ATU

【分析学】Hilbert 空间

python脚本-ATE测试数据stdf文件自动处理之概率分布图、直方图、数据分布图

说说对泛型的理解？

数据资产——解读2025 数据提供合同（示范文本）【附全文阅读】

1、大模型问答原理

2、大模型常见参数

相关文章：