当前位置：首页 > wzjs >正文

漯河北京网站建设公司优化公司网站排名

wzjs 2025/7/25 21:48:37

漯河北京网站建设公司,优化公司网站排名,学生html个人网页免费模板,广州英文网站制作前言：非专业，纯瞎整理，看啥不会都往上写，见谅，欢迎讨论～ 首先，没有LLM比较对口的经历，但是还是准备一些可能会问到的简历相关的问题解释Prompt Tuning、Adapter Tuning、LoRA等微…

前言：非专业，纯瞎整理，看啥不会都往上写，见谅，欢迎讨论～

首先，没有LLM比较对口的经历，但是还是准备一些可能会问到的简历相关的问题

解释Prompt Tuning、Adapter Tuning、LoRA等微调方式的原理及其适用场景

如下图所示：

LoRA

引入两个低秩矩阵，d*d——>d*r和r*d（r<<d）

Adapter Tuning

插入可训练的adapters，微调过程中，原始模型的参数保持不变，适配器的参数根据特定任务的数据进行训练。通过这种方式，模型能够对每个特定任务做出微调，而不会影响到模型其他部分的通用性能。

Prefix Tuning

提出固定预训练LM，为LM添加可训练、任务特定的前缀，这样就可以为不同任务保存不同的前缀，微调成本也小。【更多地用于提供输入数据的直接上下文信息，这些前缀作为模型内部表示的一部分，可以影响整个模型的行为。】

Prompt Tuning

在预训练语言模型的输入中添加可学习的嵌入向量作为提示。这些提示被设计成在训练过程中更新，以引导模型输出对特定任务更有用的响应。【可学习向量（prompt tokens）旨在模仿自然语言提示的形式，倾向于用更少量的向量模仿传统的自然语言提示。】

P-Tuning

prompt tuning：使用静态的、可训练的虚拟标记嵌入，在初始化后保持固定。【简单】

P-tuning：用一个可训练的LSTM模型（称为prompt_encoder）来动态生成虚拟标记嵌入，允许根据输入数据的不同生成不同的嵌入，提供了更高的灵活性和适应性，适合需要精细控制和理解复杂上下文的任务。【复杂，可在多个任务上共享】

微调的评估指标

分类任务：

准确率（Accuracy）
精确率（Precision）
召回率（Recall）
F1分数（F1 Score）
AUC-ROC曲线（适用于不平衡类别问题）

回归任务：

平均绝对误差（MAE）
平均平方误差（MSE）
均方根误差（RMSE）
R²分数（R-squared）

序列标注任务：

标签准确率（Token-level Accuracy）
F1分数（按标签类别计算）
微平均/宏平均F1（Micro/Macro F1）

问答任务：

BLEU（用于衡量生成答案与参考答案的相似度）
ROUGE（评估摘要质量和召回率）
METEOR（结合词匹配与语义匹配的评估指标）
EM（Exact Match，完全匹配率）

生成任务：

BLEU（用于衡量生成答案与参考答案的相似度）
ROUGE（评估摘要质量和召回率）
METEOR（结合词匹配与语义匹配的评估指标）
自然度评分（Human Evaluation）
Perplexity（模型困惑度，反映模型对数据的预测能力）

常用模型的加速技巧

原因：1、算法，2、硬件

进我的收藏夹吃灰吧：大模型加速超全指南来了 | 机器之心

微调如何避免灾难性遗忘和“复读机”问题

灾难性遗忘：LoRA rank调大；MoE；lr调小

复读机：数据多样性；引入噪声；调温度参数（这俩都属于数据多样性的方法）；后处理

大模型微调还面临哪些挑战

算力成本、幻觉问题、高质量数据、准确性和可解释性。。。

Transformer和Bert相关：

介绍位置编码RoPE

和相对位置编码相比，RoPE 具有更好的外推性（大模型在训练时和预测时的输入长度不一致，导致模型的泛化能力下降）。

Bert为什么开头要加[CLS]？

BERT在第一句前会加一个[CLS]标志，最后一层该位对应向量可以作为整句话的语义表示，从而用于下游的分类任务等。因为与文本中已有的其它词相比，这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息，从而更好的表示整句话的语义。

为什么目前大模型都是decoder-only结构？

1、encoder的低秩问题：encoder的双向注意力会存在低秩问题，削弱模型的表达能力

2、更好的zero-shot性能，更适合大语料自监督学习：decoder-only在没有任何tuning的情况下，zero-shot表现最好，而encoder-decoder则需要在一定量的标注数据上做multitask finetuning才能发挥最佳潜能

3、效率问题：decoder-only支持一直复用KV-Cache，对多轮对话更友好，因为每个token的表示与他的输入有关，而encoder-decoder和PrefixLM就很难做到

查看全文

http://www.dtcms.com/wzjs/72799.html

怎么做网站文件美国最新新闻头条

网站ftp做网站的会给嘛西安seo关键字优化

学校网站怎么做的好坏网站分享

旅游电子商务网站的建设方案如何做市场调研和分析

做众筹网站需要什么条件留号码的广告网站

医药公司网站建设b站推广入口2023

zencart网站管理 1.5整站优化和关键词优化的区别

企业网站管理是什么郑州网络推广公司排名

天津高级网站建设特大新闻凌晨刚刚发生

潍坊知名网站建设成都seo服务

提供网站建设备案宁波seo关键词排名

海外域名怎么打开成都移动seo

好口碑自适应网站建设个人做外贸怎样起步

qq快速登录入口seo引擎搜索网站

大连比较好的网站公司吗搜索引擎营销的典型案例

网站logo显示营销方式和手段

复制网页源代码做网站hao123网址导航

开网站平台需要多少钱网站设计与制作教程

重庆做企业网站设计的公司抄一则新闻四年级

最好的网页设计网站淘宝seo是指什么

长沙网站seo推广公司seo整站优化报价

网站页面html静态化是什么意思站长工具忘忧草

网页设计登录注册页面代码郑州搜索引擎优化公司

用easyui 做的网站尚硅谷培训机构官网

天津建设工程信息网天津官网seo关键词排名系统

什么可以做冷门网站电商平台如何推广运营

外贸建站培训百度学术论文查重入口

网页制作教程（第三版）aso关键词优化计划

电脑做网站空间百度网盘网页

潍坊网站建设多少钱广告投放都有哪些平台