当前位置：首页 > news >正文

初始AI大模型-起源和发展

news 2025/7/1 12:11:38

AI发展历史

解码注意力机制（Attention Mechanism）

什么事注意力机制

首先我们先看一段话

假设把我们当成一个智能体，我们去思考一个问题，我到底去了几次咖啡店？

可能在这段话当中，咖啡店出现了三次，会认为我们去了咖啡店三次，但是实际上我们需要了解一个关键点！！！

高频不等于重点

为什么要用注意力机制

注意力机制的特点和优势

注意力机制有助于克服循环神经网络（RNNs）的一些挑战，例如输入序列长度增加时性能下降和顺序处理输入导致的计算效率低下。
在自然语言处理（NLP）、计算机视觉（Computer Vision）、跨模态任务和推荐系统等多个领域中，注意力机制已成为多项任务中的最先进模型，取得了显著的性能提升。
注意力机制不仅可以提高主要任务的性能，还具有其他优势。它们被广泛用于提高神经网络的可解释性，帮助解释模型的决策过程，使得原本被认为是黑盒模型的神经网络变得更易解释。这对于人们对机器学习模型的公平性、可追溯性和透明度的关注具有重要意义。

注意力机制能够对我们神经网络中一些不可解释的东西进行一些呈现

可以看上面那一幅图像，能够看到数字下面的图像，数字后面的图像就是通过神经网络所学到的东西。

如何实现注意力机制

上面那个模型是没有引入注意力机制的模型，下方是引入了注意力机制的模型，可以总体总结，引入注意力机制的模型使用了一种数学方法，将Hidden State#1、Hidden State#2、Hidden State#3的信息共同传到解码器的阶段。

传统编码器 - 解码器

编码阶段，通过函数 \(h_i = f(x_i, h_{i - 1})\) 计算编码器隐藏状态 \(h_i\) ，\(x_i\) 是输入序列元素，\(h_{i - 1}\) 是前一时刻隐藏状态。

http://www.dtcms.com/a/172308.html

相关文章：

解决DNS劫持问题

7400MB/s5050TBW完美结合，全新希捷酷玩530R SSD体验评测

【KWDB 创作者计划】_Ubuntu 22.04系统KWDB数据库安装部署使用教程

开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM（一）

生成式AI服务内容被滥用的法律责任划分

掌纹图像识别：解锁人类掌纹/生物识别的未来——技术解析与前沿数据集探索

如何快速获取字符串的UTF-8或UTF-16编码二进制数据?数值转换成字符串itoa不是C标准？其它类型转换成字符串？其它类型转换成数值类型？

Java学习手册：Hibernate/JPA 使用指南

Python 矩阵运算：从理论到实践

免费开源又全能，文件对比需求选他

(即插即用模块-Attention部分) 六十五、(2024 WACV) DLKA 可变形大核注意力

方法：批量识别图片区域文字并重命名，批量识别指定区域内容改名，基于QT和阿里云的实现方案，详细方法

GGD独立站的优势

如何判断cgroup的版本？

【PostgreSQL数据分析实战：从数据清洗到可视化全流程】4.3 数据脱敏与安全（模糊处理/掩码技术）

SpringBoot实战：整合Knife4j

前端懒加载（Lazy Loading）实战指南

开元类双端互动组件部署实战全流程教程（第3部分：UI资源加载机制与界面逻辑全面解析

金仓数据库 KingbaseES 在电商平台数据库迁移与运维中深入复现剖析

C++和Lua混和调用

编译原理期末重点-个人总结——2 文法与语言

相同IP和端口的服务器ssh连接时出现异常

36-校园反诈系统(小程序)

JS DAY4 日期对象与节点

JAVA简单走进AI世界~Spring AI

Ubuntu K8S(1.28.2) 节点/etc/kubernetes/manifests 不存在

二、【LLaMA-Factory实战】数据工程全流程：从格式规范到高质量数据集构建

虚幻引擎5-Unreal Engine笔记之显卡环境设置使开发流畅

springboot+mysql+element-plus+vue完整实现汽车租赁系统

Vue3携手Echarts，打造炫酷数据可视化大屏