当前位置: 首页 > news >正文

神经网络之理解温度对Softmax的影响

🎯 一句话理解:

温度 TTT 控制 Softmax 输出的“确定性”和“分布平滑度”:

  • T→0T \to 0T0:输出极度确定 → 接近 one-hot(只保留最大)
  • T→∞T \to \inftyT:输出极度模糊 → 接近均匀分布(平均对待所有类别)

📐 数学表达回顾

带温度的 Softmax:

softmaxT(zi)=ezi/T∑jezj/T \text{softmax}_T(z_i) = \frac{e^{z_i / T}}{\sum_j e^{z_j / T}} softmaxT(zi)=jezj/Tezi/T

温度 TTT 的作用就是 “缩放 logits”

  • T<1T < 1T<1:放大差异(更极端)
  • T>1T > 1T>1:压缩差异(更平滑)

🎨 图示理解(示意):

假设 logits 为 z=[1, 2, 3]\mathbf{z} = [1,\ 2,\ 3]z=[1, 2, 3],我们来看不同温度下的 softmax 输出:

温度 TTT输出分布 softmaxT(z)\text{softmax}_T(\mathbf{z})softmaxT(z)解释
T=0.5T = 0.5T=0.5[0.02, 0.14, 0.84][0.02,\ 0.14,\ \mathbf{0.84}][0.02, 0.14, 0.84]非常尖锐,几乎就是 argmax(one-hot)
T=1.0T = 1.0T=1.0[0.09, 0.24, 0.67][0.09,\ 0.24,\ \mathbf{0.67}][0.09, 0.24, 0.67]正常 softmax 输出
T=2.0T = 2.0T=2.0[0.21, 0.29, 0.50][0.21,\ 0.29,\ \mathbf{0.50}][0.21, 0.29, 0.50]更平滑了,权重更平均
T=10.0T = 10.0T=10.0[0.31, 0.33, 0.36][0.31,\ 0.33,\ \mathbf{0.36}][0.31, 0.33, 0.36]几乎是均匀分布

📈 越低温度 → 越倾向“选择明确答案”
📉 越高温度 → 越倾向“平均分给所有类别”


🧠 为什么温度能改变行为?

从公式:

softmaxT(zi)=ezi/T∑jezj/T \text{softmax}_T(z_i) = \frac{e^{z_i/T}}{\sum_j e^{z_j/T}} softmaxT(zi)=jezj/Tezi/T

你可以看到:

  • T<1T < 1T<1:放大 ziz_izi 之间的差异 → 指数函数会更快拉开差距 → 更接近 one-hot
  • T>1T > 1T>1:压缩差异 → 所有类别得分趋于接近 → 更平均分布

温度其实是一个 “控制决策锋利程度的温控器”。


🧪 类比理解

  • 🎯 低温:像一个“果断的人”,认定哪个最好,立刻选
  • 🌫️ 高温:像一个“犹豫的人”,认为都差不多,都给点分数

🔥 在实际中你怎么用?

场景使用温度的目的
生成文本(GPT)控制“创造性”:低温 → 严谨、重复;高温 → 发散、创新
知识蒸馏设置 T>1T > 1T>1,让教师模型输出更平滑的“软标签”,学生能学到更多类别间相似性
策略采样(RL)控制探索程度:低温 → exploitation;高温 → exploration
逐步退火训练初始 TTT 高让模型广泛探索,训练后期逐渐降低使其收敛到更稳定策略

✅ 总结:温度的作用就是调节“概率分布的形状”

温度 TTTSoftmax 输出含义
T→0T \to 0T0极度 one-hot更“果断”,强调最高得分类别(贪婪)
T=1T = 1T=1标准 softmax正常行为
T→∞T \to \inftyT接近均匀分布更“保守”,保持可能性(探索)
http://www.dtcms.com/a/434905.html

相关文章:

  • 做视频怎么去除网站个人网站代做
  • Linux中信号量semaphore的实现
  • 广州网站推广公司建筑工程公司是干嘛的
  • ESP32驱动DHT11温湿度传感器详解
  • flask做的网站 网址做网站推广有什么升职空间
  • 网站上线过程做美团网站多少钱
  • 微信分享网站短链接怎么做公司的介绍怎么写
  • 算法分析:时间和空间复杂度
  • 第6章串数组:稀疏矩阵的十字链表表示
  • 【STM32项目开源】基于STM32的工地环境监测系统
  • 手机登录网站怎么建设如何做一个网站代码
  • 解决django.db.utils.OperationalError: attempt to write a readonly database错误
  • CAN-超时计数器(Timeout Counter)
  • 网站建设策划有哪些建设网站用英文怎么说
  • 报告派研读:2025年光学光电子深度报告
  • 技术演进中的开发沉思-121Linux命令篇:系统设置命令(下)
  • 深入理解 JavaScript 闭包与作用域
  • 【操作系统-Day 38】LRU的完美替身:深入解析时钟(Clock)页面置换算法
  • Linux 入门指南:从零掌握基础文件与目录操作命令
  • 高职院校高水平专业建设网站wordpress的windows
  • 网络原理-HTTPS
  • 马鞍山网站建设文如何查网站注册信息
  • 郑州机械网站建设memcached wordpress 慢 卡
  • Java数据结构:ArrayList与顺序表2
  • python系统设计2-选题
  • 做网站表示时间的控件用哪个wordpress 新窗口打开文章
  • Phase 与 Invisibility 的区别
  • MATLAB学习文档(二十三)
  • 基于php网站开发手机官网
  • 2018 年真题配套词汇单词笔记(考研真相)