当前位置：首页 > news >正文

变分边界详解

news 2025/10/24 9:28:29

起因

当时看VAE论文时有这么一段，但是看完直接一头雾水，这都那跟哪，第一个公式咋做的变换就变出那么一堆。网上搜了很多博客都语焉不详，只好自己来写一篇，希望能解答后来人的疑惑。
在这里插入图片描述

公式1

参考文章：证据下界（ELBO）、EM算法、变分推断、变分自编码器（VAE）和混合高斯模型（GMM）
在这里插入图片描述
解释一下，我们之前都是用MLE计算损失， $logp(x|\theta)$ 和 $logp_{\theta}(x)$ 是一样的，数分和统计学写法习惯不同。第一种理解同上，可以结合VAE模型理解他的解释，这个解释比较抽象。
第二种理解是以信息论的角度，信息熵= $E[-logp_{\theta}(x)]$ 。信息熵越小，说明系统越稳定，不确定程度越低。
$L[\theta]=argmin_\theta E[-logp_{\theta}(x)]=argmax_\theta E[logp_{\theta}(x)]$
推导公式1：(引入一个隐变量z，z可以想象成VAE编码器计算出来的均值和方差的随机变量，对应分布q(z))
$logp_\theta(x) = logp_\theta(x,z) - logp_\theta(z|x)= log\frac{p_\theta(x,z)}{q(z)} - log\frac{p_\theta(z|x)}{q(z)}$
方程两边同时求期望：
具体推到过程看大佬的，白板机器学习
在这里插入图片描述

公式2

证明如下：
DK >= 0，所以可证公式2。
DK >= 0证明结果如下，写的不清楚请参考其他博客，证明很多，实在懒得敲了见谅。
在这里插入图片描述

公式3

计算结果如下，写的不清楚请参考其他博客，证明很多，实在懒得敲了见谅。
在这里插入图片描述

http://www.dtcms.com/a/14819.html

相关文章：

算力平台驱动云的使用

前端快速生成接口方法

一、通义灵码插件保姆级教学-IDEA(安装篇)

支付宝 IoT 设备入门宝典（上）设备管理篇

数据结构（考研）

26、深度学习-自学之路-NLP自然语言处理-理解加程序，怎么把现实的词翻译给机器识别。

生成式大模型怎么结合知识库与 AI Agent

oracle中decode怎么转换成pg

linux安装jdk 许可证确认 user did not accept the oracle-license-v1-1 license

【截图】selenium自动通过浏览器截取指定元素div的图片

优雅的git log输出内容更加醒目

软著申请（四）合作开发文档【2025年最新版】

FFmpeg + OpenGL ES 美颜相机教程大纲

在cursor/vscode中使用godot C#进行游戏开发

linux 下连接mysql(下)

[笔记] 汇编杂记（持续更新）

在freertos中，中断优先级和任务优先级之间的关系和使用方法

在Windows 7操作系统，基于llama.cpp本地化部署 deepseek-r1模型的方法 2025-02-08

进阶——第十六蓝桥杯嵌入式熟练度练习（串口的小BUG补充-字符接受不完整和字符接受错误）

RagFlow + Docker Desktop + Ollama + DeepSeek-R1本地部署自己的本地AI大模型工具

Go GUI 框架, energy many-browser 示例解读

大语言模型需要的可观测性数据的关联方式

【MySQL例题】我在广州学Mysql 系列——有关数据备份与还原的示例

DeepSeek 中的 GRPO 算法全面解析

力扣-二叉树-226 翻转二叉树

node.js+兰空图床实现随机图

【HUSTOJ 判题机源码解读系列01】判题机架构、判题流程浅析

一维前缀和与二维前缀和

C语言基本概念————讨论sqrt()和pow()函数与整数的关系

iOS AES/CBC/CTR加解密以及AES-CMAC