当前位置: 首页 > news >正文

第十九周周报

文章目录

  • 摘要
  • Abstract
  • 生成式对抗网络——GAN
  • 生成器的评估
  • 总结

摘要

本周学习了李宏毅老师《机器学习》课程中生成式对抗网络(GAN)的进阶内容,重点包括生成器效能评估。通过学习 Inception Score、FID 等指标,理解了如何从质量与多样性两方面评估生成效果。课程加深了我对 GAN 评估机制的理解,为后续实践奠定基础。下周将继续学习条件式生成以及cycle GAN。

Abstract

This week, I learned the advanced content of the generative countermeasure network (GAN) in the course of machine learning by teacher lihongyi, focusing on the evaluation of generator effectiveness. By learning the indicators such as perception score and FID, we understood how to evaluate the generation effect from the aspects of quality and diversity. The course deepened my understanding of Gan evaluation mechanism and laid a foundation for subsequent practice. Next week we will continue to learn about conditional generation and cycle Gan.

生成式对抗网络——GAN

GAN是以难以训练而闻名的,就像我们之前学习的RNN一样如果用常规的方法去训练,是很难train出一个好的模型。
我们先来看discriminator和generator他们各自在做什么事情?discriminator的职责是分辨真的图片和生成的图片之间的差异性;generator做的事情则是要去产生一些假的图片“骗”过discriminator;这两个神经网络之间相互激励;只要其中一者发生什么问题停止训练,另外一个就会跟着停下训练就会跟着变差。假设在训练Discriminator的时候一下子没有训练好,那么Discriminator没有办法分辨真的跟产生出来的图片的差异,同时Generator就失去了可以进步的目标,GAN 训练的难点Generator就没有办法再进步了。
在这里插入图片描述
GAN的一些相关资料推荐
Tips from Soumith
https://github.com/soumith/ganhacks

Tips in DCGAN: Guideline for network architecture design for image generation
https://arxiv.org/abs/1511.06434

Improved techniques for training GANs
https://arxiv.org/abs/1606.03498

Tips from BigGAN
https://arxiv.org/abs/1809.11096

训练GAN最难的是拿GAN来生成文字,例如在下图的模型中,我们产生了一段文字然后让辨别器查看文字是否是机器生成的并且打分,那么如果采用梯度下降的方法我们给生成器的参数带来了一点微小的变动,但由于各个输出向量都是采用取那个概率最大的文字作为输出的方式,因此微小的变化计算能够改变各个概率的值,但一般不会使得概率最大的文字改变,也就是输出没有发生改变,那么也就没有办法进行微分。
在这里插入图片描述
直到有一篇文章叫做 ScratchGAN
ScratchGAN不需要预训练(pre-training),可以直接从随机的初始化参数开始,训练Generator,然后让Generator可以产生文字。它的方法是调节hyper parameter(超参数),并且加上一些训练技巧,就可以从零开始训练Generator。
在这里插入图片描述
如果输入一个高斯分布的变量,然后使用采样出来的向量,直接输出一张照片,能不能直接用监督学习的方式来实现呢?
如下图所示:
有一堆图片,每一个图片都去配一个向量,这个向量来源于从高斯分布中采样得到的向量,然后我就可以用监督学习的方式来训练一个网络,这个网络的输入是这个向量,输出是这个图片。但是难点在于,如果纯粹放随机的向量,那训练起来结果会很差。所以需要有一些特殊的方法例如生成式潜在优化等方法
在这里插入图片描述

生成器的评估

这个问题没有一个标准性的答案,在GAN刚出现的时候,对于生成结果都是由人们自己来判断效果,这样主观性太强而且不够稳定。那么如何客观的评估呢?
通过设计一个专门的动画人物面部识别系统,可以评估生成器输出的头像质量:如果一个生成器产生的图像中能被该系统识别为动画人脸的比例越高,则说明其性能越优,例如一个生成器在1000张图像中有999张可被识别,而另一个仅有99张,显然前者更佳。
但是这个方法只能针对特定的任务,如果我们要产生的东西不是动画人物的头像,而是别的东西,那这个方法就不行了。比如它不一定是产生动画人物的,它专门产生猫、专门产生狗、专门产生斑马等等,那我们怎么知道它做得好不好呢?
我们可以将GAN生成的图像输入到一个预先训练好的图像分类系统中,然后观察分类系统的反应。
在基于分类系统的评估中,当输入一张生成图像时,系统会输出一个跨越多个类别(如猫、狗、斑马)的概率分布;若该分布高度集中,表明图像特征明确且易于被识别为某一特定类别,反映出较高的生成质量;反之,若分布趋于均匀,则意味着图像特征模糊、类别不明,表明其生成质量较低。
在这里插入图片描述
评估的方法会被模型崩塌给骗过去
从示意图中可以直观地看出,该问题是指生成模型虽然能产生质量较高的样本,但这些样本的多样性严重不足,就像左下方代表生成样本的红星都聚集在同一个点上,而无法像覆盖范围更广的真实分布那样;右例中生成的图像也因高度相似而缺乏变化,例如我标注的那几张几乎一模一样,这表明模型很可能已发生“模式坍塌”,训练到最后其输出可能会收敛至单一的、缺乏多样性的结果。generator产生的这张图片永远“骗过”discriminator
在这里插入图片描述
另外一个问题是Mode Dropping,它比上一个问题更难侦测到,先来直观说明问题的内容。model dropping指 GAN 能很好地生成训练集中的数据,但难以生成非训练集的数据,“缺乏想象力”。(有点像过拟合)。其生成的数据可能仅代表了真实数据的一部分。在两次产生的图像集中看起来好像有分布得很均匀,但是我们可以发现第一次只有白人,第二次只有黄种人,这就说明它没有学习到真正的分布。

在这里插入图片描述
将产生的所有图片都丢进去一个图像分类系统之中,那么每张图片就会产生对应的分布,我们再将所有分布求和取平均,那么如果得到的最终分布越平坦,就说明多样性是足够的。
在这里插入图片描述
FID是一种评估指标,其方法是将真实图像和生成图像分别输入一个图像识别系统,并提取通过softmax层之前的最后一个网络层所输出的特征向量来表示每张图片;随后基于这两组特征向量集合来计算一个距离值(即FID分数),其核心思想是假设这两个特征分布都符合高斯分布,并通过计算它们的接近程度来评估生成质量——分布越相似,FID值就越低;不过,为了准确模拟真实数据的分布,此方法需要对大量图像进行前向传播来获取足够的特征向量,导致计算开销较大。
在这里插入图片描述

总结

本周我重点学习了李宏毅《机器学习》中生成式对抗网络的进阶部分,深化了对生成器效能评估方法的掌握,通过理解Inception Score和FID等指标,能够从生成样本的质量与多样性两个维度客观评估模型表现,并进一步认识到科学合理的评估机制在GAN训练中的关键作用,为后续开展条件生成及CycleGAN等研究方向打下了扎实基础。

http://www.dtcms.com/a/473753.html

相关文章:

  • Springboot 常见面试题汇总
  • 驻马店市做网站百度收录软件
  • 在实际项目中,Java 应用的性能瓶颈通常出现在哪些方面,又该如何有效地进行优化?
  • 08_Freqtrade配置与开发环境
  • C++实例
  • 复习总结最终版:Linux驱动
  • Python全栈(基础篇)——Day09:后端内容(列表生成式+生成器+迭代器+实战演示+每日一题)
  • kanass入门到实战(18) - 如何通过仪表盘,快速直观掌握项目进度及度量
  • seo网站优化工具大全wordpress 百度地图api
  • webstorm 调试时不能连接网页
  • 互助网站建设公司网页制作 主流软件
  • 微信公众号登录wordpress网站安徽城乡建设厅网站证件
  • 用wordpress建公司网站步骤郑州橱柜网站建设
  • StringBuffer和StringBuilder的扩容机制
  • 计数 dp
  • 数据结构 实现二叉搜索树与哈希表
  • 深度解析:使用ZIP流式读取大型PPTX文件的最佳实践
  • 商家运营优化:基于京东API返回值的商品管理策略
  • SpringAI+DeepSeek大模型应用开发自用笔记
  • 220kV变电站电气一次系统设计(论文+CAD图纸)
  • 网站快照诊断qq空间 wordpress
  • sql优化思路
  • LeetCode 分类刷题:92. 反转链表 II
  • 视频背景音乐怎么做mp3下载网站wordpress 密码验证失败
  • 医疗区块链:电子病历的零知识证明实现
  • Redis 核心文件、命令与操作指南
  • 使用 httpsok 给 QNAP NAS 添加阿里云域名的永久免费 HTTPS(SSL)证书
  • AI加持的SEO新纪元:用提示词打造高质量内容生产线
  • Manim环境搭建--FFmpeg环境安装
  • JAVA集合框架详解