当前位置: 首页 > wzjs >正文

宝山做网站百度网址大全怎么设为主页

宝山做网站,百度网址大全怎么设为主页,免费空间自助建站模板,asp做的手机网站一、前言 本文章作为学习2023年《李宏毅机器学习课程》的笔记,感谢台湾大学李宏毅教授的课程,respect!!! 二、大纲 什么是Life-Long Learning?Catastrophic Forgetting(灾难性遗忘&#xff0…

一、前言

本文章作为学习2023年《李宏毅机器学习课程》的笔记,感谢台湾大学李宏毅教授的课程,respect!!!

二、大纲

  1. 什么是Life-Long Learning?
  2. Catastrophic Forgetting(灾难性遗忘)
  3. Research Directions(研究方向)

三、Life-Long Learning?

何为Life-Long Learning?
Life-Long Learning 字面意思就是终身学习,AI也是需要终身学习,在环境中收集资料,重新再训练模型,让自己变得更加强大。举例如下:
在这里插入图片描述
说明:
Model根据Old task收集到Labelled Data,进行训练并部署在线上,经过一段时间使用收集到Feedback(如丰富了样本集),再次进行模型训练优化的过程,可以看做是Life-Long Learning。

区分:咋一听有点像迁移学习,但其实是有区别的,迁移学习我们其实关心的是目标任务的精度,不太关心迁移前原始任务的精度,而终身学习关注的则是both。

个人理解:
Life-Long Learning 适用在同一类任务下,如图像识别、QA问答,如果想让模型既做图像识别,又做QA问答,那就是多任务的问题了。而Life-Long Learning的目标是想让模型适应新的环境变化时候,还不能“忘本”。

举个例子
1、手写数字辨识
在这里插入图片描述
说明:

  1. 数据情况:有两堆数字 0 的图片,左边比较模糊(Task1),右边比较清晰(Task2);
  2. 模型:自搭一个深度3层,每层50个神经元的全连接神经网络;
  3. 训练Task1,分别测试在Task1和Task2上,Task1有90%准确率,Task2有96%准确率,这结果也是合理的,毕竟左模糊右清楚,右边高点正常。
  4. 拿步骤3的模型,再训练Task2,接着分别测试在Task1和Task2上,发现Task1的准确率下降了10%,Task2刚训练完,准确率高点是合理的。

那为啥会下降呢?模型难道它忘了它是学过Task1的?带着这个疑问继续往下看。

进一步试试把Task1和Task2的数据倒一块进行学习:
在这里插入图片描述
这么做确实可以让Task1和Task2都变好,但是以后难道每次遇到新情况都得把所有数据倒在一块重新跑过一次模型,那数据量只会越来越多,显然不是一个好的办法。

2、QA问题
同样的问题在QA任务上也是存在的,这里就不赘述。

以上的问题就叫做Catastrophic Forgetting(灾难性遗忘)。

四、Catastrophic Forgetting(灾难性遗忘)

上述第三章已引出什么是Catastrophic Forgetting,那有没有解决的办法呢?

  • 方法一:所有数据倒一块,重新训练一次?不妥,数据量只会越来越大,当然也是非常消耗计算资源。
    在这里插入图片描述

  • 方法二:每种情况训练一种模型来应对?不妥,把所有模型存下来非常耗费存储空间,不同模型的经验难以互通有无。
    在这里插入图片描述

那没有办法了吗?
有,那就是现在对于这个灾难性遗忘问题的解决方向。

五、Research Directions(研究方向)

课程中介绍了三种方法,比较完善的方法在于第一种:

  • Selective Synaptic Plasticity(选择性突触可塑性)
  • Additional Neural Resource Allocation(额外的神经资源分配)
  • Memory Reply(记忆回放)

在讲这三种解决方法时候,先说明下为什么会出现Catastrophic Forgetting

Why Catastrophic Forgetting?
举个例子说明:
在这里插入图片描述

说明:假设还是上面那个手写数字辨识的例子,简化一下假如模型就只有两个维度的参数 θ 1 \theta_1 θ1 θ 2 \theta_2 θ2,上图是error face,颜色越深loss越小。

  • Task1训练: θ 0 \theta^0 θ0根据梯度下降算法往loss低的方向走,最终更新得到 θ b \theta^b θb
  • Task2训练:拿着Task1的模型和训练好的参数进行Task2训练,同样进行gradient decent, θ b \theta^b θb最终跑到了 θ ∗ \theta^* θ,但是 θ ∗ \theta^* θ在Task1中的loss是高的,因此,这种情况下就会在Task1中表现不好。

那该怎么办?我们期望Task2更新参数时候能够考虑下Task1的梯度下降方向,使得 θ b \theta^b θb在Task2中进行参数更新能有个折中的方向。

1、Selective Synaptic Plasticity(选择性突触可塑性)
基本思想:还是以上述两个Task为例,Task1训练得到的模型里面肯定有一些参数是重要,还有一些参数是不重要的,Selective Synaptic Plasticity的思想就是要把重要的每个参数守卫住,别让它变化太多,这个守卫就是 b i b_i bi
基本思想:
说明:上图是直接解释每一项是什么,不再赘述。
在这里插入图片描述
那为什么公式是写成这样呢?
个人理解:整体结构写成 新损失函数 = 原损失函数 + 惩罚项,这种结构应该好理解,重点看这惩罚项,假设两种情况:
1、守卫 b i b_i bi很小,甚至可以是0。这种情况说明 θ i \theta_i θi不重要呀,你都没派重兵把守, θ i \theta_i θi爱咋滴咋滴,因为守卫 b i b_i bi已经把大格局定了,也就是不怎么会影响到新的loss函数,那 θ i \theta_i θi自由度高呀。
2、守卫 b i b_i bi很大,甚至可以是无穷。那要使新的损失函数较小,那 θ i \theta_i θi要和 θ i b \theta^b_i θib越接近越小,意思就是 θ i \theta_i θi你可别乱动,要是乱动的话loss肯定要变大的哦。

至于 b i b_i bi怎么设置,那就是需要手动来做调整,试出来。

其实,我们所做的就是在看上一个Task的梯度下降方向和当前Task的梯度下降方向会不会冲突!

有一个方法就是Gradient Episodic Memory (GEM),弊端就是需要记录上一个Task的梯度下降方向,需要额外耗费内存。

2、Additional Neural Resource Allocation(额外的神经资源分配)

  • Progressive Neural Networks
    基本思想:PNN 通过冻结旧任务的网络,并为新任务添加新网络模块,避免遗忘并提升新任务的学习效果。
  • PackNet
    和PNN有点反过来,开一个大网络,每一次激活一部分神经元。

3、Memory Reply(记忆回放)
通过存储和回放旧任务的数据,让模型在学习新任务时仍然能保持对旧任务的记忆。

后面两种方法,后面有碰到再深入研究吧~

http://www.dtcms.com/wzjs/210765.html

相关文章:

  • 同城app模板网站怎么优化推荐
  • 公司建设网站属于什么费用企业网站seo推广方案
  • 深圳建筑工程招聘信息推广优化方案
  • p2p网站策划郑州专业的网站公司
  • 韩国优秀平面设计网站有哪些色盲能治好吗
  • 广东省中山市网站杭州百度推广电话
  • 律师网站建设怎么样提升关键词
  • 萧山网站优化考研最靠谱的培训机构
  • 怎么做网站的seo排名知乎google chrome官网
  • 温州公司网站开发今日热点新闻15条
  • 营销型网站的概念英语seo什么意思
  • c++后端开发需要学什么快速seo整站优化排行
  • 专注徐州网站建设seo是如何优化
  • 建筑网建设通网站作用是什么意思先做后付费的代运营
  • 现在做网站有前途吗网上广告怎么推广
  • 公司营业执照群站优化之链轮模式
  • 企业门户网站的建设方法最新腾讯新闻
  • 专业做网站建设公windows优化大师收费吗
  • php做投票网站搜索引擎平台有哪些
  • 网站推广策略与问题分析浙江网站建设平台
  • 金华模板建站定制网站推广文案怎么写
  • 宁波网站建设服务公司电hua提高工作效率的方法有哪些
  • 中国免费网站服务器免费下载seo关键词优化的技巧和方法
  • 做独立网站关键词整站优化
  • 淮安 网站建设国内搜索引擎有哪些
  • 电影网页设计毕业论文关键词优化
  • 做网站php和asp哪个好专门看广告的网站
  • 网站域名如何优化高报师培训机构排名
  • 网站logo如何做链接重庆百度推广的代理商
  • 网页制作与网站建设知识框架图sem优化怎么做