当前位置: 首页 > wzjs >正文

为什么做这个网站反馈问题石家庄网络关键词排名

为什么做这个网站反馈问题,石家庄网络关键词排名,网站建设与设计教程,网站建设入门到精通关于深度学习局部视野与全局视野的一些思考 最近,我在学习一个基于Transformer的网络模型时,注意到了一些局部特征和全局特征的概念。引发了一些疑问: 为什么说CNN只能看到局部区域,而transformer能看到全局区域?什么是token? 对于图像中…

关于深度学习局部视野与全局视野的一些思考

最近,我在学习一个基于Transformer的网络模型时,注意到了一些局部特征和全局特征的概念。引发了一些疑问:

  1. 为什么说CNN只能看到局部区域,而transformer能看到全局区域?
  2. 什么是token? 对于图像中又指代什么?
  3. 一个卷积核只看它覆盖的小区域(patch),无法直接“看到”整张图。 但卷积核划过整幅图,为什么说只看到局部特征?
  4. CNN通过堆了多层,比如三层 3×3 卷积,来扩大感受野 ,为什么堆积多层就会提高感受野?
  5. 关于全局语义增强后的图像特征序列, 这些特征是体现在数值上的改变么?
  6. encoder,decoder做了什么?

第一个问题:为什么说CNN只能看到局部区域,而transformer能看到全局区域?

我们都知道,CNN是通过卷积核来提取图像特征的,直观上来看,最让人注意到的就是通过卷积之后图像变小了,这就像是将一个大的图像压缩成一个小的特征图,我之前更多关注的是,这样做降低了计算压力。
现在来理解为什么说CNN只能看到局部区域,假如有一个33大小的卷积核,以步长为1的方式划过整幅图像。在结果图中,第一次卷积的结果只跟它看到的33像素大小的区域有关。这就有点像盲人摸象,有个盲人去摸大象来判断是什么样子的。第一次摸到鼻子,就说大象像一条蛇,第二次摸到耳朵,就说大象有两个翅膀,可能会飞。以下图为例,结果图中的5,4,5,5这四次卷积得到的特征结果是相对独立的。
而在transformer中,通过将5,4,5,5并排展开成序列,通过注意力机制,就是为了使相对独立的结果块与其他结果块相互比较,加权来建立联系。通过这种方式,我们认为transformer看到了全局区域,能够学习全局的特征。
请添加图片描述

第二个问题:什么是token? 对于图像中又指代什么?
在语言文字模型中,token代表一个单词,而在图像中,token代表图像的一个个切块(patch),就比如256256的图像,通过一串卷积后得到了16161024特征图。 其中1616特征图中的每个像素值,都代表着对应于图像的一个个小切块(patch),这个小切块是卷积看到的区域。每个 token 对应的是图像上的一个小区域的位置,并且它的值就是这个区域的特征向量(1024维)

第三个问题:一个卷积核只看它覆盖的小区域(patch),无法直接“看到”整张图。 但卷积核划过整幅图,为什么说只看到局部特征?

虽然卷积核确实会划过整幅图像,但每次滑动只关注一个3*3的小区域,输出的一个数值(向量),仅代表这个小区域的特征;虽然划过了整幅图,但每个输出值只跟那一小块区域有关,有联系。

第四个问题:CNN通过堆了多层,比如三层 3×3 卷积,来扩大感受野 ,为什么堆积多层就会提高感受野?

感受野(Receptive Field)指的是 输出特征图中某一个神经元在输入图像中所“看见”的区域大小。
用直白一点的话说:一个输出位置能“看到”输入图像的多大范围。

假设有一个 3×3 的卷积核,它在输入图像上滑动,那么这个卷积核一次只看输入图像的 一个 3×3 小块,所以,输出特征图中的每个点,感受野就是 3×3。当使用连续堆叠的三层3*3卷积(无池化,步幅为1,padding为1),来看它是怎么让感受野变大的。

第1层:输出的每个像素来自输入的 3×3 区域→ 感受野是 3×3

第2层:它的输入是上一层的输出。上一层的输出的每个点“看到”3×3 → 所以这一层的卷积核,其实在最初输入图像上“看”到了 5×5 的区域。

第3层:继续类推,它的输出每个点能“看到”上层输入中的 3×3→ 上层输入的每个点又看到 5×5→ 最终这个输出的每个点可以看到原图中的 7×7 区域。

堆叠多层卷积层,相当于在原图上间接建立了更大范围的信息融合路径,从而扩大感受野,让模型能提取更“全局”的信息。这里大胆推测CNN网络的发展为了叠加多层,就是为了扩大感受野。
但对于transformer来说,他不用经历艰难的堆叠来一点点扩大感受野,通过自注意力及交叉注意力就能获得包含全局信息的特征。

第四个问题:关于全局语义增强后的图像特征序列, 这些特征是体现在数值上的改变么?

全局语义增强后的图像特征序列通常体现在数值上的改变。具体来说,图像的每个特征向量(通常是卷积网络中的输出)表示了图像的某个局部区域的信息。在通过全局语义增强时,这些特征向量会根据全局信息(比如整个图像的上下文、长程依赖等)进行调整或更新。这些改变可以是通过以下方式进行的:

特征加权:全局语义增强方法可能会通过某种机制(比如自注意力机制)对每个特征加权,使得某些特征在增强后变得更加突出,或者根据其与全局上下文的关系进行调整。这种加权操作会改变特征向量中的数值。

上下文信息融合:通过考虑图像中远离当前区域的信息,特征向量会融入更多的上下文信息。这种信息融合使得原本局部的特征能够获得更多全局信息的影响,进而改变其数值表示。

特征变换:例如通过变换网络(如 Transformer、图卷积等)进行的操作,可能通过非线性函数或者线性映射来调整特征数值,使得它们更能代表图像中的全局语义信息。

因此,经过全局语义增强后,每个特征的数值通常会有所变化,反映出该特征与全局语义的关系增强或调整。这种数值变化有助于更好地捕捉图像中的高层次语义信息,提升后续任务(如分类、目标检测、分割等)的性能。

encoder,decoder做了什么?
简单说,encoder,decoder都是通过query,key,value;注意力机制来完成的。encoder更多的是为了输出包含全局信息的value.
而decoder,会根据query信息,生成与query信息反应强烈的对应value值,通过解码value值,就可以得到预测的结果。

http://www.dtcms.com/wzjs/43749.html

相关文章:

  • 烟台高端网站建设手机百度浏览器
  • 产业园门户网站建设方案seo网络优化教程
  • 自己建个网站怎么挣钱永久免费域名申请
  • 创新的福州网站建设淘宝seo优化是什么
  • 做网站用什么空间免费发布广告信息的网站
  • 常规做网站要在工信部认证吗优化网站推广网站
  • 如何制作课程网站模板下载网站建设运营
  • wordpress 移动版主题关键词首页排名优化公司推荐
  • 企业网站一般要素关键词林俊杰在线听免费
  • 杭州做网站的优质公司信阳搜索引擎优化
  • 做网站切图的原则是什么百度官方推广
  • 网站建设金网科技seo怎么优化武汉厂商
  • 免费做mc皮肤网站360指数查询工具
  • 做网站的内容在线代理浏览国外网站
  • 赣州企业网站建设怎么创建网页链接
  • 泰安做网站建设的公司seo网络推广优化
  • 昆明做网站公司有哪些百度付费推广
  • 上海微信小程序网站建设搜索广告排名
  • 图片渐隐 网站头部flash什么软件能搜索关键词能快速找到
  • 郑州做网站找哪家广告资源对接平台
  • 高密哪里有做网站的阳泉seo
  • 做网站需要自己研发吗企业查询网站
  • 顺德专业网站制作南宁seo内部优化
  • mip网站设计网页模板免费下载网站
  • 做网站老板嫌弃太丑谁的锅竞价服务托管价格
  • 池州做网站webview播放视频
  • 做渠道该从哪些网站入手建设网站流程
  • py可以做网站吗重庆关键词自然排名
  • 旅游网站开发报告做电商一个月能挣多少钱
  • 网站建设目标初步目标中国职业培训在线平台