当前位置: 首页 > wzjs >正文

织梦手机网站制作教程营销策划与运营团队

织梦手机网站制作教程,营销策划与运营团队,如何判断网站seo做的好坏,app 网站开发公司电话粗糙且概括地来说,语音是按照时间切分成很小的小块,然后每个小块的波形变成了一列像素,例如1100,那么一段语音可能分成200块,则该图片是200100的,接下来就变成了怎么做ViT的问题了。 接下来,详…

粗糙且概括地来说,语音是按照时间切分成很小的小块,然后每个小块的波形变成了一列像素,例如1100,那么一段语音可能分成200块,则该图片是200100的,接下来就变成了怎么做ViT的问题了。

接下来,详细说说语音->图的转变。

傅立叶变换

如果音频只有一个频率,则它是规律的波形。
规律的波形也有高低,因此这是另一个变量,叫赫兹。现在有了频率和赫兹,这就能画二维的图了。
在这里插入图片描述
如果一个音频很乱,则它是多个频率的叠加。
这就是傅立叶变换的目的,找出时序的音频波形是由哪些。
如上图所示,由两个频率和各自振幅(声音大小)组成的波形是左下角,右下角是两个频率(x轴)和其振幅(y轴),实际上应该是两个尖,没有宽度。
可以想像,如果是真实音频,其傅立叶变换后的右下角图得有多乱了。

短时傅立叶变换。

如果对十分钟的音频做FFT,显得有些拥挤了,信息也不够细。
所以有了短时FFT,核心就是把音频切分成带覆叠的音频块,再对小块做FFT。这就是前面说的1*100的像素的由来,100就是100个频率区间,像素颜色深浅代表赫兹。
在这里插入图片描述

梅尔频谱

这没有什么神秘的,只是一种对频率轴的拉伸。对于同样500hz频率的变化,从500->1000人类能分辨, 10000->10500就分不出来了。人类对低频更敏感,所以需要做一定的拉伸:
在这里插入图片描述
f是频率,单位是hz,依照上面的公式就能把频谱图转为梅尔频谱图。可见,上式是单调递增的。鬼知道为什么是这些值,大概是试出来的吧。

下面是一个实际的梅尔频谱,从知乎截的。
在这里插入图片描述
可见,横轴是时间,即短时傅立叶变化切割整个时间轴得到的碎片,一个个小格子很明显。
纵轴是hz,但是注意,hz并非线性变化,0-512与1024-2048的宽度几乎一样,但是hz变化差分别是512和1024,这是梅尔频谱转化的结果。
感觉纵轴不太对,所以用gpt快速验证了一下:
在这里插入图片描述
看来也差不多,0-512变化618,1024-2048变化526。
梅尔频谱图的颜色深浅为分贝,它也是一个对振幅的单调递增映射,也是为了对应人耳感受。以下是振幅转分贝的公式,其中A0是一个定值。
在这里插入图片描述

结语

看完了就知道声音是怎么转为“图片”的了,后续再看看这些频谱图的处理与cv领域用的ViT处理方法有何不同。

http://www.dtcms.com/wzjs/75744.html

相关文章:

  • 网站关于我们怎么做单页面模板上海网站建设开发
  • python在线运行seo外包资讯
  • 潍坊网站设计企业管理8大系统
  • 网站流量劫持怎么做广告主平台
  • 魔都网站建设百度免费推广方法
  • 做网站销售门窗怎么做徐州百度seo排名优化
  • 如何做网站连接深圳网站优化公司哪家好
  • wordpress php.ini在哪里关键词推广优化app
  • 做网站开发淘宝权重查询入口
  • 网站在线客服源码seo发包软件
  • 太平洋建设21局网站福州百度seo代理
  • 怎么建网站站点太原百度快速排名提升
  • 公司做网络宣传哪个网站比较好客源引流推广app
  • 做网站运营需要学什么软件比百度还强大的搜索引擎
  • 网站建设公司国内技术最强网络营销策划目的
  • 如何制作效果图北京网站seo公司
  • 免费咨询图片大全上海seo推广外包
  • 国际域名注册查询seo兼职接单平台
  • 徐州 商城网站建设seo网络排名优化
  • wordpress如何加好友seo排名优化代理
  • 企业如何注册网站广东今日最新疫情通报
  • 鄂州网站建设网络公司小说关键词生成器
  • 做短视频的网站都有哪些自媒体
  • 国内十大网站建设google关键词优化排名
  • 政府网站集群建设意义app广告联盟
  • 哪有做logo的网站百度一键优化
  • 青岛北京网站建设公司哪家好最快的新闻发布平台
  • 视频分享网站怎么做合肥品牌seo
  • 企业网站运营方案免费搜索引擎入口
  • 寻找做网站的合作伙伴北京优化关键词排名seo