当前位置: 首页 > news >正文

LTU-AS:一种具备音频感知、识别、理解的大模型架构

  • JOINT AUDIO AND SPEECH UNDERSTANDING
  • LTU-AS:listen to, think of, and understand audio and speech,也就是在LTU基础上增加语音识别能力
  • 一种模型优化技术:其实就是在LTU具有音频感知和理解能力的基础上,引入识别能力。看这篇文章前建议先看完《Whisper-AT:一个统一语音识别和音频标签的模型》和《LTU:一种能听、能想、能理解的大模型架构》。

章节1:背景介绍

人类生活在一个多样化的音频信号环境中,包括语音和各种非语音声音。人可以准确辨识、解释和整合这些语音和非语音音频元素,以及深刻理解它们之间的关系。无所不能的人工智能也应该具备这样的能力!

于是论文提出了一种新的模型结构LTU-AS,下图展示了LTU-AS效果,我们看一下第一个示例:感知到了人声和篮球弹跳的声音,同时基于识别出的说话内容,推测出这个说话人正在指导别人打篮球教练。可以看出这个模型同时具备了音频感知、理解能力、识别能力。

章节2:方案阐述

框架设计

LTU-AS模型架构如上图,对比一下LTU可以发现就是将原来的AST换成“whisper+TLTR”,在《Whisper-AT:一个统一语音识别和音频标签的模型》这篇文章中,已经比较详细的讲解了“whisper+TLTR”模块,这里不做赘述。所以,可以简单的将LTU-AS理解为Whisper-AT和LTU融合,技术上没有太多可讲的。

数据准备

论文构建了一个9.6M的训练集:OpenAQA-5M、2.7M语音问答集(speechrelated AQAs)、1.2M音频语音问答集(joint audio and speech AQAs)。

与LTU一样,作者并没有新录制音频数据,而是重新标注了13个开源数据集,下边详细讲解数据集构建过程。

封闭式音频问答数据集构建(closed-ended AQA)

  • Open-Ended Audio AQA:这部分的构建在《LTU:一种能听、能想、能理解的大模型架构》已经详细描述,这里不再赘述
  • Closed-Ended Speech AQA:941K的封闭式语音问答数据集是基于4个常用的语音数据集(IEMOCAP/LibriTTS/VoxCeleb2/MOSEI)构建,元信息的构成主要包括以下几个部分:
    1. 数据集原始标注:不同数据集包含的元信息不一致,如IEMOCAP标注了性别,但MOSEI就没有标注性别,上表中"x"就表示原数据集提供的标注信息
    2. 标注说话人风格:提取音高、语速、音量等信息,由此生成说话人风格问答集
    3. 对音频内容进行识别:对其中150K数据进行识别,构成形如(音频,Q,A)这样的识别问题集
  • Closed-Ended Joint Audio and Speech AQA:该数据集基于音乐分析数据集FMA构建,首先用Whisper识别出歌词,把歌词以及数据集原来的标签(如风格、标题)一同输入GPT生成问答,大小为93K

开放式音频问答数据集构建(open-ended AQA)

论文仍基于一种名为AIG的数据生成方法。简单描述就是:提取音频的元信息(音频事件、说话内容、说话风格等),输入GPT-3.5-Turbo,让GPT根据特定的prompt生成答案。

  • Open-Ended Audio AQA:这部分的构建在《LTU:一种能听、能想、能理解的大模型架构》已经详细描述,这里不再赘述
  • Open-Ended Speech AQA:仍基于4个常用的语音数据集(IEMOCAP/LibriTTS/VoxCeleb2/MOSEI)构建,原信息输入GPT生成答案,这里需要特别指出:
    • 不同数据集包含的元信息不一致:如IEMOCAP标注了性别,但MOSEI就没有标注性别,上表中"x"就表示原数据集提供的标注信息
    • 根据音高、语速、音量等参数的值从低到高划分为5个等级: 主要是方便GPT理解值的含义,如语速3.0对应的高语速
  • Open-Ended Joint Audio and Speech AQA:基于数据集AudioSet和FMA构建
    • AudioSet:从AudioSet-2M挑选50万条构成一个子集,然后用下边3个条件(①音频标签分布均匀;②非语音音频占比要小于20%; ③每个音频识别结果长度要超过5个单词)进行过滤,筛选出82K的子集,在用GPT生成问答集

    • FMA:首先用Whisper识别出歌词,把歌词以及数据集原来的标签(如风格、标题)一同输入GPT生成问答集,如下图示例

训练

因为大语言模型直接采用的Vicuna,语音识别直接使用whisper,所以只需要训练三个相对比较小的部分:TLTR、投影层和LoRA。整个训练作者用4块RTX A6000 GPUs 耗时80个小时。和LTU训练方式相似,LTU-AS也是分阶段进行,如上表分共为3个阶段:

  • 阶段1:投影层权重训练,先冻结TLTR和LoRA,用closed-ended AQA中涉及分类任务的数据(2.1M = 1.2M + 0.9M)进行训练
  • 阶段2:所有权重训练,用closed-ended AQA中涉及分类任务的数据(2.1M = 1.2M + 0.9M)进行训练
  • 阶段3:所有权重训练,用closed-ended AQA 和 open-ended AQA全部数据(9.6M)进行训练

开源

同样的LTU-AS也提供了完整的训练和测试样例。因为个人硬件条件受限,就没有复现,有条件的朋友可以试一下,代码及说明都还是比较清晰的。

代码仓库地址:https://github.com/YuanGongND/ltu

归纳总结

下表给出了在音频分类、音频字幕、语音识别、情感识别、性别分类、年龄预测、音乐风格分类这8个任务上 LTU-AS效果

  • 从加黑部分结果来看,LTU-AS在各个场景效果都非常不错
  • 在零样本音乐风格分类任务上的准确率几乎是CLAP的两倍
  • 年龄预测任务:绝对误差(MAE)低于最先进(SOTA)专业模型
  • 训练时,联合音频和语音两种数据,在大多数任务上都要比单独使用一种数据效果好
  • 推理时,联合音频和文本两种模态,在大多数任务上都要比单独使用一种模态效果好

参考文献

  • JOINT AUDIO AND SPEECH UNDERSTANDING:https://arxiv.org/pdf/2309.14405.pdf
http://www.dtcms.com/a/442010.html

相关文章:

  • Photoshop - Photoshop 工具栏(2)矩形框选工具
  • 湖南网站seo自己免费做网站有什么用
  • 理解Vivado的IP综合策略:“Out-of-Context Module Runs
  • CSS 预处理器:Sass的基本用法、核心特性
  • 【Ai改变生活】PotPlayer 史诗级更新!实时字幕生成+实时翻译!
  • 各大网站vip接口建设一个网站如何做推广
  • 深入理解ArrayList与LinkedList:Java集合框架核心对比(含实战案例+面试考点)
  • Gorm学习笔记 - 概述
  • wordpress 双分页北京朝阳区优化
  • 7-1 社会工程学攻击
  • 浪浪山 iOS 奇遇记:给 APP 裹上 Liquid Glass “琉璃罩”(下集)
  • Leetcode 215. 数组中的第K个最大元素 快速排序 / 堆排序
  • 网站建设排名奇艺地域邢台建设一个企业网站
  • 电子商务网站建设员网站建设维护文档
  • QT肝8天18--用户角色管理
  • 【开题答辩实录分享】以《基于Python的新能源汽车管理系统的设计与实现》为例进行答辩实录分享
  • springboot+vue智慧旅游管理小程序(源码+文档+调试+基础修改+答疑)
  • [创业之路-683]:“行业的分类”
  • MCI评估量表
  • 探索 Docker/K8s 部署 MySQL 的创新实践与优化技巧——高可用与性能调优进阶
  • Coze源码分析-资源库-编辑知识库-前端源码-核心组件
  • 搜索网站排名mj wordpress
  • 网站容量空间一般要多大做装修效果图的网站
  • MySQL-表的操作
  • C++架构全解析:从设计哲学到实战应用
  • wordpress 多级导航网络营销优化外包
  • 视频生成技术Deepfake
  • 【大语言模型 82】LoRA高级技巧:秩选择与初始化策略
  • 自己做的网站百度搜不到网站的空间是
  • Leetcode 3698. Split Array With Minimum Difference