当前位置: 首页 > wzjs >正文

做设计的什么网站能挣钱专业定制小程序

做设计的什么网站能挣钱,专业定制小程序,门户网站建设方案费用,深圳宝安什么时候解封Baichuan-Audio是一个开源的端到端语音交互模型,无缝集成了音频理解和生成功能,支持高质量、可控的实时双语(汉英)对话。 Baichuan-Audio-Base: 为了促进语音模型的发展,我们开源了一个端到端语音基础模型,…

Baichuan-Audio是一个开源的端到端语音交互模型,无缝集成了音频理解和生成功能,支持高质量、可控的实时双语(汉英)对话。

  • Baichuan-Audio-Base: 为了促进语音模型的发展,我们开源了一个端到端语音基础模型,该模型由高质量的大量数据训练而成。该模型未经过 SFT 指令微调,具有很强的可塑性。

  • Baichuan-Audio: 该模型接受文本和音频作为输入,生成高质量的文本和音频输出,能够进行无缝的高质量语音交互,同时保持预先训练的 LLM 的智能,实现与用户的实时语音对话

  • 此外,我们还开源了音频理解和生成基准(OpenAudio-Bench),以评估端到端音频能力。此外,预培训数据也即将开源。

模型架构

在这里插入图片描述
Baichuan-Audio 主要由Baichuan-Audio Tokenizer、Audio LLM 和基于流量匹配的音频解码器组成。首先,语音通过 Baichuan-Audio Tokenizer 转换器转换成离散的音频令牌。然后,音频 LLM 以交错方式生成对齐的文本和音频标记,通过特殊标记实现文本和音频之间的无缝模态切换。音频标记由独立的音频头处理,并使用基于流匹配的音频解码器将其重构为高质量的梅尔频谱图,然后通过声码器将其转换为音频波形。

  • Baichuan-Audio-Tokenizer 采用 12.5hz 帧频设计。它采用 Whisper Large 编码器从梅尔频谱图中提取高级音频特征,然后使用 8 层 RVQ 将量化过程中的信息损失降至最低。为了同时捕捉语义和声学信息,我们使用梅尔频谱图重构和预训练 LLM 分别进行声学和语义监督。

  • 音频 LLM 以交错方式生成对齐的文本和音频标记,通过特殊标记实现文本和音频模式之间的无缝切换。音频标记由独立的音频头处理。

  • 基于流匹配的音频解码器用于重建高质量的梅尔频谱图。该模型在 24 kHz 音频上进行训练,以生成目标梅尔频谱图,然后通过声码器将其转换为音频波形。

在这里插入图片描述

预训练细节

预训练数据

音频训练数据可大致分为两大类:音频理解数据和音频生成数据。

在这里插入图片描述

音频-文本配对数据(如 ASR 和 TTS 数据)可提高基本语音任务的性能。另一方面,纯音频数据可提高独立处理音频模式的能力。音频-文本交错数据由交替的文本和音频模式组成,并用标点符号分割,以促进跨模式知识转移。交错文本到语音数据由完全对齐的文本和音频内容组成,旨在增强模型在文本监督下生成音频标记的能力。

交错数据收集过程分为爬行和合成两种类型,总共产生了 142k 小时的 ITTS 数据和 393k 小时的 INTLV 数据。

在这里插入图片描述

  • 两阶段训练策略
    语音和文本模式之间的冲突可能会干扰预训练 LLM 中的预训练文本知识表示,从而导致模型智能性能下降。为了缓解这一问题,我们采用了两阶段训练策略。在第一阶段,LLM 参数保持固定,只更新音频嵌入层和音频头参数。在第二阶段,除 LLM 嵌入层和 LLM 头参数外的所有参数都要进行训练。

WebUI Demo

conda create -n baichuan_omni python==3.12
conda activate baichuan_omni
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install accelerate flash_attn==2.6.3 speechbrain==1.0.0 deepspeed==0.14.4
apt install llvm ffmpeg

将 web_demo/constants.py 中的 MODEL_PATH 修改为本地模型路径。

ASR 和 TTS Demo

cd web_demo
python base_asr_demo.py
python base_tts_demo.py

语音交互演示

cd web_demo
python s2s_gradio_demo_cosy_multiturn.py

Open-Source Evaluation Set

OpenAudioBench

为了更有效地评估模型的 “智能”,我们构建了 OpenAudioBench,其中包括 5 个用于端到端音频理解的子评估集。其中包括 4 个公共评估集(骆驼问题、WEB QA、TriviaQA、AlpacaEval)和百川团队构建的语音逻辑推理评估集,共计 2701 个数据点。这个综合数据集反映了模型的 "智能 "水平。

模型性能

在这里插入图片描述

感谢

  • 自动语音识别(ASR)模型:Whisper
  • 大语言模型(LLM):Qwen2.5 7B
    -部分代码来自:CosyVoice 和 Matcha-TTS:(https://github.com/FunAudioLLM/CosyVoice, https://github.com/shivammehta25/Matcha-TTS/)
  • 来自 CosyVoice 2.0 的 HiFi-GAN Vocoder: (https://funaudiollm.github.io/cosyvoice2/)

文章转载自:

http://iOxVZ79d.bspLf.cn
http://vajQgWL1.bspLf.cn
http://FXsn0KnD.bspLf.cn
http://BQUBMlbL.bspLf.cn
http://6MLbj4ik.bspLf.cn
http://fVyUMaPd.bspLf.cn
http://crufp2FG.bspLf.cn
http://xnFlWigg.bspLf.cn
http://aItNtmvn.bspLf.cn
http://RBGd7eH3.bspLf.cn
http://QgP1gByK.bspLf.cn
http://N0tThAv6.bspLf.cn
http://5iMoTmIP.bspLf.cn
http://2JteTcgP.bspLf.cn
http://LJtX1rEk.bspLf.cn
http://15m4Ew2c.bspLf.cn
http://0fU9tkPL.bspLf.cn
http://fUzDqKAY.bspLf.cn
http://HZfblNNq.bspLf.cn
http://KQxXiYp9.bspLf.cn
http://gfS8iAc5.bspLf.cn
http://s7ciAEwD.bspLf.cn
http://dNajGFNb.bspLf.cn
http://QdUfTELF.bspLf.cn
http://hfevoBU2.bspLf.cn
http://ZLcwe4zM.bspLf.cn
http://pK7jUFB0.bspLf.cn
http://t95ECyON.bspLf.cn
http://71BPBVW9.bspLf.cn
http://75Qv23Sq.bspLf.cn
http://www.dtcms.com/wzjs/696928.html

相关文章:

  • 营销网站设计方案wordpress悬浮微信电话
  • 做断桥铝窗户的网站重庆网站建设及推广公司
  • 苍梧县网站建设搜索引擎推广的简称是
  • 商城顺德网站建设北京市建设工程
  • 医院网站建设多少钱为什么建设银行网站
  • 武昌做网站中国建设网网站
  • 做网站必须要推广吗国外网站赏析
  • 中国空间站实时位置wordpress询盘功能
  • 汕头seo网站建设湖南企业建网站公司
  • 创建公司网站需要准备哪些素材小程序商城需要icp许可证吗
  • 广西网站建设-好发信息网wordpress a
  • 网站维护什么情况o2o网站建设要多少钱
  • 山东省建设局注册中心网站wordpress怎么引用single
  • 微信官方网站开发天水模板型网站建设
  • 万网如何建设网站阳江房价
  • 建设收费网站网站幻灯片尺寸设置
  • c语言除了做网站还能干什么网站建设与管理就业去向
  • nginx 网站正在建设中茂名网站建设服务
  • 网站推广如何指定关键词优化网站做收付款接口
  • 网站建设数据中心kn95口罩
  • 东莞商城网站建设价格软件专业
  • 建设网站需要营业执照吗百度小程序如何做网站
  • 小说网站开发的看书软件网站建设电销话术范文
  • 国人在线做网站怎么样成都网站登记备案查询
  • 游网站建设方案内容网站建设一六八互联
  • 个人做分类信息网站响应式网站 价格
  • 三里河网站建设网站开发方案服装网站简介
  • 建立公司网站的流程山东省临沂建设局网站
  • 快速提升网站关键词排名wordpress速度很慢
  • 网站模板库wordpress一键分享代码