当前位置: 首页 > news >正文

开源实时语音交互大模型Ultravox-cn

Ultravox

一款为实时语音交互设计的快速多模态LLM

概述

Ultravox是一种新型的多模态LLM,能够理解文本和人类语音,无需单独的自动语音识别(ASR)阶段。基于AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究,Ultravox能够将任何开放权重LLM扩展为一个多模态投影器,直接将音频转换为LLM使用的高维空间。

ultravox官方仓库:https://github.com/fixie-ai/ultravox

ultravox-cn仓库:https://github.com/seanzhang-zhichen/ultravox-cn

由于官方版本模型对中文支持较差,因此,我们训练了基于Qwen2.5-7B-Instruct和whisper-large-v3-turbo的中文友好的语音多模态模型

架构

在这里插入图片描述

效果

在这里插入图片描述

模型

  • Huggingface下载地址:https://huggingface.co/zhichen/ultravox-cn
  • Modelscope下载地址:https://modelscope.cn/models/seanzhang/ultravox-cn

环境设置

安装just

git clone https://github.com/seanzhang-zhichen/ultravox-cn.git
cd ultravox-cn
sudo apt-get install just
conda create -n ultravox python=3.11
conda activate ultravox
just install

模型准备

运行demo前,需准备以下模型:

  • Qwen2.5-7B-Instruct
  • whisper-large-v3-turbo
  • seanzhang/ultravox-cn

以上模型准备好后,修改seanzhang/ultravox-cn/config.json中的audio_model_id为本地whisper-large-v3-turbo路径,text_model_id为本地Qwen2.5-7B-Instruct路径。

在这里插入图片描述

Web Demo

python ultravox/tools/gradio_demo.py --model_path seanzhang/ultravox-cn(或本地路径)   

相关文章:

  • zynq7020 u-boot 速通
  • 发送加密信息的简单实现【Java】
  • Linux下python虚拟环境搭建及使用
  • k8s 部署spring项目+动态启动pod
  • 【漫话机器学习系列】199.过拟合 vs 欠拟合(Overfit vs Underfit)
  • 常见的归一化(Normalization)方法
  • 【高并发内存池】从零到一的项目:项目介绍、内存池及定长内存池的设计
  • 关于MOS的二十个问题
  • 学习SqlSugar的跨库查询基本用法
  • 【JavaEE】SpringBoot 统一功能处理
  • 视觉SLAM十四讲2nd—学习笔记(一)
  • isce+mintpy水体掩膜
  • “堆积木”式话云原生微服务架构(第一回)
  • Autosar Nm开发问题-部分网络管理报文无法维持网络唤醒
  • 论文阅读笔记——Reactive Diffusion Policy
  • 基于51单片机的正负5V数字电压表( proteus仿真+程序+设计报告+讲解视频)
  • Maven java 项目引入2.0.16版本的slf4j-api后,提示jedis:5.1.0的子依赖slf4j-api:1.7.36与2.0.16冲突
  • (PC+WAP)大气滚屏网站模板 电气电力设备网站源码下载
  • llm开发框架新秀
  • 从 MySQL 切换到国产 YashanDB 数据库时,需要在数据库字段和应用连接方面进行适配 ,使用总结
  • ps做网站的草图/关键词排名优化网站
  • 怎么检查网站的死链/搜索网站
  • 新建网站怎么想谷歌和百度提交/莱阳seo排名
  • 网站 建设 成品/凡科网免费建站
  • 大型网站开发软件/短视频精准获客系统
  • 网站后台管理员做链接/新闻平台发布