当前位置: 首页 > news >正文

开源实时语音交互大模型Ultravox-cn

Ultravox

一款为实时语音交互设计的快速多模态LLM

概述

Ultravox是一种新型的多模态LLM,能够理解文本和人类语音,无需单独的自动语音识别(ASR)阶段。基于AudioLM、SeamlessM4T、Gazelle、SpeechGPT等研究,Ultravox能够将任何开放权重LLM扩展为一个多模态投影器,直接将音频转换为LLM使用的高维空间。

ultravox官方仓库:https://github.com/fixie-ai/ultravox

ultravox-cn仓库:https://github.com/seanzhang-zhichen/ultravox-cn

由于官方版本模型对中文支持较差,因此,我们训练了基于Qwen2.5-7B-Instruct和whisper-large-v3-turbo的中文友好的语音多模态模型

架构

在这里插入图片描述

效果

在这里插入图片描述

模型

  • Huggingface下载地址:https://huggingface.co/zhichen/ultravox-cn
  • Modelscope下载地址:https://modelscope.cn/models/seanzhang/ultravox-cn

环境设置

安装just

git clone https://github.com/seanzhang-zhichen/ultravox-cn.git
cd ultravox-cn
sudo apt-get install just
conda create -n ultravox python=3.11
conda activate ultravox
just install

模型准备

运行demo前,需准备以下模型:

  • Qwen2.5-7B-Instruct
  • whisper-large-v3-turbo
  • seanzhang/ultravox-cn

以上模型准备好后,修改seanzhang/ultravox-cn/config.json中的audio_model_id为本地whisper-large-v3-turbo路径,text_model_id为本地Qwen2.5-7B-Instruct路径。

在这里插入图片描述

Web Demo

python ultravox/tools/gradio_demo.py --model_path seanzhang/ultravox-cn(或本地路径)   
http://www.dtcms.com/a/129647.html

相关文章:

  • zynq7020 u-boot 速通
  • 发送加密信息的简单实现【Java】
  • Linux下python虚拟环境搭建及使用
  • k8s 部署spring项目+动态启动pod
  • 【漫话机器学习系列】199.过拟合 vs 欠拟合(Overfit vs Underfit)
  • 常见的归一化(Normalization)方法
  • 【高并发内存池】从零到一的项目:项目介绍、内存池及定长内存池的设计
  • 关于MOS的二十个问题
  • 学习SqlSugar的跨库查询基本用法
  • 【JavaEE】SpringBoot 统一功能处理
  • 视觉SLAM十四讲2nd—学习笔记(一)
  • isce+mintpy水体掩膜
  • “堆积木”式话云原生微服务架构(第一回)
  • Autosar Nm开发问题-部分网络管理报文无法维持网络唤醒
  • 论文阅读笔记——Reactive Diffusion Policy
  • 基于51单片机的正负5V数字电压表( proteus仿真+程序+设计报告+讲解视频)
  • Maven java 项目引入2.0.16版本的slf4j-api后,提示jedis:5.1.0的子依赖slf4j-api:1.7.36与2.0.16冲突
  • (PC+WAP)大气滚屏网站模板 电气电力设备网站源码下载
  • llm开发框架新秀
  • 从 MySQL 切换到国产 YashanDB 数据库时,需要在数据库字段和应用连接方面进行适配 ,使用总结
  • HarmonyOS-ArkUI V2装饰器: @Provider和@Consumer装饰器:跨组件层级双向同步
  • 聊天室项目day4(redis实现验证码期限,实现redis连接池)
  • 2025年3月 Scratch图形化三级 真题解析 中国电子学会全国青少年软件编程等级考试
  • 【愚公系列】《Python网络爬虫从入门到精通》050-搭建 Scrapy 爬虫框架
  • oracle COUNT(1) 和 COUNT(*)
  • HTTP实现心跳模块
  • 吴恩达深度学习复盘(15)精度和召回率
  • 八大排序算法
  • JavaScript 定时器
  • Go语言--语法基础4--基本数据类型--整数类型