当前位置: 首页 > news >正文

LLaMA-Omni 2:基于 LLM 的自回归流语音合成实时口语聊天机器人

LLaMA-Omni 2 是基于 Qwen2.5-0.5B/1.5B/3B/7B/14B/32B-Instruct 模型的一系列语音语言模型。与 LLaMA-Omni 类似,它可以同时生成文本和语音应答,从而实现高质量、低延迟的语音交互。通过新引入的流式自回归语音解码器,LLaMA-Omni 2 与 LLaMA-Omni 相比实现了更高的语音质量。

在这里插入图片描述

安装

git clone https://github.com/ictnlp/LLaMA-Omni2
cd LLaMA-Omni2conda create -n llama-omni2 python=3.10
conda activate llama-omni2
pip install -e .

快手上手

下载Whisper large v3

import whisper
model = whisper.load_model("large-v3", download_root="models/speech_encoder/")

下载 CosyVoice 2

huggingface-cli download --resume-download ICTNLP/cosy2_decoder --local-dir models/cosy2_decoder

从 Hugging Face 下载 LLaMA-Omni2 系列型号。LLaMA-Omni2-0.5B/1.5B/3B/7B/14B 仅支持英文,而 LLaMA-Omni2-0.5B/1.5B/3B/7B/14B/32B-Bilingual 支持中英文

LLaMA-Omni2LLaMA-Omni2-Bilingual
🤗 LLaMA-Omni2-0.5B🤗 LLaMA-Omni2-0.5B-Bilingual
🤗 LLaMA-Omni2-1.5B🤗 LLaMA-Omni2-1.5B-Bilingual
🤗 LLaMA-Omni2-3B🤗 LLaMA-Omni2-3B-Bilingual
🤗 LLaMA-Omni2-7B🤗 LLaMA-Omni2-7B-Bilingual
🤗 LLaMA-Omni2-14B🤗 LLaMA-Omni2-14B-Bilingual
-🤗 LLaMA-Omni2-32B-Bilingual

Gradio

controller

python -m llama_omni2.serve.controller --host 0.0.0.0 --port 10000

server

python -m llama_omni2.serve.gradio_web_server --controller http://localhost:10000 --port 8000 --vocoder-dir models/cosy2_decoder

worker

python -m llama_omni2.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path models/$model_name --model-name $model_name

访问 http://localhost:8000/ 并与 LLaMA-Omni2 互动!

本地推理

output_dir=examples/$model_name
mkdir -p $output_dirpython llama_omni2/inference/run_llama_omni2.py \--model_path models/$model_name \--question_file examples/questions.json \--answer_file $output_dir/answers.jsonl \--temperature 0 \--s2spython llama_omni2/inference/run_cosy2_decoder.py \--input-path $output_dir/answers.jsonl \--output-dir $output_dir/wav \--lang en

鸣谢

  • CosyVoice 2:我们使用 CosyVoice 2 的预训练语音标记器、语流匹配模型和声码器。
  • SLAM-LLM:我们借用了语音编码器和语音适配器的一些代码。

相关文章:

  • vue2开发者sass预处理注意
  • 全局网络:重构数字时代的连接范式
  • JDK Version Manager (JVMS)
  • matlab App自动化安装和卸载
  • 集群免密登录
  • 机器学习之嵌入(Embeddings):从理论到实践
  • Compose Multiplatform iOS 稳定版发布:可用于生产环境,并支持 hotload
  • SRAM详解
  • 电气工程中漏源电压Vds的平台电压是什么?
  • image-classifier开源程序Elixir是使用电脑学习对图像进行分类并从中提取数据或描述其内容,非常不错的图片整理工具
  • 机器学习实战:6种数据集划分方法详解与代码实现
  • 二叉树的遍历与构造
  • 【代码优化篇】强缓存和协商缓存
  • 数据结构--二叉树
  • 【wpf】10 C#树形控件高效实现:递归构建与路径查找优化详解
  • SSHv2 密钥交换(Key Exchange)详解
  • 低空科技护航珞樱春色,技术引领助推广阔应用
  • 代码随想录图论part4
  • 白杨SEO:如何查看百度、抖音、微信、微博、小红书、知乎、B站、视频号、快手等7天内最热门话题及流量关键词有哪些?使用方法和免费工具推荐以及注意事项【干货】
  • 【计算机网络-传输层】传输层协议-UDP
  • 李在明正式登记参选下届韩国总统
  • 习近平出席俄罗斯纪念苏联伟大卫国战争胜利80周年庆典
  • 河南省省长王凯在郑州调研促消费工作,走访蜜雪冰城总部
  • 乡村快递取件“跑腿费”屡禁不止?云南元江县公布举报电话
  • Meta正为AI眼镜开发人脸识别功能
  • 国家主席习近平同普京总统举行小范围会谈