当前位置：首页 > news >正文

ETE_Voice：端到端C++智能语音对话系统

news 2025/7/27 16:59:17

前言

随着AI技术的发展，语音交互成为人机交互的重要方向。本文将详细介绍ETE_Voice项目——一个完整的C++端到端智能语音对话系统，集成了自动语音识别(ASR)、**大语言模型(LLM)和文本转语音(TTS)**功能。

项目GitHub: https://github.com/muggle-stack/ETE_Voice
技术栈: C++17 + ONNX Runtime + PortAudio + SenseVoice + Matcha-TTS + Ollama

项目概览

系统架构

ETE_Voice采用模块化设计，工作流程如下：

用户语音 → VAD检测 → ASR识别 → LLM推理 → 句子分割 → TTS合成 → 有序播放

核心特性

完整的语音对话链路: 从语音输入到语音输出的端到端处理
实时流式处理: LLM流式输出配合实时TTS播放，自然对话体验
模块化设计: ASR、LLM、TTS可独立使用或组合
跨平台支持: 支持Linux、macOS，特别优化了RISC-V架构
有序音频播放: 确保TTS按句子顺序播放，避免语音混乱

快速开始

环境要求

基础环境:

Linux (Ubuntu 18.04+) / macOS
GCC-14 (推荐) 或 GCC 5+
CMake 3.16+

系统依赖:

PortAudio 2.0 (音频录制播放)
libsndfile (音频文件处理)
ONNX Runtime (AI模型推理)
cURL (模型下载)
FFTW3 (音频信号处理)

安装步骤

1. 安装系统依赖

Ubuntu/Debian:

# 更新包管理器
sudo apt update# 安装编译工具
sudo apt install gcc-14 g++-14 cmake pkg-config# 安装音频和网络库
sudo apt install libportaudio-dev libsndfile1-dev libcurl4-openssl-dev libfftw3-dev# 安装ONNX Runtime
wget https://github.com/microsoft/onnxruntime/releases/download/v1.20.0/onnxruntime-linux-x64-1.20.0.tgz
tar -xzf onnxruntime-linux-x64-1.20.0.tgz
sudo cp -r onnxruntime-linux-x64-1.20.0/include/* /usr/local/include/
sudo cp -r onnxruntime-linux-x64-1.20.0/lib/* /usr/local/lib/
sudo ldconfig

macOS (Homebrew):

# 安装依赖
brew install gcc cmake pkg-config
brew install portaudio libsndfile curl fftw onnxruntime

2. 安装Ollama (LLM支持)

# 安装Ollama
curl -fsSL https://ollama.ai/install.sh | sh# 启动Ollama服务
sudo systemctl start ollama# 下载推荐模型
ollama pull qwen2.5:0.5b  # 轻量级模型，响应快

3. 构建项目

# 克隆项目
git clone https://github.com/muggle-stack/ETE_Voice.git
cd ETE_Voice# 构建（会自动检查依赖）
./build.sh

构建成功后，可执行文件在 build/bin/ 目录下。

使用教程

1. 完整对话系统

这是项目的核心功能，实现语音输入到语音输出的完整对话。

# 查看所有可用参数
./build/bin/asr_llm_tts --help# 使用默认参数运行
./build/bin/asr_llm_tts# 自定义参数运行
./build/bin/asr_llm_tts \--device_index 7 \--sample_rate 48000 \--vad_type silero \--model qwen2.5:0.5b \--tts_speed 1.0

使用流程:

启动程序后等待"Press Enter to record…"提示
对着麦克风说话
程序自动进行VAD检测、ASR识别
识别结果发送给LLM处理
LLM回复通过TTS转为语音播放

配置参数说明:

--device_index: 音频设备索引，用 python search_device.py 查看
--vad_type: VAD类型，energy(快速) 或 silero(准确)
--model: LLM模型名称，建议使用 qwen2.5:0.5b
--tts_speed: TTS语速，1.0为正常速度

2. 音频文件处理

批量处理音频文件进行语音识别：

# 处理单个音频文件
./build/bin/asr audio_file.wav# 批量处理多个文件
./build/bin/asr file1.wav file2.wav file3.wav# 支持的格式：WAV, FLAC, OGG
# 自动重采样到16kHz进行识别

示例输出:

Processing: test.wav
Recognition: 今天天气真不错
Processing time: 1.2s

3. 实时语音识别

只进行实时语音识别，不调用LLM：

# VAD+ASR实时识别
./build/bin/vad_asr --device-index 6 --vad-type silero# 指定音频设备和VAD类型
./build/bin/vad_asr --device-index 7 --vad-type energy

4. ASR+LLM（无TTS）

语音输入，文本输出，适合调试：

./build/bin/asr_llm --model qwen2.5:0.5b

5. 独立TTS工具

将文本转换为语音：

# 基本用法
./build/bin/tts --text "你好世界"# 保存为WAV文件
./build/bin/tts --text "欢迎使用语音合成系统" --save_audio_path output.wav# 调整语速和说话人
./build/bin/tts --text "这是一个测试" --tts_speed 1.2 --save_audio_path test.wav

TTS参数说明:

--text: 要转换的文本内容
--save_audio_path: 保存音频文件路径
--tts_speed: 语速调节，0.5-2.0范围
--tts_speaker_id: 说话人ID（多说话人模型）

6. 查找音频设备

# 查看系统音频设备
python search_device.py

输出示例：

Audio Devices:0: HDA Intel PCH: ALC269 Analog (hw:0,0) - inputs: 2, outputs: 06: USB Audio Device (hw:1,0) - inputs: 1, outputs: 2  ← 推荐使用7: Built-in Microphone - inputs: 1, outputs: 0

选择有输入通道且工作正常的设备索引。

技术架构深度解析

1. VAD语音活动检测

项目实现了两种VAD算法：

能量VAD算法

基于音频能量的简单快速检测：

float AudioRecorder::computeEnergyVAD(const float* input, unsigned long frame_count) {float energy = 0.0f;for (unsigned long i = 0; i < frame_count; ++i) {energy += input[i] * input[i];}energy = std::sqrt(energy / frame_count);// 能量到概率的映射const float min_energy = 0.0001f;const float max_energy = 0.1f;return std::clamp((energy - min_energy) / (max_energy - min_energy), 0.0f, 1.0f);
}

Silero VAD模型

基于深度学习的高精度检测：

float VADDetector::detectVAD(const float* audio, size_t length) {// 512样本窗口 + 64样本上下文std::vector<float> x(config_.context_size + config_.window_size);std::copy(context_.begin(), context_.end(), x.begin());std::copy(input_audio.begin(), input_audio.end(), x.begin() + config_.context_size);// ONNX推理auto output_tensors = session_->Run(Ort::RunOptions{nullptr},input_names_.data(), input_tensors.data(), input_tensors.size(),output_names_.data(), output_names_.size());return output_tensors[0].GetTensorData<float>()[0];
}

2. SenseVoice ASR系统

项目集成了阿里巴巴开源的SenseVoice模型：

std::string ASRModel::recognize(const float* audio, size_t length) {// 1. 特征提取auto features = audio_processor_->extractFeatures(audio_vec);// 2. 准备ONNX输入张量std::vector<int64_t> feature_shape = {batch_size, sequence_length, feature_dim};std::vector<int32_t> feat_length = {static_cast<int32_t>(sequence_length)};std::vector<int32_t> language_id = {getLanguageId(config_.language)};// 3. 模型推理auto output_tensors = session_->Run(Ort::RunOptions{nullptr},input_names_.data(), input_tensors.data(), 4,output_names_.data(), 1);// 4. CTC解码和后处理auto token_ids = decodeCTC(logits, sequence_length);return postProcess(token_ids);
}

ASR特性:

支持中文语音识别
使用量化模型减少内存占用
自动重采样支持多种音频格式

3. 流式LLM集成

通过Ollama API实现流式对话：

void generateStreamingResponse(const std::string& prompt, std::function<void(const std::string&)> callback) {json request = {{"model", params_.llm_model},{"prompt", prompt},{"stream", true}};ollama::stream_generate(request, [&](const json& response) {if (response.contains("response")) {std::string chunk = response["response"];callback(chunk);  // 实时回调处理}});
}

4. 智能文本分割

实现了支持中英文的智能句子分割：

class TextBuffer {void processBuffer() {for (size_t i = 0; i < buffer_.size(); ) {// UTF-8字符长度检测int char_len = getUTF8CharLength(buffer_[i]);std::string utf8_char = buffer_.substr(i, char_len);current_sentence += utf8_char;// 中英文标点符号检测if (isEndOfSentence(utf8_char)) {if (!current_sentence.empty()) {sentences_.push(trimWhitespace(current_sentence));}current_sentence.clear();}i += char_len;}}private:const std::string CHINESE_PUNCTUATION = "。！？；.!?;";
};

5. Matcha-TTS语音合成

采用先进的Matcha-TTS模型进行高质量语音合成：

GeneratedAudio TTSModel::generate(const std::string& text, int speaker_id, float speed) {// 1. 文本预处理和分词std::string processed_text = preprocessText(text);// 2. 文本转音素序列std::vector<int64_t> token_ids = textToTokenIds(processed_text);// 3. 添加空白音素std::vector<int64_t> tokens_with_blanks = addBlankTokens(token_ids);// 4. 声学模型推理生成Mel频谱std::vector<float> mel = runAcousticModel(tokens_with_blanks, speaker_id, speed);// 5. 声码器推理生成音频std::vector<float> audio_samples = vocoderInference(mel);return {std::move(audio_samples), config_.sample_rate};
}

TTS处理流程:

Jieba中文分词
拼音转换和音素映射
Matcha声学模型生成Mel频谱
Vocos声码器生成最终音频

6. 有序音频播放

为解决TTS生成速度不均匀的问题，实现了有序播放队列：

class OrderedAudioQueue {void playbackWorker() {while (!stop_flag_) {OrderedAudioData audio;// 等待下一个按顺序的音频{std::unique_lock<std::mutex> lock(mutex_);cv_.wait(lock, [this] { return audio_map_.find(next_play_order_) != audio_map_.end() || stop_flag_; });auto it = audio_map_.find(next_play_order_);if (it != audio_map_.end()) {audio = it->second;audio_map_.erase(it);next_play_order_++;}}// 播放音频if (!audio.samples.empty()) {playAudioBlocking(audio.samples, audio.sample_rate);}}}
};

常见问题解决

1. 音频相关问题

Q: 如何选择正确的音频设备？

python search_device.py
# 选择有输入通道且能正常工作的设备

Q: 录音没有声音？

检查麦克风权限
确认设备索引正确
检查采样率设置是否匹配设备

2. LLM相关问题

Q: LLM连接失败？

# 检查Ollama服务状态
sudo systemctl status ollama# 重启服务
sudo systemctl restart ollama# 确认模型已下载
ollama list

Q: 响应速度慢？

使用轻量级模型如 qwen2.5:0.5b
检查系统资源使用情况
确保Ollama服务正常运行

3. TTS相关问题

Q: TTS无声音？

检查TTS模型是否正确下载
确认音频输出设备正常
调整TTS参数设置

Q: 音频播放顺序混乱？
项目已通过OrderedAudioQueue解决此问题，确保按句子顺序播放。

4. 编译问题

Q: 依赖库找不到？

# 检查pkg-config是否能找到库
pkg-config --variable=libdir portaudio-2.0
pkg-config --variable=libdir sndfile# 手动指定库路径
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig:$PKG_CONFIG_PATH

TTS API集成

项目提供了独立的TTS API，可以集成到其他C++项目中：

基本使用

#include "tts_demo.hpp"int main() {// 配置参数TTSDemo::Params params;params.tts_speed = 1.0f;params.tts_speaker_id = 0;// 创建TTS实例TTSDemo tts(params);// 初始化（自动下载模型）if (!tts.initialize()) {return -1;}// 生成语音并保存tts.run("你好，欢迎使用TTS系统！", "output.wav");return 0;
}

集成到项目

复制必要文件到你的项目：

cp include/tts_demo.hpp your_project/include/
cp src/tts_demo.cpp your_project/src/
cp -r src/tts/ your_project/src/

修改CMakeLists.txt：

add_executable(your_appyour_main.cppsrc/tts_demo.cppsrc/tts/tts_model.cppsrc/tts/tts_model_downloader.cpp
)target_link_libraries(your_app onnxruntime sndfile curl pthread
)