当前位置：首页 > news >正文

顶顶通大模型电话机器人实现原理

news 2025/10/9 7:58:59

Realtime API 多模态模型

• 原理

• 流对接，直接把音频流输出给大模型，大模型返回音频流。

• 优点

• 低延迟和真人对话一样。

• 技术门槛底。

• 缺点

• 技术成熟度不高，只有少数模型支持。

• 无对话文本记录，需要额外调用 ASR 把通话录音转换成文字。

• 对话流程可控性低，无法精细控制对话流程和意向判断。

顶顶通CTI对Realtime API 的支持

提供了以下2个APP可对接任意Realtime API 多模态大模型

• cti_audio_stream 通过 TCP 推流和播放流，适合用于人机对话。

• cti_unicast_start 通过旁路的方式 UDP 推流和播放流，对接 Realtime API 的同时还支持对通道进行放音操作。

使用文本大语言模型实现人机语音对话

1. 把声音通过 ASR 转换成文字

2. 通过文字调用大模型输出文字回复

3. 把大模型输出的文字调用 TTS 转换成声音。

存在的问题

• ASR 声音转文字慢

• 改进方法：使用流 ASR 实时识别。

• TTS 文字转声音慢

• 改进方法：使用流 TTS 自动短句，大模型边输出边转换。

• 大模型输出慢

• 请看后面顶顶通电话机器人实现方法。

市面常见的电话机器人怎么使用大模型的

常见做法

• 把知识库导入向量数据库，使用 RAG 技术让大模型根据专业领域知识输出回复。

• 或者不用 RAG 技术，直接把专业领域知识写入 Prompt ，让大模型根据 Prompt 输出回复。

存在的缺点

• 大模型回复比较慢。

• 就算大模型一边回复，一边调用流 TTS ， TTS 也不能一个字输入就开始转换，也需要断句到一句话才可以开始输出声音。导致第一句话回复比较慢。

• 没法精细控制对话流程，以及没办法精细意向分类，只能通话结束把整个对话记录提交给大模型让大模型做总结。

顶顶通电话机器人怎么使用大模型的

• 把话术和大模型深度融合。

• 优点：可精细化定制对话逻辑和意向分类。

• 可以只使用大模型的理解功能（ NLP ），尽量不使用大模型的生成功能。

• 优点 1 ：让大模型更快的回复，和避开动态 TTS 带来的延迟。

• 优点 2 ：降低大模型调用输出 tokens 费用。

• 只把当前流程关联的知识库和子流程带入 Prompt, 让大模型更精准的理解和回复。

• 优点 1 ：大模型回复的更精准。

• 优点 2 ：降低大模型调用输入 tokens 费用。

Prompt怎么写

#背景#
1.你是一位专业的电话销售人员。
2.通过电话推销银行贷款产品。
3.输入是通过语音识别出文字，可能存在识别不准确，请尝试自动纠正输入内容。
4.请根据以下为候选回复，根据顺序选择一个最合适的。
======
${playtext}
======
#目标#
尽可能的达成交易
#语气#
有说服力
#受众#
成年普通群众
#输出#
请优先从候选回复选择，只需要输出id，不要输出其信息。如果候选回复没有合适的，请根据候选回复和对话上下文以及产品信息输出简短的回复。

playtext 是什么

顶顶通话术引擎会根据大模型匹配设置，从当前流程关联的知识库、多轮对话、子流程中提取放音文字和意向Prompt,替换Prompt里面的${playtext }。本例子中开场白的playtext如下：

1. 好的，那打扰你了，再见！

2. 你是哪年出生的呢 ( 有需要意外险的意向，必须选择这个 )

3. 不好意思啊，只需要回答 2 个问题就可以好了，不会占用你太多时间的。

4. 我是顶顶通保险公司的客服专员小王。请问你需要吗？