AI应用图文解说--百度智能云实现语音聊天
文章的目的为了记录AI应用学习的经历,降低AI的入门难度。同时记录开发流程和要点有些记忆模糊,防止忘记。也希望可以给看到文章的朋友带来一些收获。
相关链接:
开源 C# .net mvc 开发(一)WEB搭建_c#部署web程序-CSDN博客
开源 C# .net mvc 开发(二)网站快速搭建_c#网站开发-CSDN博客
开源 C# .net mvc 开发(三)WEB内外网访问-CSDN博客
开源 C# .net mvc 开发(四)工程结构、页面提交以及显示-CSDN博客
开源 C# .net mvc 开发(五)常用代码快速开发_c# mvc开发-CSDN博客
开源 C# .net mvc 开发(六)发送邮件、定时以及CMD编程-CSDN博客
开源 C# .net mvc 开发(七)动态图片、动态表格和json数据生成-CSDN博客
开源 C# .net mvc 开发(八)IIS Express轻量化Web服务器的配置和使用-CSDN博客
推荐链接:
开源 java android app 开发(一)开发环境的搭建-CSDN博客
开源 java android app 开发(二)工程文件结构-CSDN博客
开源 java android app 开发(三)GUI界面布局和常用组件-CSDN博客
开源 java android app 开发(四)GUI界面重要组件-CSDN博客
开源 java android app 开发(五)文件和数据库存储-CSDN博客
开源 java android app 开发(六)多媒体使用-CSDN博客
开源 java android app 开发(七)通讯之Tcp和Http-CSDN博客
开源 java android app 开发(八)通讯之Mqtt和Ble-CSDN博客
开源 java android app 开发(九)后台之线程和服务-CSDN博客
开源 java android app 开发(十)广播机制-CSDN博客
开源 java android app 开发(十一)调试、发布-CSDN博客
开源 java android app 开发(十二)封库.aar-CSDN博客
开源 java android app 开发(十三)绘图定义控件、摇杆控件的制作-CSDN博客
人工智能(AI)在多个领域发挥着重要作用,最典型最常见的就是语音识别聊天功能。文章是为了记录本人的AI应用的初次体验,同时希望可以带给大家AI应用快速入门的方法,实现0到1的突破,提高学习的小路,尽量用图文的方式来描述,在文中也有代码的链接,已经经过验证可以直接使用。
本章的主要内容是:通过百度智能云实现语音聊天功能,主要会用到它的语音识别(ASR)、语音合成(TTS),并结合大语言模型(如文心一言)来生成回复
目录:
1.流程和使用
2.ASR、TTS、千帆APP builer 注册和使用
3.各项成本
一、流程和使用
1.1 准备阶段
注册百度智能云 ,创建应用 , 配置认证信息
1.2 核心功能
语音识别 (ASR) 录制或读取音频 → 调用识别接口 → 获取文本 需注意音频格式(如wav)、采样率(16000Hz)18
文本处理与对话生成 将识别文本发送至大模型 → 获取回复文本 需调用大模型(如文心一言)的API2
语音合成 (TTS) 将回复文本 + 参数 → 调用合成接口 → 生成音频 可调整语速、音调、发音人等参数12
1.3 集成与交互
流程串联与交互逻辑 将上述三个核心模块按顺序连接 可加入循环实现连续对话
音频播放 播放合成后的音频文件 可使用 pygame 等库4
1.4 优化与成本
成本控制 关注语音识别/合成调用次数及大模型Token消耗 新人通常有免费额度2
体验优化 调整语音参数、处理网络异常、添加唤醒词等 提升应用可用性和用户体验
二、ASR、TTS、千帆APP builer 注册和使用
登录网址
https://login.bce.baidu.com/
语音识别、语音合成、千帆大模型需分别开通
2.1 语音识别注册和使用
选择开通付费,默认赠送10小时流量,不购买资源
实名认证后获取 API Key 和 Secret Key
获得测试音频文件
进入示例代码中心进行调试
上传测试音频后实现效果
详细源码参考网址
开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-CSDN博客
2.2 语音合成注册和使用
进入实例中心
使用实例代码进行调试
详细源码参考网址
开源 python 应用 开发(十三)AI应用--百度智能云TTS语音合成-CSDN博客
2.3 聊天模型的创建和使用
设置agent的名字和类型,并生成。
进行生成
简单调试
发布
官方的API代码调试
源码详细参考网址
开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-CSDN博客
三、成本介绍
3.1 语音识别价格
3.2 语音合成的价格
3.3 千帆AppBuiler的免费资源