当前位置: 首页 > news >正文

AI应用图文解说--百度智能云实现语音聊天

 文章的目的为了记录AI应用学习的经历,降低AI的入门难度。同时记录开发流程和要点有些记忆模糊,防止忘记。也希望可以给看到文章的朋友带来一些收获。

相关链接:

开源 C# .net mvc 开发(一)WEB搭建_c#部署web程序-CSDN博客

开源 C# .net mvc 开发(二)网站快速搭建_c#网站开发-CSDN博客

开源 C# .net mvc 开发(三)WEB内外网访问-CSDN博客

开源 C# .net mvc 开发(四)工程结构、页面提交以及显示-CSDN博客

开源 C# .net mvc 开发(五)常用代码快速开发_c# mvc开发-CSDN博客

开源 C# .net mvc 开发(六)发送邮件、定时以及CMD编程-CSDN博客

开源 C# .net mvc 开发(七)动态图片、动态表格和json数据生成-CSDN博客

开源 C# .net mvc 开发(八)IIS Express轻量化Web服务器的配置和使用-CSDN博客

 推荐链接:

开源 java android app 开发(一)开发环境的搭建-CSDN博客

开源 java android app 开发(二)工程文件结构-CSDN博客

开源 java android app 开发(三)GUI界面布局和常用组件-CSDN博客

开源 java android app 开发(四)GUI界面重要组件-CSDN博客

开源 java android app 开发(五)文件和数据库存储-CSDN博客

开源 java android app 开发(六)多媒体使用-CSDN博客

开源 java android app 开发(七)通讯之Tcp和Http-CSDN博客

开源 java android app 开发(八)通讯之Mqtt和Ble-CSDN博客

开源 java android app 开发(九)后台之线程和服务-CSDN博客

开源 java android app 开发(十)广播机制-CSDN博客

开源 java android app 开发(十一)调试、发布-CSDN博客

开源 java android app 开发(十二)封库.aar-CSDN博客

开源 java android app 开发(十三)绘图定义控件、摇杆控件的制作-CSDN博客

人工智能(AI)在多个领域发挥着重要作用,最典型最常见的就是语音识别聊天功能。文章是为了记录本人的AI应用的初次体验,同时希望可以带给大家AI应用快速入门的方法,实现0到1的突破,提高学习的小路,尽量用图文的方式来描述,在文中也有代码的链接,已经经过验证可以直接使用。

本章的主要内容是:通过百度智能云实现语音聊天功能,主要会用到它的语音识别(ASR)、语音合成(TTS),并结合大语言模型(如文心一言)来生成回复

目录:

1.流程和使用

2.ASR、TTS、千帆APP builer 注册和使用

3.各项成本

一、流程和使用

1.1  准备阶段    

注册百度智能云 ,创建应用  , 配置认证信息  

1.2  核心功能    

语音识别 (ASR)    录制或读取音频 → 调用识别接口 → 获取文本    需注意音频格式(如wav)、采样率(16000Hz)18
文本处理与对话生成    将识别文本发送至大模型 → 获取回复文本    需调用大模型(如文心一言)的API2
语音合成 (TTS)    将回复文本 + 参数 → 调用合成接口 → 生成音频    可调整语速、音调、发音人等参数12


1.3  集成与交互    

流程串联与交互逻辑    将上述三个核心模块按顺序连接    可加入循环实现连续对话
音频播放    播放合成后的音频文件    可使用 pygame 等库4

1.4   优化与成本    

成本控制    关注语音识别/合成调用次数及大模型Token消耗    新人通常有免费额度2
体验优化    调整语音参数、处理网络异常、添加唤醒词等    提升应用可用性和用户体验

二、ASR、TTS、千帆APP builer 注册和使用

登录网址

https://login.bce.baidu.com/

语音识别、语音合成、千帆大模型需分别开通

2.1  语音识别注册和使用

选择开通付费,默认赠送10小时流量,不购买资源

实名认证后获取 API Key 和 Secret Key  

获得测试音频文件

进入示例代码中心进行调试

上传测试音频后实现效果

详细源码参考网址

开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-CSDN博客

2.2  语音合成注册和使用

进入实例中心

使用实例代码进行调试

详细源码参考网址

开源 python 应用 开发(十三)AI应用--百度智能云TTS语音合成-CSDN博客

2.3  聊天模型的创建和使用

设置agent的名字和类型,并生成。

进行生成

简单调试

发布

官方的API代码调试

源码详细参考网址

开源 python 应用 开发(十一)AI应用--百度智能云ASR短语音转文本-CSDN博客

三、成本介绍

3.1  语音识别价格

3.2  语音合成的价格

3.3  千帆AppBuiler的免费资源

http://www.dtcms.com/a/354308.html

相关文章:

  • Python爬虫获取1688商品列表与图片信息
  • 【免驱】一款基于AI8H2K08U芯片的USB转RS485模块,嵌入式工程师调试好帮手!
  • Web 自动化测试常用函数实战(一)
  • 如何防御安全标识符 (SID) 历史记录注入
  • 嵌入式学习day38
  • 怎样选择合适的报表系统?报表系统的主要功能有什么
  • PLC_博图系列☞基本指令”S_PULSE:分配脉冲定时器参数并启动“
  • PyTorch闪电入门:张量操作与自动微分实战
  • Wxml2Canvas在组件中的渲染获取不到元素问题
  • vue 海康视频插件
  • Java Spring Boot 集成淘宝 SDK:实现稳定可靠的商品信息查询服务
  • AI鱼塘,有你画的鱼吗?
  • 代码随想录刷题Day44
  • IDEA连接阿里云服务器中的Docker
  • 嵌入式学习日志————DMA直接存储器存取
  • 微信开发者工具中模拟调试现场扫描小程序二维码功能
  • Centos 7.6离线安装docker
  • 元宇宙+RWA:2025年虚拟资产与真实世界的金融融合实验
  • aiohttp模块如何使用
  • 开发避坑指南(39):Java List全null元素引发的空判断无效处理方案
  • 用LightRAG打造智能问答系统:知识图谱与RAG的融合应用实践
  • 如何在升级到S/4HANA后关闭SAP旧系统?
  • 3-4〔OSCP ◈ 研记〕❘ WEB应用攻击▸Burp Suite工具
  • MySQL中的InnoDB
  • pikachu-xss通关(1-8)
  • qt5+mingw64+opencv4.5.2搭建调试环境
  • FOC算法第二节 克拉克变换
  • mybatis-plus实现苍穹外卖项目-分类操作,不定期更新-day2
  • Hadoop(五)
  • AI、人工智能基础: 模型剪枝的概念与实践(PyTorch版)