当前位置：首页 > news >正文

为AI语音交互“瘦身”：基于Flet与Sherpa-onnx的端侧STT实战

news 2025/10/2 10:54:43

在AI应用遍地开花的今天，你是否曾因语音交互的高成本与高延迟而却步？我们基于前沿的Flet 0.7与Sherpa-onnx，成功为Agent装上了高效、廉价的“耳朵”。本文将分享我们如何将语音识别“下沉”到设备端，实现成本与性能的极致平衡。这不仅是技术实现的分享，更是我们对AI普惠化的一次实践。期待与各位开发者交流，共同探索AI应用的无限可能。

引言：从“听得起”到“听得懂”

大家好！在AI技术日新月异的今天，我们始终在思考：如何让前沿技术不再是“奢侈品”，而是每个开发者都能轻松使用的“日用品”？

最近，我们为一个AI聊天助手项目接入了“语音输入”功能。但很快，我们发现了一个行业痛点：直接将用户的大段语音抛给云端AI，不仅响应慢，成本也高得惊人。 这就像在商场里，你只想买瓶水，却不得不排长队为整个购物车结账。

于是，我们萌生了一个想法：能否在用户自己的手机或电脑上（端侧），先把语音转成文字，再交给AI处理？ 这样，传输和处理的都是轻量的文本，效率与成本问题迎刃而解。今天，就和大家分享我们基于 Flet 和 Sherpa-onnx 实现这一目标的完整历程。

我们坚信，好的技术应该像一位可靠的伙伴，强大而谦逊。我们希望这篇分享能抛砖引玉，与大家在开源社区里交个朋友，共同进步。

高屋建瓴：解决方案全景图

1. 核心痛点：为什么端侧STT是未来？

让我们用一个简单的对比来感受一下：

场景： 用户说了一句约30个单词的英文。
传统方案（语音直传）： 需要上传一个约 200KB 的WAV音频文件给云端AI处理。
我们的方案（端侧STT）： 在用户设备上先将语音转为文字，仅上传约 20-30个Token 的文本。

数据最有说服力：

经济性： 一些云服务商的语音转文本服务，处理1分钟音频可能需要数元。而像DeepSeek这样的文本大模型，百万Token才需几元钱。成本差异可达数十甚至上百倍。
效率与隐私： 传输几十个Token的文本，远比传输数百KB的音频更快、更省流量。同时，敏感语音数据无需离开用户设备，隐私性更佳。

2. 我们的技术选型：强强联合的“最佳拍档”

Flet (v0.7.0.dev)： 用纯Python就能构建漂亮的多平台（Web, 桌面, 移动）应用。它最新的“服务化”架构，让应用像搭积木一样稳定和灵活。
Sherpa-onnx： 一个开源、高性能、跨平台的语音识别工具包。它就像是一个万能翻译器，能把各种语音模型（如Whisper）高效地运行在任何设备上。

简单来说，我们的思路是： 用 Flet 打造应用的“身体”和“感官”（界面、麦克风），用 Sherpa-onnx 充当智能的“大脑皮层”（处理听觉），最终将理解后的“思想”（文本）传递给核心AI。

实战演练：Show You the Code & The Vibe

1. 如何让它们“牵手成功”？

Flet和Sherpa-onnx本身都支持Flutter，我们巧妙地利用Flet的自定义组件能力，为Sherpa-onnx的Flutter库搭建了一座“桥梁”。这就像为Python程序安装了一个功能强大的“外挂”，让它能直接调用原生级的语音识别能力。

模型从哪里来？ 我们从Hugging Face等社区获取了预编译好的Whisper模型。为了让我们的助手能“听懂”多国语言，我们特意选择了支持多语言的模型版本。

至此，一个完整的闭环形成了： 麦克风输入 (Flet) -> 音频处理 -> 语音识别 (Sherpa-onnx) -> 文本输出 -> 大模型处理。

2. 踩坑与填坑：我们的“升级打怪”之路

坑一：当“先锋”遇上“资料荒”

Flet 0.7还处于预发布阶段，很多新特性的文档尚不完善，连AI助手都可能“一问三不知”。

我们的“破局之术”：Vibe Coding & “感谢开源”
不会从零发明轮子？没关系！我们打开Flet官方的GitHub仓库，找到测试用例；再打开Sherpa-onnx的示例代码。然后，我们像一位“技术厨师”，对AI助手说：“看，这是食材（官方代码），请参考它们的风格，帮我‘炒’出我们需要的这道菜。”
I have a pen，I have an apple，apple pen！——通过对高质量代码的模仿与组合，引导AI生成我们想要的、风格正确的代码。这极大地提升了开发效率！

坑二：神秘的“构建黑盒”

Flet的自定义组件需要编译，这个事情我最近终于通过询问DeepWiki 了解到了，可见AI时代，掌握一个AI阅读器的重要性。可以大幅降低从阅读代码到上手实践的门槛。

我们的“自动化之道”
在经过一番探索（特别感谢AI阅读助手帮我们快速理解了社区讨论）后，我们祭出了终极武器：GitHub Actions。
我们编写了一个自动化构建脚本（点击查看），让云端服务器自动为我们完成编译、打包和发布。现在，每次代码更新，只需轻轻一点，成品就会自动生成，开发者可以直接下载使用。

坑三：“语言不通”的音频数据

我们发现Flet录制的音频和Sherpa-onnx期待的格式“对不上号”，采样率、编码格式全都不同。

数据对比一目了然：

Flet录音: 48000 Hz, FLOAT格式 -> Sherpa-onnx期望: 16000 Hz, PCM_16格式

解决方案异常清晰： 我们引入了一个“翻译官”——soundfile库，通过几行代码进行格式转换，完美解决了问题。

# 就像将高精度原料加工成标准零部件
import soundfile as sfaudio, sample_rate = sf.read(input_file, dtype="float32", always_2d=True)
audio = audio[:, 0] # 取第一个声道
sf.write(output_file, audio, target_sr, subtype='PCM_16', format='WAV')