当前位置：首页 > news >正文

当下AI智能硬件方案浅谈

news 2025/8/1 0:32:04

背景：
现在大模型出来以后，打破了常规的机械式的对话，人机对话变得更聪明一点。

对话用到的技术主要是实时音视频，简称为RTC。下游硬件厂商一般都不会去自己开发音视频技术，开发自己的大模型。商用方案多见为字节、百度这些大厂，他们会开发接口出来，供硬件厂商对接。

方案使用情况
目前，我已经开发了一个基于esp32的智能对话项目，现在很多主推的智能玩具，就基于这个方案。

从体验来讲，字节的方案响应算是比较快的，可以做到2s钟，之前用过百度的，反应要慢很多，大概要4s以上。

市面上还有一种方案叫“小智”，实时RTC后台是自己搭建起来的，反应速度很快，远超商用方案，响应速度感觉在1s内。但是据我了解，他们一直没有商用方案出来，别家也没法对接做产品。快是快，但是不适合做产品，产品一定要稳定，免费的服务是没法用的。

硬件来讲，基于单片机比如esp32或者基于Linux的方案都可以，主要是比如字节这些平台，需要开放出对应版本的so库，暴露出API即可。esp32是乐鑫家的芯片，为了推广芯片，和火山联合开发出了开源的Demo，所以基于esp32的开发相对比较容易。

Linux 端之前使用树莓派对接火山的音视频，Linux 是另外一种平台，他们SDK对树莓派支持不太好，不能枚举设备，不能自动进行拾音和播放，只能自己去采集。跟他们对接过一段时间，周期有点长，后面硬是对接好了。但是只作为演示用，后面逐渐采用esp32方案去做了，暂时项目没有必要上那么高性能。

JS-- for...in和for...of

pandas随笔

博弈论概述

RockyLinux9.6搭建k8s集群

ComfyUI 局部重绘工作流示例

DAY 23 pipeline管道

maven私服

C++.OpenGL （5/64）变换（Transformation）

day2 大模型学习 Qwen2.5微调入门

salesforce sandbox 不支持 data export

STM32外设问题总结

如何解决远程合并冲突

前端技能包

CSS 性能优化

【JMeter】后置处理器 - 提取器

AGain DB和倍数增益的关系

C++——红黑树