当下AI智能硬件方案浅谈
背景:
现在大模型出来以后,打破了常规的机械式的对话,人机对话变得更聪明一点。
对话用到的技术主要是实时音视频,简称为RTC。下游硬件厂商一般都不会去自己开发音视频技术,开发自己的大模型。商用方案多见为字节、百度这些大厂,他们会开发接口出来,供硬件厂商对接。
方案使用情况
目前,我已经开发了一个基于esp32的智能对话项目,现在很多主推的智能玩具,就基于这个方案。
从体验来讲,字节的方案响应算是比较快的,可以做到2s钟,之前用过百度的,反应要慢很多,大概要4s以上。
市面上还有一种方案叫“小智”,实时RTC后台是自己搭建起来的,反应速度很快,远超商用方案,响应速度感觉在1s内。但是据我了解,他们一直没有商用方案出来,别家也没法对接做产品。快是快,但是不适合做产品,产品一定要稳定,免费的服务是没法用的。
硬件来讲,基于单片机比如esp32或者基于Linux的方案都可以,主要是比如字节这些平台,需要开放出对应版本的so库,暴露出API即可。esp32是乐鑫家的芯片,为了推广芯片,和火山联合开发出了开源的Demo,所以基于esp32的开发相对比较容易。
Linux 端之前使用树莓派对接火山的音视频,Linux 是另外一种平台,他们SDK对树莓派支持不太好,不能枚举设备,不能自动进行拾音和播放,只能自己去采集。跟他们对接过一段时间,周期有点长,后面硬是对接好了。但是只作为演示用,后面逐渐采用esp32方案去做了,暂时项目没有必要上那么高性能。