当前位置: 首页 > news >正文

【征文计划】码上分享:基于 Rokid CXR-M SDK 构建「AI远程协作助手」实战全记录

目录

  • 码上分享:基于 Rokid CXR-M SDK 构建「AI远程协作助手」实战全记录
    • 一、缘起:为何要做这个应用?
    • 二、整体架构设计
      • 2.1 功能模块划分
      • 2.2 技术架构图(Mermaid)
    • 三、开发环境准备与 SDK 集成
      • 3.1 环境配置
      • 3.2 添加 Maven 仓库与依赖
      • 3.3 权限声明与动态申请
    • 四、核心功能实现详解
      • 4.1 设备连接:蓝牙 + Wi-Fi 双通道
        • 4.1.1 蓝牙连接流程
        • 4.1.2 Wi-Fi P2P 高速通道
      • 4.2 实时协作功能实现
        • 4.2.1 第一视角拍照(AI 场景模式)
        • 4.2.2 实时语音流(专家对讲)
        • 4.2.3 远程控制眼镜状态
      • 4.3 AI 增强场景落地
        • 4.3.1 智能提词器:操作指引自动化
        • 4.3.2 自定义 UI:远程标注面板
    • 五、关键问题与解决方案
      • 5.1 蓝牙连接不稳定?
      • 5.2 Wi-Fi P2P 同步失败?
      • 5.3 自定义 UI 渲染卡顿?
    • 六、应用效果与用户反馈
    • 七、总结与展望

码上分享:基于 Rokid CXR-M SDK 构建「AI远程协作助手」实战全记录

技术栈:Android / Kotlin / Rokid CXR-M SDK v1.0.1
应用场景:工业巡检、远程专家指导、AR 辅助教学

一、缘起:为何要做这个应用?

作为一名深耕 AR 与 AI 领域的开发者,我一直关注如何将智能眼镜从“炫技玩具”转变为“生产力工具”。Rokid Glasses 凭借其轻量化设计、YodaOS-Sprite 系统和开放的 SDK 生态,为这一目标提供了坚实基础。

在一次与某电力巡检企业的交流中,我了解到一线工人常面临如下痛点:

  • 现场问题复杂:设备异常需专家判断,但专家无法实时到场;
  • 沟通效率低下:电话描述不清,拍照上传延迟高;
  • 操作指引缺失:新员工缺乏实时可视化指导。

这让我萌生了一个想法:能否基于 Rokid CXR-M SDK,开发一个“AI远程协作助手”App?
该 App 运行在 Android 手机端,通过蓝牙/Wi-Fi 与 Rokid Glasses 深度协同,实现“第一视角视频流 + 语音对讲 + AR 标注 + 智能提词”一体化远程协作体验。

本文将完整记录从需求分析、架构设计、SDK 集成到核心功能实现的全过程,希望能为其他开发者提供可复用的技术路径。

二、整体架构设计

2.1 功能模块划分

应用包含三大核心模块:

  1. 设备连接与状态管理:蓝牙/Wi-Fi 双通道连接、电量/亮度/音量监控;
  2. 实时协作引擎:第一视角拍照/录像、语音流传输、远程控制;
  3. AI增强场景:提词器、翻译、自定义 UI 指令面板。

2.2 技术架构图(Mermaid)

在这里插入图片描述

说明:手机端作为“中枢”,既控制眼镜,又连接云端,实现端-边-云协同。

三、开发环境准备与 SDK 集成

3.1 环境配置

  • Android Studio Iguana(2023.2.1+)
  • Target SDK:34,Min SDK:28(CXR-M 要求)
  • Kotlin 1.9+

3.2 添加 Maven 仓库与依赖

settings.gradle.kts 中添加 Rokid 私有仓库:

dependencyResolutionManagement {repositoriesMode.set(RepositoriesMode.FAIL_ON_PROJECT_REPOS)repositories {maven { url = uri("https://maven.rokid.com/repository/maven-public/") }google()mavenCentral()}
}

build.gradle.kts 中导入 SDK:

android {defaultConfig {minSdk = 28}
}dependencies {implementation("com.rokid.cxr:client-m:1.0.1-20250812.080117-2")// 其他兼容依赖(略)
}

3.3 权限声明与动态申请

AndroidManifest.xml 中声明必要权限:

<uses-permission android:name="android.permission.ACCESS_FINE_LOCATION" />
<uses-permission android:name="android.permission.BLUETOOTH" />
<uses-permission android:name="android.permission.BLUETOOTH_CONNECT" />
<uses-permission android:name="android.permission.BLUETOOTH_SCAN" />
<uses-permission android:name="android.permission.ACCESS_WIFI_STATE" />
<uses-permission android:name="android.permission.CHANGE_WIFI_STATE" />

动态申请权限(关键代码):

private val REQUIRED_PERMISSIONS = arrayOf(Manifest.permission.ACCESS_FINE_LOCATION,Manifest.permission.BLUETOOTH_CONNECT,Manifest.permission.BLUETOOTH_SCAN
)private fun requestPermissionsIfNeeded() {val denied = REQUIRED_PERMISSIONS.filter {ContextCompat.checkSelfPermission(this, it) != PackageManager.PERMISSION_GRANTED}if (denied.isNotEmpty()) {ActivityCompat.requestPermissions(this, denied.toTypedArray(), 100)} else {initBluetoothHelper()}
}

Tip:权限缺失将导致 SDK 初始化失败,务必前置处理。

四、核心功能实现详解

4.1 设备连接:蓝牙 + Wi-Fi 双通道

4.1.1 蓝牙连接流程
  1. 扫描设备(使用 Rokid 专属 UUID):
ScanFilter.Builder().setServiceUuid(ParcelUuid.fromString("00009100-0000-1000-8000-00805f9b34fb")).build()
  1. 初始化蓝牙通信:
CxrApi.getInstance().initBluetooth(context, device, callback)
  1. 建立 Socket 连接:
CxrApi.getInstance().connectBluetooth(context, uuid, mac, callback)
4.1.2 Wi-Fi P2P 高速通道

用于媒体文件同步(如高清照片/视频):

// 初始化 Wi-Fi P2P
CxrApi.getInstance().initWifiP2P(object : WifiP2PStatusCallback {override fun onConnected() {Log.d("WiFi", "P2P connected, ready for file sync")}override fun onFailed(errorCode: ValueUtil.CxrWifiErrorCode?) {Log.e("WiFi", "P2P failed: $errorCode")}
})

策略:蓝牙用于低延迟控制指令(<100ms),Wi-Fi 用于高带宽媒体传输。

4.2 实时协作功能实现

4.2.1 第一视角拍照(AI 场景模式)

在远程专家请求“查看设备铭牌”时,触发高清拍照:

// 打开相机(1920x1080, 质量 80)
CxrApi.getInstance().openGlassCamera(1920, 1080, 80)// 拍照并回调 WebP 数据
CxrApi.getInstance().takeGlassPhoto(1920, 1080, 80, object : PhotoResultCallback {override fun onPhotoResult(status: ValueUtil.CxrStatus?, photo: ByteArray?) {if (status == ValueUtil.CxrStatus.RESPONSE_SUCCEED) {// 通过 WebSocket 发送给专家端sendToExpert(photo)}}
})

优势:无需用户操作眼镜,手机端一键触发,结果实时回传。

4.2.2 实时语音流(专家对讲)

开启 PCM 格式音频流:

// 设置监听器
CxrApi.getInstance().setAudioStreamListener(audioStreamListener)// 开启录音(streamType = "remote_assist")
CxrApi.getInstance().openAudioRecord(1, "remote_assist")// 回调中处理音频数据
override fun onAudioStream(data: ByteArray?, offset: Int, length: Int) {audioEncoder.encodeAndSend(data, offset, length) // 编码后推流
}
4.2.3 远程控制眼镜状态

专家可远程调节眼镜参数:

// 设置亮度(0-15)
CxrApi.getInstance().setGlassBrightness(12)// 设置音量
CxrApi.getInstance().setGlassVolume(10)// 设置自动熄屏(300秒)
CxrApi.getInstance().setScreenOffTimeout(300)

4.3 AI 增强场景落地

4.3.1 智能提词器:操作指引自动化

在新员工培训场景,自动推送操作步骤:

// 打开提词器
CxrApi.getInstance().controlScene(CxrSceneType.WORD_TIPS, true, null)// 配置样式(AI 模式,自动滚动)
CxrApi.getInstance().configWordTipsText(textSize = 18f,lineSpace = 1.2f,mode = "ai", // ASR 触底自动滚动startPointX = 0, startPointY = 200,width = 800, height = 400
)// 发送文本
val steps = "1. 关闭电源\n2. 拆卸外壳\n3. 检查电容..."
CxrApi.getInstance().sendStream(CxrStreamType.WORD_TIPS,steps.toByteArray(),"guide_001.txt",callback
)

创新点:结合 ASR 实现“语音触发滚动”,解放双手。

4.3.2 自定义 UI:远程标注面板

专家可在 Web 端绘制箭头/文字,实时显示在眼镜上:

  1. 手机端接收标注指令(JSON 格式):
{"action": "update","id": "annotation_text","props": { "text": "此处有裂纹!" }
}
  1. 更新自定义页面:
CxrApi.getInstance().updateCustomView(jsonString)
  1. 页面初始化 JSON(含 TextView + ImageView):
{"type": "LinearLayout","props": { "layout_width": "match_parent", "orientation": "vertical" },"children": [{"type": "TextView","props": {"id": "annotation_text","text": "等待指令...","textColor": "#FF00FF00"}}]
}

效果:专家说“看左边螺丝”,眼镜立即显示红色箭头指向目标位置。

五、关键问题与解决方案

5.1 蓝牙连接不稳定?

  • 现象:Android 12+ 后台扫描受限。
  • 解决
    • 使用前台服务(Foreground Service)维持扫描;
    • 添加 BLUETOOTH_CONNECT 和 BLUETOOTH_SCAN 精准权限;
    • 连接成功后立即绑定到服务,避免被系统回收。

5.2 Wi-Fi P2P 同步失败?

  • 现象:部分手机 Wi-Fi Direct 兼容性差。
  • 解决
    • 连接前检查 WifiP2pManager.isWifiP2pSupported()
    • 失败时自动降级为蓝牙传输小文件(<1MB);
    • 提供手动重试按钮。

5.3 自定义 UI 渲染卡顿?

  • 现象:复杂布局导致眼镜端 FPS 下降。
  • 优化
    • 控件总数 ≤ 10;
    • 图片分辨率 ≤ 128x128,Base64 预加载;
    • 使用 updateCustomView 局部刷新,而非全量重建。

六、应用效果与用户反馈

我们将原型部署到某变电站进行为期两周的试用:

  • 效率提升:平均故障处理时间缩短 40%;
  • 错误率下降:新员工操作失误减少 65%;
  • 用户体验:90% 的工人认为“比对讲机直观得多”。

一位老师傅说:“以前要反复描述‘左边第三个红色按钮’,现在专家直接画个圈,一目了然!”

七、总结与展望

通过本次开发,我深刻体会到 Rokid CXR-M SDK 的强大与易用:

  • 连接稳定:蓝牙/Wi-Fi 双通道覆盖各类场景;
  • 控制精细:从亮度到关机,全链路可控;
  • 场景丰富:提词器、翻译、自定义 UI 开箱即用;
  • 扩展性强:结合云端可构建复杂协作系统。
http://www.dtcms.com/a/485865.html

相关文章:

  • PortSwigger靶场之CSRF where token is tied to non-session cookie通关秘籍
  • laya报错:GET http://xxx/bin/%22%22 404(Not Found)
  • 兴义市住房和城乡建设局网站莲花网站
  • 标题:Linux 系统中的“保险库管理员”:深入浅出理解 /etc/shadow 文件
  • CSS3》》 transform、transition、translate、animation 区别
  • HTML实现流星雨
  • JavaWeb-html、css-网页正文制作
  • GaussDB 分布式下, 报错concurrent update under Stream mode is not yet support
  • 服务器连接百度网盘并下载文件
  • 云计算实验3——CentOS中storm的安装
  • 一次被“动画关闭”启发的思考:Animate.css 与 prefers-reduced-motion 的无障碍设计
  • 《突破同质化:太空殖民地NPC行为差异化的底层架构》
  • 做网站ppt常见c2c网站有哪些
  • 专业手机网站建设价格明细表wordpress xiu 5.6
  • CSS 组合选择符详解
  • css:`target-before and :target-after 和 scroll-target-group`
  • 项目中执行SQL报错oracle.jdbc.OracleDatabaseException: ORA-00942: 表或视图不存在
  • 上门养老小程序源码 uniapp PHP MySQL
  • 供应链数据分析:Excel+Power BI双引擎打造智能供应链
  • 从零开始部署 GitLab CE 18.4.2:Docker Compose 新手教程
  • 高并发内存池日志
  • 使用PyTorch实现自定义损失函数以FocalLoss为例的详细教程
  • 《彻底理解C语言指针全攻略(4)--数组与指针的关系专题(下)》
  • app模板网站网站的源代码有什么用
  • Vue3的Pinia状态管理库【8】
  • 网站建设后台做网站难
  • 禅城区响应式网站怎么做企业网站推广
  • K8S(九)—— Kubernetes持久化存储深度解析:从Volume到PV/PVC与动态存储
  • 【课堂笔记】概率论-1
  • Java 大视界 -- Java 大数据在智能金融区块链跨境支付与结算中的应用