【技术分享】XR技术体系浅析:VR、AR与MR的区别、联系与应用实践
XR技术体系浅析:VR、AR与MR的区别、联系与应用实践
作者:EQ 雪梨蛋花汤
本文是技术分享文档,浅析VR(虚拟现实)、AR(增强现实)、MR(混合现实)的定义、特性、技术演进路线,并分析AR中的OST(光学透视)与VST(视频透视)两大实现路径,及其与MR技术的融合趋势。
第一章:XR概念总览与技术谱系
XR(Extended Reality)是虚拟与现实空间融合的综合技术名,包括VR、AR和MR。其本质是用数字信息扩展或更新现实感知,实现用户与虚拟内容、现实场景的高度融合和交互。
1.1 基本概念介绍
- VR(虚拟现实):构建纯虚拟的世界,用户被完全隔绝于现实世界,中心是“深度沉浸”。
- AR(增强现实):将虚拟元素、信息、动画在现实环境中加以重新视觉扩展,重点是“现实上的增强”。
- MR(混合现实):将虚拟世界与现实世界规划为一个可以相互作用、环境共享的空间,其核心是“虚实融合、物理交互”。
1.2 XR技术联系
XR三类技术(VR、AR、MR)在硬件架构、数据流、显示技术、交互方式方面各有侧重,但又存在强关联性。如下图所示:
1.3 XR发展脉络与趋势
XR并非单一技术进化结果,而是由以下几条技术路径交汇而成:
- 计算平台:从PC -> 移动端 -> 边缘计算 -> 云渲染;
- 感知能力:由视觉为主扩展至多模态传感器(IMU、深度、语音);
- 网络演进:从4G到5G/6G推动了低延迟XR体验;
- 人机交互:从手柄到裸手再到脑机接口探索。
第二章:AR技术分析:OST与VST方案
增强现实技术的核心是“在现实的基础上进行信息扩展”。根据环境采集和展示方式,分为OST和VST两类基本实现路径。
2.1 OST(Optical See Through)原理与特性
OST通过半透镜直接观看现实世界,将虚拟图像投射于用户眼前。是一种光学线路双路并行的设计。
技术特点
- 现实图像无需处理,無延迟。
- 虚拟图像需要出光光路与观感光路完美对齐,否则有错位感。
- 因光学透明,无法做好虚实遮挡,虚拟物体很难挡住现实物体。
工作流程
应用特征
- 更适合室外强光场景下的信息提示。
- 通常使用空间定位技术进行图像锚定。
- 对显示器亮度与视场角要求较高。
2.2 VST(Video See Through)原理与特性
VST方案采用摄像头拍摄现场环境,通过应用程序进行虚拟图像结合和添加,最后返回到显示屏幕。
技术特点
- 无光学通道,所有观看内容由数字编辑。
- 可精确控制虚拟遮挡,进行深度挖掘。
- 对硬件和后端处理性能要求高,容易造成延迟。
数据流基本流程
应用特征
- 适合需要复杂交互或遮挡效果的增强现实。
- 室内场景表现优于OST。
- 支持与AI视觉分析、SLAM等系统结合。
2.3 OST与VST技术格式对比
组合项 | OST(光学透视) | VST(视频透视) |
---|---|---|
环境观看路径 | 光学直视 | 数字转换 |
虚实遮挡效果 | 不可精确控制 | 可完全支持深度遮挡 |
延迟 | 极低/无 | 有延迟(取决于系统效率) |
补光、带宽 | 光影易变 | 可由后端调整 |
实现难点 | 光学对齐、视觉校准 | 摄像头同步、图像畸变矫正 |
2.4 AR内容的空间锚定机制
AR体验核心在于“稳定”的虚拟物体放置,这依赖于锚定技术:
- 图像锚定(Image Anchoring):识别预定义图案,如海报、书本等;
- 平面锚定(Plane Tracking):自动识别水平/垂直平面;
- 空间锚定(World Anchors):记录某一三维位置,便于回访。
ARCore 是 Google 推出的用于打造增强现实体验的平台。ARCore 利用不同的 API 让您的手机能够感知其环境、理解世界并与信息进行交互。其中一些 API 在 Android 和 iOS 上提供,以实现共享 AR 体验。
ARCore 的运动跟踪技术使用手机的摄像头来识别兴趣点(称为特征),并跟踪这些点随时间的移动情况。ARCore 会综合考虑这些点的移动和手机惯性传感器的读数,确定手机在空间移动时的位置和方向。
除了识别关键点之外,ARCore 还可以检测平坦的表面(例如桌子或地板),还可以估算周围区域的平均光照强度。这些功能相结合,让 ARCore 可以构建自己对周围世界的理解。
当您的手机在现实世界中移动时,ARCore 会使用视觉SLAM来理解手机相对于周围环境的位置。ARCore 会检测捕获的摄像头图像中视觉上不同的特征(称为特征点),并使用这些点来计算其位置变化。这些视觉信息会与设备 IMU 的惯性测量结果相结合,以估算摄像头相对于周围世界的姿态(位置和方向)。
环境识别:
第三章:VR技术结构与基础实现
虚拟现实是构建一个完全由计算机生成的三维空间,用户沉浸其中,通过交互装置进行导航、交互、观察等操作。该系统核心是“沉浸性”与“交互性”的结合。
3.1 VR系统构成模块
- 空间追踪系统:负责获取头部和手部的位置变化,实现视角跟踪。
- 图形渲染模块:由游戏引擎(如Unity)实时生成虚拟世界图像。
- 音频系统:实现3D空间音效渲染,增强沉浸感。
- 交互系统:支持控制器输入、手势操作、眼动跟踪等。
3.2 虚拟场景设计原则
- 一致性:用户行为与视觉反馈之间保持一致。
- 响应性:快速响应用户操作,避免延迟感知。
- 沉浸性:通过视觉、听觉、触觉构建完整虚拟空间。
- 导航性:提供良好的移动与空间感知机制,如传送、摇杆、手势位移等。
3.3 VR交互方式
- 空间控制器:按键+空间定位。
- 手势识别:摄像头识别用户手部动作。
- 语音识别:语义命令驱动行为。
- 眼动追踪:焦点驱动选择与界面互动。
3.4 VR图形渲染流水线详解
现代VR图像通常由游戏引擎(如Unity/Unreal)根据以下步骤生成:
- 用户位置更新(传感器);
- 构建视角投影矩阵;
- 渲染左右眼视图;
- 图像畸变矫正;
- 推送至屏幕显示。
第四章:MR核心机制与VST融合路径
混合现实不仅强调在现实世界中加入虚拟内容,更要求虚拟内容与现实环境的物理属性发生交互,例如遮挡、碰撞、共享空间等。
4.1 MR实现基础
MR通常在VST的基础上增加以下模块:
- 空间定位与建图(SLAM):实时构建用户所处空间地图。
- 深度传感与理解:利用结构光、ToF或AI视觉理解环境深度。
- 虚实遮挡融合:判断虚实物体位置关系实现正确遮挡。
- 交互管理:响应手势、眼动、语音命令,驱动虚拟物体行为。
4.2 MR与VST的融合逻辑
- MR继承VST的图像路径,增强其深度感知能力。
- 使用空间锚点与真实世界场景构建虚拟映射。
- 实现双向交互(如“碰撞虚拟墙体”或“用手推动虚拟按钮”)。
4.3 虚实遮挡技术原理
MR核心在于虚拟物体正确“遮挡”现实对象,或被现实对象遮挡。这需要:
- 精确获取真实世界深度图;
- 建立真实物体的三维包围盒(bounding box);
- 在渲染管线中依据Z-buffer处理遮挡优先级。
4.4 MR场景中的物理交互
在MR环境中,虚拟物体不仅要“看上去存在”,还需“行为上真实”。这涉及:
- 虚拟物体受真实物理世界影响(如地面重力、碰撞);
- 虚拟与现实的互动(如推门、拿杯子);
- 跨模态输入:语音控制虚拟助手、手势拖动现实界面。
总结与推荐
本文系统梳理了XR技术的核心内容,重点解析了VR、AR、MR的定义及实现方案,特别是AR的OST与VST技术路线和MR的融合机制。
希望能帮助你全面理解XR技术的全貌与应用趋势。
如果你想深入学习XR相关技术,推荐关注我的专栏:
- 我的XR开发记录
不定期分享XR开发的原创文档。包含但不限于3D、AR、VR相关内容
- VR 360°全景视频开发
专栏内容涵盖安卓原生VR播放器开发、Unity VR视频渲染与手势交互、360°全景视频制作与优化,以及高分辨率视频性能优化等实战技巧。敬请关注每周更新的技术分享!