当前位置：首页 > news >正文

【音视频】WebRTC P2P、SFU 和 MCU 架构

news 2025/9/8 5:27:50

原文链接：https://www.nxrte.com/jishu/webrtc/10152.html

一、架构选择

每个视频会议解决方案的核心都是发送和接收参与者的视频/音频流的架构。例如，如果视频会议中有 N 个参与者，他们每个人都需要看到/听到所有其他 N-1 个参与者的视频/音频。

这可以通过不同的方式实现，但在实践中主要使用三种架构：

混合方法也是可能的——根据会议参与者的数量使用不同类型的架构。这更像是一种优化，将在本文末尾进行介绍。

P2P（点对点）有时也称为网状（Mesh）架构。这是最基本的架构，很容易推理。会议中的每个参与者都是对等点，并通过与每个参与者建立对等连接将他们的视频/音频发送给所有其他对等点。

这是具有 4 个参与者的 P2P（点对点）架构图：

在这里插入图片描述

没有中间媒体服务器，因此默认实现隐私（端到端加密）。虽然这听起来不错，但 P2P 架构有一个非常明显的缺点：上传带宽没有得到明智的使用。

例如，如果呼叫中有 N 个参与者，则每个参与者需要建立 N-1 个对等连接并发送 N-1 倍的视频/音频，总共 N*(N-1) 个对等连接。
尽管如此，许多家庭仍然拥有不对称的互联网连接 – 例如 ADSL（非对称数字用户线），与下载速度相比，上传速度受到严重限制。即使你有很好的上传速度，在许多人共享同一个互联网连接的办公室环境中仍然会出现问题。

实际上，P2P（点对点）架构主要适用于 2 人参加会议的 1-1 通话。在那种情况下，P2P 仍然是最优的，因为 2 个参与者中的每个参与者都只发送一次他们的音频/视频，只发送一次他们的视频/音频。

优点：

缺点：

上传带宽使用不当，即使会议参与者人数很少，也很容易饱和。
客户端的 CPU（中央处理单元）使用率会明显更高，**因为浏览器需要对视频进行 N-1 次编码才能将其发送给 N-1 个其他参与者。除非你有一台真正强大的机器，否则性能很容易受到影响。

结论：

上述缺点使得 P2P 架构主要针对 1-1 呼叫可靠且不可扩展。实际上，如果会议参与者超过 3 人，您将不会经常看到使用 P2P 架构的视频会议提供商。

这种架构是最近视频会议解决方案的主要选择。有中央SFU 媒体服务器接收发布的流，然后在不修改它们的情况下将它们路由到其他参与者。

虽然显然一些复杂性转移到了服务器端，但它是对P2P的巨大改进，因为它解决了 P2P 遭受的上传带宽和可扩展性问题：

联播通常与SFU（选择性转发单元） 一起使用，其中每个参与者将他们的流的多个版本发布到SFU （选择性转发单元），每个版本具有不同的质量。然后SFU （选择性转发单元）可以决定将低质量流版本路由到互联网连接较差的参与者。或者仅在参与者在本地最大化流时才提供流的高质量版本。
这样可以节省大量的下行链路带宽，并且即使参与者具有普通的互联网连接，也可以在同一个网格中显示许多参与者。

从上图可以看出，每个参与者向 SFU 媒体服务器发布一次，并且还接收每个其他参与者的流。

优点：

缺点：

中间媒体服务器会增加服务器端的成本/复杂性。
默认情况下未实现 E2EE（完全隐私），因为中间媒体服务器在转发时可以访问原始流字节。与 P2P 架构相比，这是一个缺点，但可以通过在将流字节发送到SFU（选择性转发单元）媒体服务器之前使用自定义密钥加密流字节来缓解。当然，这意味着接收方需要自定义解密。

结论：

在MCU（多点控制单元） 架构中，每个参与者仅在他们的流被发送到中央服务器时才发布他们的流。但与SFU不同的是，MCU（多点控制单元） 中央服务器具有混合器的作用——将所有接收到的流合并为一个流。然后所有参与者都使用这个混合流，而不是单独订阅每个其他参与者的流。

在这里插入图片描述

优点：

缺点：

布局通常不灵活——中央服务器确定所有参与者都能看到的固定布局。例如，一个参与者不能重新排序流或最大化另一个参与者的流的质量。
由于所有流的混合，与 SFU 相比，服务器端的 CPU 使用率和复杂性要高得多。 房间的缩放主要是垂直的——升级 CPU 以处理越来越多参与者的混合。当然，垂直扩展也有它的缺点，因为要找到越来越强大和可靠的机器既困难又昂贵。
与 SFU 相比， 将所有流混合到一个结果流中会引入稍大的延迟，因为 SFU 仅中继流。另外，如果 MCU 布局出现错误，每个人都会受到影响。

结论：

虽然如果唯一关心的是客户端资源使用， MCU （多点控制单元） 是最好的架构，但实际上MCU 输给了 SFU，因为将其部署在服务器端的成本至少高出 10 倍。
解码/编码和混合比像 SFU 这样的路由/中继流要费力得多。而且由于公司通常无法在服务器端多花至少 10 倍的钱，因此 SFU 是在大多数情况下获胜的合理折衷方案。