Interactron: Embodied Adaptive Object Detection(训练时进行更新参数) 还没看懂
Interactron: Embodied Adaptive Object Detection
创新点
这些方法通常存在两个主要的共同假设。第一,模型在固定的训练集上进行训练,并在预先录制的测试集上进行评估。第二,模型在训练阶段结束后保持冻结状态,即训练完成后不再进行更新。这两个假设限制了这些方法在现实场景中的适用性
在推理过程中继续训练,并在测试时通过与环境交互,在没有任何明确监督的情况下使模型适应环境
内容
在训练过程中,智能体使用有监督数据学习损失函数,即它学习模仿使用标记数据在训练过程中产生的梯度。
在推理过程中,目标检测没有可用的监督信息。然而,模型可以为输入图像生成梯度。因此,模型可以在推理时使用生成的梯度进行更新
自适应损失模型
在测试时,这种方法不可行,因为我们没有任何帧的标签。我们可以通过添加另一个损失来解决这个问题,这个损失不是基于标签,而是仅基于F中的帧
监督器是一个 Transformer 模型,