当前位置：首页 > news >正文

【LUT技术专题】图像自适应3DLUT

news 2025/7/28 3:56:40

在这里插入图片描述

3DLUT开山之作: Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time（2020 TPAMI ）

专题介绍
一、研究背景
二、图像自适应3DLUT方法
- 2.1 前置知识
- 2.2 整体流程
- 2.3 损失函数的设计
三、实验结果
四、局限
五、总结

本文将从头开始对3DLUT开山之作: Learning Image-adaptive 3D Lookup Tables for High Performance Photo Enhancement in Real-time，第一篇利用学习的方法来得出图像自适应3DLUT算法进行讲解，这篇主要的亮点在于作者利用CNN和3DLUT结合完成了图像自适应的3DLUT图像增强，在保持LUT轻量化的优势前提下，提升了泛化性和算法性能。参考资料如下：
[1]. 论文地址
[2]. 代码地址

专题介绍

Look-Up Table（查找表，LUT）是一种数据结构（也可以理解为字典），通过输入的key来查找到对应的value。其优势在于无需计算过程，不依赖于GPU、NPU等特殊硬件，本质就是一种内存换算力的思想。LUT在图像处理中是比较常见的操作，如Gamma映射，3D CLUT等。

近些年，LUT技术已被用于深度学习领域，由SR-LUT启发性地提出了模型训练+LUT推理的新范式。
本专题旨在跟进和解读LUT技术的发展趋势，为读者分享最全最新的LUT方法，欢迎一起探讨交流，对该专题感兴趣的读者可以订阅本专栏第一时间看到更新。

系列文章如下：
【1】SR-LUT
【2】Mu-LUT
【3】SP-LUT
【4】RC-LUT
【5】EC-LUT
【6】SPF-LUT
【7】Dn-LUT
【8】Tiny-LUT

一、研究背景

简单来说，当时已有的利用CNN实现的图像颜色增强算法，虽然在效果上比较显著，但是消耗大量计算和内存资源，尤其是在一些高分辨率的图像上。本文为了解决这个问题，首次结合3DLUT工具到AI ISP中，保持了LUT低资源消耗的优势，又提升了算法的性能。
回顾传统的3D LUT工具，通常是在ISP pipeline中或者图像编辑工具中作为一个手动调整或者是固化的算子来使用，一般不会随着图像进行自适应的增强，本文提出的方法则可以根据图像的不同输出不同的LUT。总结就是综合了LUT和原有CNN的优势，然后达到了更好的效果，提升了实用性。

作者接着对比了一下相关工作，阐述本方案的优势之处，有以下三种，三种类型相关工作各有不足，本文的方法则是：
1）使用CNN来实现的image2image是在AI ISP中常见的一个方式，但这种基于CNN的网络在高分辨率下，资源消耗巨大。
2）预测一组预定义的增强算子或映射曲线，这个地方大家可以想象预测一条曲线（1DLUT）用来调整对比度，通过将亮度完成单点1对1的映射提升对比度，通常这类方法会输入一个图像的低分辨率图来进行估计这个曲线，从而完成对高分辨率图像的增强。但这种方法使用的算子过于简单，不能提供足够的增强能力，并且很难从数据中直接学习。
3）采用强化学习来对输入图像进行迭代增强，显然这会牺牲效率，强化学习需要大量约束来帮助模型学习，没有监督学习便于使用。

本文则是可以综合上述的优点，最后总结一下本文的贡献，主要有3点：
1）第一次通过学习3D LUT的方式，使用成对和非成对的数据集进行训练，并完成自动的图像增强
2）提出的模型在600k的参数两下，在Titan RTX GPU上只花费2ms的时间就能够处理4K图像，应用价值高。
3）基准数据集验证了在成对和非成对数据集上，模型在定量和定性的实验中都优于当时最先进的图像增强方法。

二、图像自适应3DLUT方法

2.1 前置知识

1）3DLUT：学习一个3个输入index索引一个3维向量的LUT表，如下图立方体所示，每个立方体上的点都有它对应的值，对应到实际应用，就是颜色的增强。

在这里插入图片描述
2）trilinear interpolation：立方体插值，通过一个浮点数的位置找到其周围8个顶点的距离进行加权，加权的值是小立方体的体积，插值的点是3D LUT上的点，这个插值方式在本专栏的SR-LUT有讲到过。如下图所示，是一次插值的过程。
在这里插入图片描述
用公式表示这个插值过程就是：
$\begin{aligned} c_{(x, y, z)}^{O} & =\left(1-d_{x}\right)\left(1-d_{y}\right)\left(1-d_{z}\right) c_{(i, j, k)}^{O}+d_{x}\left(1-d_{y}\right)\left(1-d_{z}\right) c_{(i+1, j, k)}^{O} \\ & +\left(1-d_{x}\right) d_{y}\left(1-d_{z}\right) c_{(i, j+1, k)}^{O}+\left(1-d_{x}\right)\left(1-d_{y}\right) d_{z} c_{(i, j, k+1)}^{O} \\ & +d_{x} d_{y}\left(1-d_{z}\right) c_{(i+1, j+1, k)}^{O}+\left(1-d_{x}\right) d_{y} d_{z} c_{(i, j+1, k+1)}^{O} \\ & +d_{x}\left(1-d_{y}\right) d_{z} c_{(i+1, j, k+1)}^{O}+d_{x} d_{y} d_{z} c_{(i+1, j+1, k+1)}^{O}, \end{aligned}$
其中 $d_x$ 、 $d_y$ 、 $d_z$ 分别是到最左下角点的距离，自然每个插值加权了一个立方体的体积。

2.2 整体流程

整体流程如下图所示。
在这里插入图片描述

首先输入HR图像进行下采样得到LR图像，LR图像送入CNN weight predictor中预测得到 $w_1$ 、 $w_2$ 、 $w_3$ ，此是用于加权Basis 3D LUTs的权重。
3D LUTs加权后得到一个Image-adaptive 3D LUT，显然这个3D LUT的生成过程是符合随着图像的变化而变化的这个特性的，这个LUT将作用于HR图像完成图像的增强，得到增强结果。
结果进行损失的计算，当然成对的图像使用论文设计的成对损失，否则使用非成对的损失进行模型优化。

作者接下来讲了为什么这么设计的原因，作者认为传统的3DLUT有两个局限性：

3D LUT手工设计，麻烦且昂贵。
1个3D LUT只能提供固定的变换，难以适应不同的场景，现有的一般都是预设一些LUT，然后让用户去选择，这不够灵活。

针对性的，为了解决第一个问题，采用数据驱动的方式，因为是数据集学习，所以也不存在所谓手工设计的情况。

针对第二个局限，模型只需要能够有对图像有针对性的调整即可，则引入了CNN来预测权重，那这里当然会存在一个分歧，如果作者设计成一个分类器，即强行选择某一个LUT（hard-voting strategy）。作者分析了这种方式存在明显的问题，首先，非常难以将某些场景归为特定的一些类从而让他们共享一个LUT，其次由于每个3DLUT都是独立作用于输入图像，因此需要大量的3D LUT来覆盖所有场景，最后分类器的训练独立于各个3D LUT使得他们之间的协作不是最优的，并且一旦分类错误会引入artifact。

2.3 损失函数的设计

1）内容相关的损失：

针对于成对数据，使用如下所示的MSE损失：
$\mathcal{L}_{m s e}=\frac{1}{T} \sum_{t=1}^{T}\left\|q_{t}-y_{t}\right\|^{2}$ ，这里的 $q_t$ 和 $y_t$ 是预测和实际的HQ， $T$ 是数据个数。
针对于非成对数据，则使用gan损失，如下所示，分别是生成器和判别器的损失，gan损失是他们的和。
$\mathcal{L}_{G}=\underset{x}{\mathbb{E}}[-D(G(x))]+\lambda_{1} \underset{x}{\mathbb{E}}\left[\|G(x)-x\|^{2}\right],$ $\mathcal{L}_{D}=\underset{x}{\mathbb{E}}[D(G(x))]-\underset{y}{\mathbb{E}}[D(y)]+\lambda_{2} \underset{\widehat{y}}{\mathbb{E}}\left[\left(\left\|\nabla_{\widehat{y}} D(\widehat{y})\right\|_{2}-1\right)^{2}\right],$ 则gan损失可以表达为： $\mathcal{L}_{gan}=\mathcal{L}_{G}+\mathcal{L}_{D}$

2）正则化项：作者使用了两个正则化损失，来确保结果的正常：

平滑损失：作者使用的TV损失搭配一个 $w_i$ 的权重正则来确保结果的平滑，只不过这个TV损失作用于LUT表上，如下所示。
$R_{TV} = \sum_{c \in \{r, g, b\}} \sum_{i, j, k} \left( \| c_{(i+1, j, k)}^O - c_{(i, j, k)}^O \|^2 + \| c_{(i, j+1, k)}^O - c_{(i, j, k)}^O \|^2 + \| c_{(i, j, k+1)}^O - c_{(i, j, k)}^O \|^2 \right)$ ，可以看到这里是对于3DLUT的每个维度的梯度的平方做了一个加和，即不希望LUT每一个点的梯度不会太大，发生分层现象。最后平滑损失表示为：
$\mathcal{R}_s = \mathcal{R}_{TV} + \frac{1}{n} \| w_n \|^2$ 在TV损失的基础上添加了一个对 $w$ 的L2正则损失， $w$ 控制内容影响的权重而TV控制所使用到的LUT。
单调性损失：作者使用了如下所示的设计来确保LUT是单调的，不会发生分层现象。如下所示：
$\mathcal{R}_m = \sum_{c \in \{r, g, b\}} \sum_{i, j, k} \left[ g \left( c_{(i, j, k)}^O - c_{(i+1, j, k)}^O \right) + g \left( c_{(i, j, k)}^O - c_{(i, j+1, k)}^O \right) + g \left( c_{(i, j, k)}^O - c_{(i, j, k+1)}^O \right) \right]$
这个公式中的 $g$ 代表标准ReLU，这个正则项是为了满足单调递增性的，当索引增大时，我们需要将其增大，因此当满足增大这个条件时，ReLU会使得损失为0，否则不为0。

三、实验结果

本篇文章的实验非常详细，首先讲一下消融实验。
1）预设的3D LUT数目，文中展示的是3个，作者做了实验。
在这里插入图片描述
这里的Delta E 是CIELAB色彩空间中定义的色差度量，显然定量的实验证明是LUT数目越多，效果越好，但作者为了权衡资源消耗和效果选择了3个，毕竟后续效果增长不多。
2）正则损失的权重大小：引入了 $\lambda_s$ 和 $\lambda_m$ 分别代表平滑损失和单调损失的大小，首先实验了他们的一个单调增长对于效果的影响， $\lambda_s$ 越大，PSNR会显著下降，这是可以预料到的，因为平滑性限制了3D LUT的转换灵活性，而对于单调性来说，权重影响不大，因为他只是一个自然的约束，不会对其增强效果有太多抑制。

然后作者做了一个定性的实验来看这些损失对于实际效果的影响，如下图所示。
在这里插入图片描述
对于完全不加约束的(a)来说，中间的天空出现了明显的分层现象，(b)做了平滑损失有一定的改善，但还是存在带状的一个分层，©有单调约束后对于带状的分层有了改善，但是仍然存在部分局部不平滑的问题，相比较来说(d)就更加好，不存在前面的问题，结合起来效果才会更好一些，作者在这里还做了对LUT切面的分析，整体会更有说服力，感兴趣的作者可以补充看一下，作者的实验做的非常的完整和详细。
最终作者通过以上实验给出了结论选择 $\lambda_s$ 和 $\lambda_m$ 分别为0.0001和10，在增强和模型稳定性之间取得一个平衡。
3）自适应LUT：这个主要就是看CNN给的weight是否有用，显然是有用的，作者做了定性的实验来说明这点。
在这里插入图片描述
针对自适应的LUT，固定LUT的效果有明显劣势。

消融实验讲完了，后续是作者的一些跟其他方法的效果对比实验。
1）成对数据：

定量实验：优势明显。
定性实验：同样优势明显。

跟较sota的HDRNet做了更细节的对比，效果上天空有优势，泛化性更好。

2）非成对数据：

定量实验：优势明显。
定性实验：效果上有优势。

3）User study：用户主观的判断，同样是优势。
在这里插入图片描述
其中(a)是他们的测试界面，（b）和（c）是成对和非成对类的结果对比，用户喜爱比是领先的。

4）耗时比对：非常明显的优势，差了数量级。
在这里插入图片描述

四、局限

作者提了几个局限，从这里也可以看出这篇文章的内容非常的详细和完整，做了大量的实验。
1）局部对比度不够：因为是全局的LUT方法，所以在一些场景下存在问题，比如说：
在这里插入图片描述
在不加local tone mapping之前，3DLUT对于阴影部分的处理是不够好的。
2）可能会对噪声进行增强：由于增强可能会放大噪声，所以是需要在有噪声的环境下配合降噪使用。

图中放大的部分存在噪声被增强的情况。