当前位置：首页 > news >正文

【AI论文】LeX-Art：通过可扩展的高质量数据合成重新思考文本生成

news 2025/10/13 7:59:02

摘要：我们推出LeX-Art，这是一套用于高质量文本-图像合成的综合解决方案，旨在系统性地弥合提示表达力与文本渲染保真度之间的差距。我们的方法遵循以数据为中心的理念，基于Deepseek-R1构建了一个高质量数据合成管道，以整理出LeX-10K数据集，该数据集包含10,000张高分辨率且经过美学优化的1024x1024图像。除了数据集构建之外，我们还开发了LeX-Enhancer这一强大的提示增强模型，并训练了两个文本到图像的模型，即LeX-FLUX和LeX-Lumina，实现了业界领先的文本渲染性能。为了系统性地评估视觉文本生成，我们引入了LeX-Bench基准测试，该测试评估保真度、美学和对齐度，并辅以成对归一化编辑距离（Pairwise Normalized Edit Distance, PNED）这一新颖指标，用于稳健的文本准确性评估。实验表明，我们的方法取得了显著改进，其中LeX-Lumina在CreateBench上实现了79.81%的PNED提升，而LeX-FLUX在颜色（+3.18%）、位置（+4.45%）和字体准确性（+3.81%）方面均优于基线模型。我们的代码、模型、数据集和演示已公开发布。Huggingface链接：Paper page，论文链接：2503.21749

研究背景和目的

研究背景

随着人工智能技术的飞速发展，特别是生成模型在自然语言处理（NLP）和计算机视觉（CV）领域的广泛应用，文本到图像（T2I）生成技术逐渐成为研究热点。T2I生成技术的核心在于将输入的文本描述转化为高质量的图像，这在设计、广告、娱乐等多个领域具有广泛的应用前景。然而，当前的T2I生成模型在文本渲染的准确性和美学质量上仍存在显著挑战。特别是在处理多词文本、复杂布局和精细文本属性控制时，这些模型往往难以生成既清晰准确又美观和谐的图像。

为了应对这些挑战，研究者们已经提出了多种方法，如引入额外的控制信号或使用专门的字形模块来增强文本渲染的准确性。然而，这些方法往往以牺牲多样性、美学和与周围视觉内容的无缝融合为代价。因此，开发一种能够同时兼顾文本渲染准确性、美学质量和多样性的T2I生成方法显得尤为重要。

研究目的

本研究旨在通过高质量的数据合成来革新文本-图像生成技术，推出LeX-Art这一综合解决方案。具体而言，研究目的包括：

构建高质量数据集：基于Deepseek-R1构建高质量的数据合成管道，整理出包含10,000张高分辨率且经过美学优化的1024x1024图像的LeX-10K数据集。
开发提示增强模型：开发LeX-Enhancer这一强大的提示增强模型，以提升输入文本描述的丰富性和准确性。
训练先进T2I模型：训练两个文本到图像的模型，即LeX-FLUX和LeX-Lumina，以实现业界领先的文本渲染性能。
引入基准测试和评估指标：引入LeX-Bench基准测试，以评估生成的文本图像的保真度、美学和对齐度，并辅以成对归一化编辑距离（PNED）这一新颖指标来稳健地评估文本准确性。
提升文本渲染性能：通过实验验证，显著提升T2I生成模型在文本渲染准确性、美学质量和多样性方面的性能。

研究方法

数据集构建

提示增强：利用Deepseek-R1等强大语言模型对从文本图像中提取的简单描述进行增强，使其包含更详细的视觉属性，如字体风格、颜色方案和空间布局。
图像合成与过滤：基于增强后的提示，使用生成模型合成图像，并通过多阶段过滤和重描述过程来确保图像的质量和可靠性。首先，使用Q-Align和Paddle-OCR-v3评估图像的保真度、美学质量和文本边界框覆盖率。然后，利用知识增强的重描述模块细化文本描述，以增强其与生成图像的对齐度。
数据集整理：最终整理出包含10,000张高质量文本-图像对的LeX-10K数据集。

提示增强模型开发

开发LeX-Enhancer这一提示增强模型，通过训练大量增强前后的提示对，使其能够高效地生成高质量、视觉接地的提示。

T2I模型训练

模型选择：选择FLUX.1[dev]和Lumina-Image2.0作为基线模型。
模型微调：使用LeX-10K数据集对这两个模型进行微调，分别得到LeX-FLUX和LeX-Lumina。在微调过程中，采用不同的批处理大小、学习率和分类器自由引导（CFG）比例等参数设置。

基准测试与评估

基准测试构建：构建LeX-Bench基准测试，包含1,310个精心设计的提示，分为简单、中等和困难三个级别。每个提示包含图像描述和要渲染的文本描述两部分。
评估方法：采用OCR-基于的评估、GPT-4o-基于的视觉问题回答（VQA）和人类偏好评估三种方法来全面评估模型性能。OCR-基于的评估包括OCR召回率和PNED指标；VQA评估包括颜色、位置和字体得分；人类偏好评估则通过用户研究来收集人类对生成图像质量和真实感的偏好。

研究结果

模型性能提升

实验结果表明，LeX-FLUX和LeX-Lumina在文本渲染性能上取得了显著提升。与基线模型相比，LeX-FLUX在颜色、位置和字体准确性方面分别提高了+3.18%、+4.45%和+3.81%；而LeX-Lumina在CreateBench上实现了79.81%的PNED提升。此外，两个模型在美学质量和与输入提示的对齐度方面也表现出色。

数据集质量验证

通过与传统文本图像数据集（如AnyWord-3M）的对比，验证了LeX-10K数据集在图像质量和美学得分方面的优势。这进一步证明了基于高质量数据合成来提升T2I生成模型性能的有效性。

人类偏好研究

用户研究结果表明，与基线模型相比，用户更偏好LeX-Lumina生成的图像，在美学质量、文本渲染准确性和完整性方面均表现出色。这进一步验证了LeX-Art在提升T2I生成模型性能方面的有效性。

研究局限

尽管LeX-Art在提升T2I生成模型性能方面取得了显著成果，但仍存在一些局限性：

数据集规模：尽管LeX-10K数据集已经包含10,000张高质量图像，但相对于实际应用场景来说，数据集规模仍然有限。这可能会限制模型在更广泛场景下的泛化能力。
模型复杂性：为了提升文本渲染性能，LeX-Art采用了多个复杂的模型和管道。这可能会增加模型的复杂性和计算成本，从而限制其在资源受限环境中的应用。
文本属性控制：尽管LeX-Art在颜色、位置和字体准确性方面取得了显著提升，但在更精细的文本属性控制（如字体粗细、倾斜度等）方面仍有待提高。

未来研究方向

针对上述研究局限，未来研究可以从以下几个方面展开：

扩大数据集规模：收集更多高质量的文本图像对，以扩大数据集规模并提升模型的泛化能力。同时，可以探索更高效的数据合成方法来降低数据收集成本。
简化模型结构：在保证性能的前提下，简化模型结构和计算过程，以降低模型的复杂性和计算成本。这有助于将LeX-Art应用于更多资源受限的环境中。
增强文本属性控制：进一步改进模型在精细文本属性控制方面的能力，如字体粗细、倾斜度等。这可以通过引入更精细的训练目标和损失函数来实现。
探索跨学科合作：结合NLP、CV和心理学等多学科的知识和方法，共同推动T2I生成技术的发展。这有助于发现新的研究思路和方法，进一步提升T2I生成模型的性能和应用前景。

查看全文

http://www.dtcms.com/a/99953.html