当前位置：首页 > news >正文

【AI论文】OmniSVG：一种统一的（可扩展）矢量图形生成模型

news 2025/8/19 4:59:09

摘要：可伸缩矢量图形（SVG）是一种在图形设计中广泛采用的重要图像格式，因其分辨率无关性和可编辑性而备受青睐。生成高质量SVG的研究一直吸引着AIGC（人工智能生成内容）领域的设计师和研究人员的持续关注。然而，现有方法要么产生结构不清晰的输出且计算成本巨大，要么仅限于生成结构过于简化的单色图标。为了生成高质量且复杂的SVG，我们提出了OmniSVG，这是一个统一的框架，利用预训练的视觉语言模型（VLMs）进行端到端的多模态SVG生成。通过将SVG命令和坐标参数化为离散令牌，OmniSVG将结构逻辑与低级几何解耦，从而实现高效训练，同时保持复杂SVG结构的表达能力。为了进一步推动SVG合成的发展，我们引入了MMSVG-2M，这是一个包含两百万个丰富注释的SVG资产的多模态数据集，以及一个针对条件SVG生成任务的标准化评估协议。大量实验表明，OmniSVG在性能上优于现有方法，并展示了其集成到专业SVG设计工作流中的潜力。Huggingface链接：Paper page，论文链接：2504.06263

研究背景和目的

研究背景

可伸缩矢量图形（SVG）作为一种重要的图像格式，在图形设计中得到了广泛应用。SVG具有分辨率无关性和可编辑性，使其能够在不同分辨率下保持一致的视觉质量，并允许用户精确操控几何图形（如Bézier曲线、多边形等）。然而，对于非专业人士来说，创建高质量的SVG内容仍然是一项挑战，需要掌握专业的工具或复杂的XML语法。

在生成SVG内容方面，现有方法主要分为优化方法和自回归方法两类。优化方法通过迭代优化SVG参数来生成SVG图标，虽然有效，但在处理复杂样本时面临巨大的计算开销，且生成的输出结构不清晰，存在冗余锚点。自回归方法则利用预训练的语言模型（LLMs）或直接生成XML参数和代码来表示SVG，虽然具有端到端学习的优势，但受限于上下文窗口长度和复杂SVG数据的稀缺性，只能生成基本的SVG内容。

研究目的

针对现有方法的局限性，本研究旨在提出一种统一的框架OmniSVG，利用预训练的视觉语言模型（VLMs）进行端到端的多模态复杂SVG生成。OmniSVG通过将SVG命令和坐标参数化为离散令牌，实现结构逻辑与低级几何的解耦，从而在保持复杂SVG结构表达能力的同时，实现高效训练。此外，本研究还引入了一个大型多模态数据集MMSVG-2M，以及一个针对条件SVG生成任务的标准化评估协议，以进一步推动SVG合成的发展。

研究方法

数据集构建

为了支持OmniSVG的训练和评估，本研究构建了一个名为MMSVG-2M的大型多模态SVG合成数据集。该数据集包含两百万个SVG样本，涵盖网站图标、插图、图形设计、动漫角色等多种类型。数据集的构建过程包括数据收集、去重、简化和注释等步骤。通过利用预训练的VLM（如BLIP-2）为SVG样本生成描述性文本，MMSVG-2M不仅提供了丰富的视觉内容，还包含了与之对应的文本描述，从而支持多模态条件下的SVG生成任务。

模型架构

OmniSVG基于预训练的VLM（如Qwen2.5-VL）构建，该模型在处理视觉和文本输入方面表现出色。OmniSVG首先将文本和图像输入进行令牌化和嵌入，作为前缀令牌。然后，将SVG脚本令牌化为序列，并连接到前缀令牌的末尾。完整的序列随后作为解码器语言模型的输入。通过利用SVG令牌器将SVG命令和坐标参数化为离散令牌，OmniSVG实现了结构逻辑与低级几何的解耦，从而提高了处理复杂路径信息的能力。

训练目标

与LLMs类似，OmniSVG的训练目标是在给定前缀令牌的情况下，通过下一个令牌预测损失来生成新的令牌。通过在大规模SVG数据集上进行训练，OmniSVG学会了根据输入文本或图像指令生成高质量的SVG输出。

评估协议

为了全面评估OmniSVG的性能，本研究引入了一个标准化的评估协议MMSVG-Bench。该协议涵盖了三种关键的SVG生成任务：文本到SVG（Text-to-SVG）、图像到SVG（Image-to-SVG）和字符参考SVG生成（Character Reference SVG Generation）。评估指标包括视觉质量（如FID、CLIP分数、美学分数和HPS）、图像条件SVG生成的相似性（如DINO、SSIM、LPIPS和MSE）以及生成SVG的平均令牌长度和生成时间等。

研究结果

定量评估

在MMSVG-2M数据集上，OmniSVG在文本到SVG和图像到SVG任务上均取得了显著优于现有方法的性能。具体来说，在文本到SVG任务中，OmniSVG在FID、CLIP分数、美学分数和HPS等指标上均取得了最低或接近最低的分数，表明其生成的SVG在视觉质量和文本对齐方面表现出色。在图像到SVG任务中，尽管LIVE方法在SSIM、LPIPS和MSE等指标上表现更好，但OmniSVG在DINO分数上取得了最高分，表明其生成的SVG在语义上与输入图像更为接近。

定性评估

通过对比OmniSVG与现有方法在文本到SVG和图像到SVG任务上的生成结果，可以进一步验证OmniSVG的优越性。在文本到SVG任务中，OmniSVG生成的SVG不仅保留了输入指令的高保真度，还融入了丰富的颜色和几何准确性，能够处理更复杂的视觉线索。在图像到SVG任务中，OmniSVG能够高效地将图像转换为高质量的、可编辑的SVG，从简单的图标图像到复杂的插图和动漫角色图像均表现出色。