阿里:多模态大模型预训练数据治理
📖标题:Squeeze Out Tokens from Sample for Finer-Grained Data Governance
🌐来源:arXiv, 2503.14559
🌟摘要
🔸广泛观察到的数据缩放定律表明,非选择性数据扩展的收益递减,其中误差随训练大小的幂而下降。因此,数据治理被提出通过修剪非信息样本来缩小数据集的规模。然而,由于尝试所有样本组合所需的大量计算,隔离特定样本对整体模型性能的影响是具有挑战性的。当前的数据管理器通过启发式导出的标量分数估计样本贡献来规避这种复杂性,从而丢弃低值分数。尽管进行了彻底的样品筛选,但保留的样品本质上含有大量不需要的标记,突显了进一步压缩和纯化的潜力。
🔸在这项工作中,我们将数据治理从“筛选”方法升级为“榨取”方法。我们的双分支DataJuicer应用了更细粒度的样本内治理,而不是扫描缺陷最小的样本。它挤出信息标记并增强图像文本对齐。具体来说,视觉分支保留了突出的图像块并提取了相关的对象类,而文本分支则合并了这些类以增强字幕。因此,DataJuicer通过更细粒度的治理产生了更精细的数据集。
🔸跨数据集的广泛实验表明,DataJuicer在图像文本检索、分类和密集视觉推理方面明显优于现有的DataSeve。
🛎️文章简介
🔸研究问题:在大规模视觉-语言预训练中,如何通过更细粒度的数据治理来提高数据质量和模型性能?
🔸主要贡献:论文提出了一种新的数据治理方法DataJuicer,通过精细化处理图像和文本数据,提高了模型在视觉-语言任务中的表现。
📝重点思路
🔸论文定义了训练预算、时间投资和预训练目标,并构建了一个由图像-文本对构成的受控数据集。
🔸研究方法分为两个分支:视觉分支通过剔除冗余图像块和评估对象存在概率来提升图像质量;文本分支利用视觉信息增强文本描述的清晰度和准确性。
🔸使用预训练模型在多个下游任务上评估性能,以验证数据治理的有效性。
🔸进行广泛的实验和消融研究,以量化各个组件的有效性。
🔎分析总结
🔸通过实验,DataJuicer显著提高了训练过程中的数据效率,并在十多个下游任务上改善了模型性能。
🔸DataJuicer在无额外计算开销的情况下,成功减少了冗余数据,提高了图像-文本对的一致性。
🔸实验结果表明,细粒度的数据治理方法在大规模数据上表现优于传统的粗粒度方法,尤其是在模型规模增加时。
🔸DataJuicer与DataSieve方法的结合使用进一步提升了数据治理的效果。
💡个人观点
论文的核心是通过细粒度的数据处理策略,有效平衡了图像和文本的语义信息。
🧩附录