当前位置: 首页 > news >正文

合合信息亮相PRCV:多模态文本智能与内容安全双擎驱动新突破

目录

  • 1 引言: AI技术爆发下的安全与效率挑战
  • 2 多模态文本智能:数字化升级核心引擎
    • 2.1 什么是多模态技术?
    • 2.2 扫描全能王:破解底层视觉痛点
    • 2.3 TextIn xParse:拓展感知认知边界
  • 3 图像内容安全:以鉴伪技术筑牢可信防线​
    • 3.1 FidOK:图像智能鉴伪
    • 3.2 标准制定:助力可信AI向善发展
  • 4 总结

1 引言: AI技术爆发下的安全与效率挑战

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。一边是效率革命催生的智能文档处理、内容审核、知识管理需求井喷,一边是伪造信息泛滥、数据可信度下降等安全隐患暗流涌动。

在2025年PRCV学术会议上,合合信息作为文档图像处理领域的代表性科技企业,在本次会议中分享了AI时代下,智能文档图像处理与AI内容安全的前沿创新实践与思考。在“AI+万物”的时代命题下,如何让机器既“高效做事”又“可靠守责”呢?合合信息图像算法研发总监郭丰俊老师对此进行了进一步的探讨和分析,相信对这个领域感兴趣的同学一定有所收获,接下来就让我们一起看看吧!

2 多模态文本智能:数字化升级核心引擎

2.1 什么是多模态技术?

多模态数据指由文本、图像、音频、视频等两种或以上不同形式的数据模态构成的复合数据集,其通过整合多维度信息为复杂任务提供更全面的语义表达。它具有丰富的特点并且能从多个维度描述对象:

例子:描述一场体育赛事,文本可记录赛事进程、运动员表现评价,图像能呈现精彩瞬间场景,视频还能动态展示比赛全貌,使信息全面立体。

信息会在不同模态重复增强信息可靠性。除此之外,各模态又有独特信息彼此补充,如文本的抽象概括与图像的细节展示结合。同时各模态数据在结构、表示形式和语义上差异巨大,像文本以序列字符形式存在,图像是像素矩阵,音频是连续波形采样,进行处理时需采用不同技术。最后,多模态数据之间关联性紧密,且不同模态间存在内在联系,如视频里音频与画面保持同步,挖掘利用这些关联信息有助于更深入分析理解数据。

在这里插入图片描述

在文本智能领域,BLIP2是典型的多模态模型,采用了图像和文本两个模态:

  • 图像编码器:使用诸如ViT的预训练图像编码器,将图像块转换为具有空间位置信息的向量表征,从而将图像的视觉特征编码为一系列更高维度的语义向量表示;
  • LLM解码器:采用诸如OPTFlanT5的LLM解码器处理文本任务,这些解码器在大规模语言数据上进行预训练,能够理解文本的语义和结构,并生成与输入文本相关的输出;

并通过轻量级的Transformer架构Q-Former将图像信息和文本信息进行多层次注意力机制融合,通过自适应地调整权重来促进两者之间的交互与对齐。这种设计充分利用了图像和文本的互补性,使得BLIP2能够同时处理文档图像中的视觉和语义信息,从而在多模态文档图像处理任务中取得出色的性能表现。同时,通过训练Q-Former部分,BLIP2大大减少了整个模型的复杂性和计算成本,提高了模型的可训练性和实用性。

在这里插入图片描述

除此之外,还有众多的多模态大模型用于处理文本智能问题。例如Google DeepMindFlamingo增加了门控注意力层引入视觉信息; 微软的LLaVACLIPViT-LLLaMA采用全连接层连接,使用GPT-4Self-Instruct2生成高质量的158k instruction following数据;MiniGPT-4采用ViT+Q-Former构建视觉通路、采用Vicuna构建语言通路,再使用全连接层衔接两大模态。

在本次PRCV大会上,郭丰俊老师带来了多模态文本智能技术的最新落地应用实践:感知层面上,突破传统文本局限,实现文字、图像、版式等异构信息的跨模态关联与语义级融合;认知层面上,构建了“语义理解 - 逻辑推理 - 决策执行”的技术闭环,使系统具备类人化的业务规则适配与主动决策能力。

2.2 扫描全能王:破解底层视觉痛点

随着信息技术的发展和应用场景的不断扩大,人们需要处理和利用大量的文档信息。而传统的手动处理方法效率低下,无法满足现代生活和工作的需求。虽然文档图像分析已经有了将近一百年的历史,但是到目前为止仍有大量的问题没有得到很好地解决,例如文档的多样性和复杂性问题:文档类型和格式繁多,包括报告、合同、发票、证明、证件等等。不同类型的文档有不同的格式和布局,难以用统一的方法处理。而且智能文档处理受到图像质量、文字字体、文字大小、文字颜色等噪声因素的影响,容易出现误识别。

面对文档类型繁杂、图像质量参差等行业顽疾,合合信息C端产品扫描全能王的智能高清滤镜功能,以多模态文本智能技术为基底,精准锚定底层视觉痛点,可自主识别光线不足、角度倾斜、手指遮挡、摩尔纹等十余种图像缺陷,针对性匹配去噪、矫正、增强等处理路径——既解决传统扫描模糊不清、版面失真的问题,又通过多模态信息融合保留关键细节,让低质文档变为结构清晰的数字化资产,同时为大模型训练与上层语义理解提供高质量输入

案例:面向教育场景,扫描全能王推出了手写擦除功能,以“保留关键信息、清除干扰内容、适配学科特性”为核心,用一套技术组合拳破解教学资源数字化痛点。过去,学生整理试题时,可能需要手动裁剪、擦除,稍不留神就会弄花红笔批注或模糊几何图形,耗时又费力。如今,只需打开该功能,算法智能区分手写轨迹与印刷体,仅针对黑色手写步骤发起擦除,同时适配学科特性,对试卷上的表格、公式等元素自动保护,避免因擦除误伤关键信息。最终形成可供学生复盘分析的优质资源,使试题整理从“体力活”变“智能活”。

在这里插入图片描述

在上面这个案例中,多模态文本智能技术贯穿手写擦除功能全链路:

  • 复杂版面元素:复杂版面元素的分析依赖多个信息源,例如文字的语义属性、表格的结构特征、公式的符号逻辑等异构信息,需通过多模态表征学习实现联合建模。版面元素检测网络中,一个很重要的组件就是注意力模块。注意力机制的目的在于在进行卷积神经网络的区域性搜索时,能够对于不同区域块的像素特点,在进行每一个卷积层赋值之前给予特定的权重,以保证搜索过程中对于需要检测的目标能够得到预标注的过程。注意力机制在此过程中结合了各模态的语义线索(如表格的行列规则、公式的符号逻辑),动态调整权重实现特征级融合

在这里插入图片描述

SSAM注意力机制模块实现多模态融合

  • 手写体识别:真实场景中的手写体试卷通常是包含汉字、数字以及数学公式的混合文本。手写体汉字、数字与数学公式在结构特征上存在显著差异。手写体汉字因其形式多样、构造复杂且笔画数量相对较多而显得尤为特殊。相比之下,数学公式主要由数字、字母以及罗马字符构成。如果直接使用单模态识别网络,例如卷积神经网络CNN,将严重影响混合文本的识别的准确率。与之相对,Transformer架构是常用的处理模型,通过多模态嵌入层融合手写汉字、数字、公式的视觉特征与结构规则,依托自注意力机制捕捉各元素空间关联与语义依赖,精准区分笔画复杂的汉字、规则数字与符号化公式,显著提升了混合手写印刷文本的识别准确率。

在这里插入图片描述

ViT模型结构

2.3 TextIn xParse:拓展感知认知边界

通用大语言模型(Large Language Model, LLM)是AIGC技术中的核心模型之一。大语言模型不仅能够理解和分析人类语言,还能够生成高质量、富有创意的文本。虽然大语言模型正在改变人工智能发展的范式,但存在一个阻碍大语言模型进步的瓶颈问题——token荒

有机构预测,到2026年全世界可以用于做大模型训练的高质量语料将被耗尽。

在这种情况下,电子文档对大语言模型训练就产生了重要意义。首先,电子文档作为海量的语言数据源,提供了丰富多样的文本内容。这些文档涵盖了各种领域的知识、专业术语、实际应用场景等。将电子文档作为语料库,可以使得大语言模型在训练过程中接触到更广泛、多样化的语言表达,提高其语言理解和生成能力;其次,电子文档通常被精心编写、编辑和组织,具有较高的语言质量和结构性。这些文档中的标注、标题、章节、段落等信息可以为大语言模型提供更可靠的上下文提示和语言规则,帮助模型更好地理解和生成文本。此外,通过使用电子文档进行训练,大语言模型能够学习到不同的语境和用法,更好地理解和应对各种现实世界的语言任务和挑战。所以,合理地将电子文档与大语言模型相结合,能够更好地应对token荒问题,并推动语言模型技术的发展。

在这里插入图片描述

图源网络,侵删

基于此,合合信息推出了通用文档解析产品TextIn xParse,架起了电子文档与大模型的“高速桥梁”,让海量文档转化为模型进化的“燃料”。区别于传统解析工具仅聚焦单一文字模态的局限,TextIn xParse依托多模态技术重新定义文本边界——其不仅能精准识别图片、PDF、Doc/Docx等十余种格式文档中的文字,更深度解析跨页表格的行列逻辑、合并单元格的语义关联、密集表格的错落布局,同时捕捉图表中坐标轴与曲线的对应关系、手写字符与印刷体的版面差异,甚至厘清公式符号的层级结构,实现从“识别文字”到“理解多模态语义”的跨越。这种多模态感知能力的突破,使TextIn xParse在结构提取、数据转换、语义增强后,能输出更贴合大模型需求的场景化语料:表格的行列规则、图表的逻辑关联、手写批注的上下文等信息被完整保留并结构化,既提升了文本感知精度与边界,又为电子文档赋予了更丰富的语义维度。通过智能索引对接向量数据库(VDB)与搜索数据库(SDB),TextIn xParse将千万级文档转化为标准化、可快速调用的训练语料,有效缓解了大模型面临的“token荒”焦虑,成为企业知识库建设与RAG应用效果提升的核心引擎,真正让多模态文本智能技术从概念落地为驱动AI进化的关键动能。

在这里插入图片描述

3 图像内容安全:以鉴伪技术筑牢可信防线​

3.1 FidOK:图像智能鉴伪

图像是信息的重要载体,也是信息保护的重点关注对象。图像编辑软件的发展和普及降低了虚假图像的制作门槛,大量基于虚假图片产生的诈骗案件、网络暴力事件在全球范围内造成了恶劣的影响。

在这里插入图片描述

郭丰俊老师总结了主要的三类伪造图像鉴别功能

在这里插入图片描述

文本图像伪造检测作为多媒体信息安全领域的一个新兴研究方向,是指通过对文本图像中纹理特征的分析,捕捉真实文本图像和篡改文本图像之间的纹理差异性,以确定文本图像中文字区域的真伪性。常见的应用场景有:谣言检测流水、合同造假识别、欺诈图像识别、学历造假检测、保单PS检测等。这个任务有两个主要挑战:

  • 局部纹理差异性捕捉困难。篡改文本与真实文本仅存在局部纹理差异;
  • 真实和篡改文本检测精度平衡困难;

合合信息文本图像伪造检测技术基于深度学习的图像篡改检测技术及相关系统,通过学习图像被篡改后统计特征的变化,智能捕捉图像在篡改过程中留下的细微痕迹,并以热力图的形式展示图像区域篡改地点,相关技术已在银行、保险等领域落地应用,可检测包括转账记录、交易记录、聊天记录等多种截图,无论是从原图中“抠下”关键要素后移动“粘贴”至另一处的“复制移动”图片篡改手段,还是“擦除”、“重打印”等方式,图像篡改检测技术均可“慧眼”识假。

在这里插入图片描述

在人工智能大模型技术狂飙突进的今天,“一键换脸”“深度伪造”已从实验室走向大众——一张静态照片能生成动态视频,一段真实影像可篡改五官表情,人脸伪造的“技术门槛”正加速消解,身份冒用、金融诈骗等安全隐患随之激增。传统检测手段却频现乏力,更难应对“照片-视频-3D模型”多形态伪造的复杂场景。合合信息FidOK产品针对不同的人脸篡改形式,基于大规模数据训练,形成了多层次的AI人脸篡改检测方案。目前,这项技术已在金融场景验证实效:助力国有四大行优化身份认证流程,较银行原有系统伪造拦截率提升近8倍;同时,上线了TextIn平台云服务,将为其他行业客户提供标准化鉴伪接口。在伪造与反伪造的博弈中,合合信息正用图像安全技术,让每一张“脸”都值得信赖。

在这里插入图片描述

相较传统的检测任务,AIGC图像伪造检测任务需要进一步区分篡改和真实图像。由于真实和篡改文本分类难度不一致,训练过程中网络无法平衡两类的学习过程,导致在测试过程中两类检测精度差异较大。上述挑战极大地限制了篡改文本检测方法的性能。因此,如何准确地捕捉局部纹理差异性,同时平衡篡改和真实类别学习难度,是目前篡改文本检测研究的重要方向。该任务的难点主要分为两点

  • 生成出来的图像场景繁多,不能穷举,不能通过细分来一一训练解决;
  • 有些生成图和真实图片的相似度过高,很贴近于人类的判断,对于机器而言,真伪判定只会更难;

为此,合合信息提出了一种基于编码器-解码器结构的图像真实性鉴别模型,结合图像本身的信息包括但不限于噪声、频谱等,能够在不用穷举图片的情况下,利用多维度特征来捕捉真实图片和生成式图片细粒度的视觉差异,达到高精度鉴别目的。

在这里插入图片描述

3.2 标准制定:助力可信AI向善发展

图像安全的重要性与日俱增,标准规范的出台迫在眉睫。合合信息与中国信通院等权威机构一道,携手国内顶尖院校、研究机构及企业,共同探索AI技术在图像领域的可信化落地这一深远命题,助力科技向上的同时向善发展。中国信通院牵头启动了《文档图像篡改检测标准》制定工作,合合信息、中国图象图形学学会、中国科学技术大学等科技创新企业及知名学术机构联合编制。《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障,助力新时代AI安全体系建设。《文档图像篡改检测标准》将基于产业现状,围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题,凝聚行业共识,以期为行业提供有效指引。

在这里插入图片描述

4 总结

从全球分布式算力平台的高效支撑,到文本智能平台赋予机器“深度阅读理解”能力,再到AGI技术平台向类人推理的突破,合合信息用三大核心平台筑牢技术底座,让多模态文本智能与图像内容安全两大方向的创新成果更具生命力。无论是智能文档处理中破解光线、倾斜、手写干扰的底层视觉痛点,还是通用文档解析实现多格式深度结构化输出的加速引擎;无论是FidOK图像鉴伪技术对伪造内容的精准拦截,还是牵头制定行业标准推动可信AI向善发展,合合信息始终以“解决真实问题”为导向,让技术既“能用”更“好用”。

当多模态文本智能让文档从“可读”迈向“可懂”,当图像鉴伪技术为数字内容戴上“可信标签”,合合信息正以技术为桥,连接起企业数字化效率提升与社会内容生态安全的双重需求。让我们拭目以待,期待合合信息在模式识别、深度学习、图像处理、自然语言处理等领域的深耕厚积薄发,用技术方案惠及更多的人!

http://www.dtcms.com/a/515591.html

相关文章:

  • PCIe协议之 Equalization篇 之 理论篇 之 DFE CTLE
  • 接单做一个网站多少钱网站后台修改图片
  • 操作系统4.3.1 文件系统的层次结构
  • 做2手物品通过网站去卖掉好做吗基于.net的个人网站开发实录
  • 三轴云台之线性控制特性
  • c++注意点(15)----状态模式
  • Delmia 软件 Teach 模块 interpolationMode 插补模式应用说明
  • Android Studio新手开发第二十八天
  • 系统与网络安全------弹性交换网络(4)
  • 功能网站首页模板微信小说分销平台
  • 网站建设管理规定php网站怎么建设
  • 【软考备考】物联网架构:感知层、网络层、平台层、应用层详解
  • LeetCode每日一题——二进制求和
  • 【LeetCode】长度最小的子数组
  • 从什么网站建网站好百度seo优化哪家好
  • 深度学习——基于 PyTorch 的蔬菜图像分类
  • 【设计模式】适配器模式(Adapter)
  • docker安装中间件
  • 系统架构设计师备考第48天——机器人边缘计算
  • 门头沟高端网站建设阿里云服务器win系统建站教程
  • ui设计培训机构哪个比较好cpu优化软件
  • 计算机运算中的上溢、下溢是什么?
  • 别再滥用 new/delete
  • 自己做网站的视频做网站不实名认证可以吗
  • Vertical Semiconductor融资1100万美元
  • 坐标系旋转(四元数 + 欧拉角 + 轴角表示 +旋转矩阵)
  • 发刊词:开启你的高效决策之旅(专栏目录)
  • D触发器学习
  • 汶上云速网站建设wordpress多域名支持
  • C++(23):contains检查字符串是否包含子字符串