当前位置: 首页 > news >正文

发布会回顾|袋鼠云发布多模态数据中台,重构AI时代的数据底座

在AI全面渗透产业的浪潮中,数据平台的能力边界正在被重新定义。
在2025袋鼠云秋季数智发布会上,袋鼠云重磅发布“数栈多模态数据中台”,标志着数栈正式完成从结构化数据中台向AI时代“全模态、全场景”的全面升级。袋鼠云产品专家潮汐深度解析了多模态数据中台的战略逻辑、产品架构与客户实践。

一、AI时代的变局:从单模态到多模态的数据变革

AI应用的爆发正在倒逼企业的数据体系加速演进。
从国家政策层面持续推动数据要素化进程,到全球范围内GPT、DeepSeek、通义等模型的突破,AI正从模型训练进入应用落地的“下半场”。而支撑这一切的“燃料”,正是高质量、多模态的数据

AI时代对数据的要求已发生六大变化:

  • 从“稳定增长”到“爆炸增长”的数据规模;
  • 从“单模态”到“多模态”的数据类型;
  • 从“准确完整”到“真实高覆盖”的数据质量;
  • 从“离线处理”到“动态实时”的时效要求;
  • 从“独立割裂”到“结构化关联”的数据逻辑;
  • 以及从“弱管控”到“强安全”的数据合规体系。

AI不再只依赖于数据库中的表格数据,而是需要理解视频、语音、文本、日志、图像等多模态信息的融合。这意味着,企业数据平台必须具备多模态采集、统一开发与智能治理的能力,才能实现真正的 AI-ready 数据基础设施

二、数栈多模态数据中台:让数据为AI全面Ready

面对这一趋势,袋鼠云发布的“多模态数据中台”正是应势而生。
传统数据平台在AI场景下存在三大瓶颈:采存不统一、开发不统一、元数据管理不统一。而数栈通过底层架构重构,打造了“一体化、多模态、智能化”的数据中台体系,实现了从采集、存储、加工、治理到安全服务的全链路统一。

整体方案:从采到用的企业级多模态数据中台

袋鼠云“数栈多模态数据中台”是一个面向企业级AI应用的多模态数据基础设施方案。
它以“一个平台采、管、用全模态数据”为目标,打通了从数据采集、加工、治理到服务输出的全链路,构建出“可搜、可见、可管、可用、可溯”的智能数据体系。

从底向上看,平台首先接入来自对象存储、业务系统、IoT设备、MPP与Hadoop集群的多源数据,包括结构化表、半结构化日志与JSON、以及文档、图像、音频、视频等非结构化内容。
通过统一采集机制(实时采集、离线同步、本地上传、文件解析),这些多模态数据被集中到同一平台进行清洗、加工、转换与任务调度,形成标准化的数据资产。

在此基础上,数栈提供统一的数据治理与服务体系,实现:

  • 数据检索:跨模态统一搜索与语义查询;
  • 元数据管理:多模态元数据统一建模与全链路血缘追踪;
  • 安全与合规:租户隔离、分级权限与访问审计;
  • 数据服务:基于统一资产输出API、指标、标签、制品等形式的数据服务。

这一整体架构让企业的数据从分散走向融合,从孤岛走向体系化,为AI模型提供完整、可信的多模态语料基础。

产品架构:全模态、全场景的一体化智能底座

升级后的数栈多模态数据中台,全面扩展了支持的数据类型、算力体系与开发模式,形成覆盖“数据—算力—开发—资产—智能”的产品架构。

  • 数据对接与采集层
    除原生支持的RDB、MPP、Hadoop等结构化数据源外,数栈进一步支持半结构化数据(如JSON、日志、网页)及非结构化数据(文档、图片、音频、视频)。数据可通过实时采集与离线同步等方式接入平台,统一纳入中台进行存储与管理。
  • 算力与引擎层
    支持HDFS、MPP、MinIO对象存储及Milvus向量存储,实现多模态数据的融合管理;
    集成DeepSeek、通义千问等不同参数量模型,满足从轻量RAG到企业级大模型训练的多层需求;
    支持基于YARN、K8s及Standalone模式的CPU与GPU混合调度,充分发挥算力弹性;
    计算框架方面,除Hadoop与MPP主流引擎外,进一步兼容PyTorch与Ray,可直接处理非结构化数据任务。
  • 数据开发层
    在离线批处理、实时流处理与OLAP分析场景下,均可进行多模态数据处理。
    除传统的数据清洗、过滤、聚合外,平台内置50余种通用算子,涵盖文档分段、图片OCR、视频特征提取、音频识别等任务。
    同时支持高代码与低代码两种开发模式:开发者可拖拽建模,也可使用Python、PyTorch脚本灵活编排,实现“一个平台完成所有数据开发任务”。
  • 数据资产层
    构建统一的元数据中心,实现数据标准创建、血缘自动生成、治理与质量校验、安全管控等核心能力。
    所有治理后的数据资产均可被快速检索,并以API、指标、标签等方式对外提供服务。
  • 智能应用层
    在数据资产之上,数栈内置多类基础智能体能力,如智能取数、指标归因分析、任务异常排查、数据RAG等,帮助企业基于自身数据快速构建AI应用与Agent服务,覆盖业务运营、管理决策、金融投顾等多类场景。

通过这一架构,数栈实现了“数据形态全覆盖、开发模式全融合、治理体系全打通”,从根本上扩展了企业数据平台在AI时代的能力边界。企业不再需要在不同系统之间迁移和拼接,而是在一个平台内即可完成从数据采集、加工治理到AI应用的全流程,让数据真正“为AI全面Ready”。

三、从采到用:多模态数据的全链路能力升级

在多模态数据中台体系中,数据的采集、处理、治理、安全与服务构成了完整的技术闭环。
数栈的升级正是围绕这一链条展开,通过多模态对接、融合开发、统一治理和智能服务,构建出“采得全、开发快、管得住、用得好”的企业级AI数据底座。

多模态数据统一采集与存储

数据接入是多模态体系的起点。数栈可灵活对接多种数据存储底座,覆盖结构化、半结构化和非结构化三大类数据。

平台支持:

  • 通过对接对象存储和文件系统采集 PDF、Word、音频、视频等文件类数据;
  • 通过对接网页与 IoT 设备采集 JSON、日志等半结构化数据;
  • 通过连接关系型数据库底座采集业务系统中的结构化数据。

所有数据均可通过离线同步、实时采集或本地上传等方式汇入平台。系统会在接入过程中自动完成文件解析、内容拆分和向量化(Embedding)处理,并将向量数据存入 Milvus 向量数据库,将元数据同步入 MySQL 库。

这一机制让来自不同源的异构数据在底层实现“统一落库”,为后续的多模态开发、治理与服务打下标准化基础。

多模态数据一体化处理

在数据开发环节,数栈实现了三方面关键升级:

一是多模态一站式融合开发。
开发者可在同一平台、同一工作流内完成结构化、半结构化与非结构化数据的关联处理,实现多模态任务的端到端联动。

二是高低代码融合与算子生态。
平台在原有 Python、PyTorch 等脚本任务能力基础上,内置 50 余种通用算子,涵盖文档解析、图片识别、音视频处理、OCR 识别、语音转写、情感分析等多模态任务。
用户可自由上传自定义算子,实现内部复用与共享。
低代码拖拽式任务配置可帮助非技术人员快速上手,而高代码模式则赋予资深开发者更高灵活度,真正实现“所有人都能上手开发”。

三是算力混合调度。
在传统 CPU 调度基础上新增 GPU 资源管理,支持基于 YARN、K8s、Standalone 模式的 CPU/GPU 混合调度,满足高复杂度、多模态计算任务的资源需求。

凭借这三项能力,数栈使企业能够在一个平台中完成从数据采集到分析建模的全流程开发,极大提升了数据开发效率与资源利用率。

多模态数据处理实践

以银行贷款风控场景为例,数栈展示了多模态融合开发的典型流程。

银行在贷款审批中往往需要同时处理合同文档、身份证图片、面签视频及外部征信数据。
通过数栈,这一过程可被自动化完成:

  • 合同 PDF:OCR 识别合同条款,通过结构化提取任务抓取关键信息(贷款人姓名、金额、利率、期限等),再结合 NLP 进行合规性分析。
  • 面签视频:语音识别(ASR)转录语音内容,动作检测识别替代或作弊风险。
  • 身份证图像:OCR 提取身份信息,并与面签视频关键帧人脸进行比对验证。
  • 征信数据:通过外部 API 获取用户信用分与信用记录。

系统将上述结果统一汇聚为结构化的用户画像数据,为银行提供自动化的放贷风险判断。这一过程展示了数栈在多模态任务中的端到端智能处理能力:不同模态的数据在同一平台协同计算、统一治理并直接服务于业务决策。

统一元数据管理

在数据统一落库后,数栈的数据资产模块会对所有原始与加工后的数据进行统一的元数据管理。
平台支持为不同数据类型构建元数据模型,定义其技术属性、业务属性与管理属性,并自动生成血缘关系与版本追溯。

  • 统一检索:支持多模态内容的向量化搜索,不仅能按元数据字段检索,还能基于文本、视频内容进行语义级检索。
  • 多模态预览:用户可直接在资产详情页中预览文档、音视频等文件。
  • 血缘追踪与版本控制:自动生成全链路血缘图谱,展示任务与数据之间的关联关系;同时支持多版本回溯,确保每次变更可查、可控。

统一的元数据体系使企业能够从底层掌握全局数据脉络,实现“从源头到应用”的可视化治理。

四重安全保障体系

数据安全是多模态数据统一管理的核心。
数栈从架构层面构建了四重安全保障机制:

  1. 租户隔离与项目共享:开发任务在项目层面隔离,数据在租户层面可控共享,实现“大范围隔离、小范围协作”。
  2. 细粒度权限控制:统一权限策略覆盖结构化与非结构化数据,支持表级、字段级、文件级、目录级多层授权。
  3. 数据分级与访问匹配:内置与自定义数据等级映射用户权限,实现基于等级的访问控制。
  4. 全量安全审计:对运行代码、数据修改、授权审批等全操作行为进行细粒度记录与追溯,确保可控与合规。

通过这套体系,企业在充分释放数据价值的同时,保障了隐私安全与合规要求。

统一数据服务与智能应用

治理后的数据资产可通过多种方式激活使用:

  • 以数据制品、指标标签等形式同步到企业知识库;
  • 通过标准化 API 对外提供数据服务;
  • 以 MCP 方式供大模型与 AI 工具调用,支撑模型训练、推理与知识 RAG 场景。

基于这些能力,企业可以快速构建智能应用,如基于多维数据的质量评估、学生素质测评、健康管理指导与分层运营分析。高质量数据推动业务创新,丰富的业务又反哺数据完善,从而形成数据与智能的双向循环。

AI辅助数据开发与管理

在数据开发与治理过程中,数栈内置的 “灵瞳”智能体 为开发者提供了全新的 Copilot 体验。

灵瞳常驻于平台侧边栏,结合通义、DeepSeek 等模型能力与数栈的元数据库、血缘信息及知识库,为用户提供四类智能协同能力:

  1. 代码 Copilot:自然语言生成 SQL,自动优化与续写代码,并提供报错分析。
  2. 数据治理 Copilot:基于血缘分析自动识别表结构变更影响点,生成质量校验规则。
  3. 数据分析 Copilot:结合数据制品进行 RAG 问答与指标波动归因分析,结果可追溯。
  4. 产品操作 Copilot:以图文方式指导新手用户完成操作,或直接执行如任务创建、冻结等动作。

灵瞳不仅是一个问答助手,更是数据开发与管理过程中的智能合作者,帮助企业实现人机协同的高效开发体验。

四、客户案例:某制造业企业的多模态数据中台升级

某大型制造企业在建设多模态数据中台前,存量数据超过 20PB,日增约 3TB,其中非结构化数据占比达 74%,主要包括车载传感器视频、技术文档和用户手册。
由于数据模态割裂,问题分析效率低、关联成本高。

在数栈的多模态数据中台方案支撑下,企业实现了以下能力升级:

  • 将 MES、ERP、车辆传感器时序数据、视频图像与文档数据统一接入;
  • 通过 MinIO 存储原始数据,Milvus 存储向量化特征;
  • 结合离线与实时处理,执行结构化加工、视频关键帧提取、语音转文本等任务;
  • 统一管理数据血缘、质量与元数据编目。

成果显著:

  • 质量问题追溯时效提升 96%,用户画像维度特征提升 5 倍
  • 电池生产良品率提升 2.3%,车主情绪客诉率下降 40%

通过多模态统一开发与管理,该企业实现了从数据孤岛到智能运营的全面转型。

可以看到,多模态数据中台的建设不再是单纯的技术升级,而是一次企业认知与能力体系的重构。从底层的多模态采集、融合开发,到上层的智能体协同与业务应用闭环,数栈正帮助企业真正打通数据从采、管、用到生长的全链条,让数据成为AI时代最核心的生产力。

对于越来越多的数据驱动型企业而言,这不仅是一次工具的更替,更是一场关于“智能生产力体系”的重建:

  • 让数据更全面 —— 从结构化走向全模态;
  • 让开发更高效 —— 从多工具切换走向一体化开发;
  • 让治理更智能 —— 从规则驱动走向智能协同。

未来,袋鼠云将继续携手更多行业客户,共同推动 Data + AI 的深度融合落地,帮助每一家企业在这场智能化浪潮中,建立起属于自己的确定性竞争力。

http://www.dtcms.com/a/537241.html

相关文章:

  • AOI在PCB制造领域的核心应用
  • 网站建设系统规划seo信息优化
  • 建筑公司网站设计思路静态网站怎么样
  • python在Linux服务器中安装
  • 排序算法解析
  • 餐饮 网站建设互联斗士网站建站
  • 民营医院网站建设视频网站点击链接怎么做
  • Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用
  • 微信小程序-智慧社区项目开发完整技术文档(上)
  • 2025年10月主流工程项目管理软件推荐
  • 设计模版网站一级a做爰片365网站
  • 计算机网络自顶向下方法7——应用层 HTTP概述及其连接方式
  • 网站建设贵不贵wordpress站文章显示时分秒
  • 【编译原理笔记】3.4 Tokens Recognization
  • day19_添加修改删除
  • 【Linux】ps -ef 和 ps -aux的区别
  • OpenFeign与Sentinel集成的原理
  • window系统下利用anaconda安装labelImag
  • Windows开机启动命令
  • LocalDream 2.1.2 |在手机设备上运行SD模型,支持文本到图像生成和图像重绘,无任何限制
  • 招聘网站建设维护求个网站直接能看的
  • 辽宁pc网站建设开发网站建设登记表
  • 网站 目录结构想注册一家公司怎么注册
  • 玩转前端图标系统:从零搭建一套完整的图标选择器组件
  • 卡尔费休滴定法微量水分测定仪:高精度水分分析的核心技术解析
  • 【重庆政务服务网-注册_登录安全分析报告】
  • 大型网站开发的主流语言网站的标题优化怎么做
  • 3.Xposed框架入门指南:深入解析Hook内部类与匿名类的实现技巧
  • 南皮做网站网站开发 放大图片
  • 【开源负载测试工具Locust的并发测试优势】