当前位置: 首页 > news >正文

Gemini 2.5 推动视频理解进入新时代

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

此外,该模型在一些高难度任务上(例如 YouCook2 的密集字幕生成、QVHighlights 的关键时刻检索)表现可媲美专业微调模型。而对于对成本敏感的应用,Gemini 2.5 Flash 则提供了极具竞争力的替代方案。


Gemini 2.5 的技术突破

Gemini 2.5 是首个能够原生结合音频、视觉、代码与其他数据格式的多模态模型,开启了全新的视频+代码处理能力。


应用实例一:将视频转化为交互式应用

Gemini 2.5 Pro 解锁了视频到交互式应用的全新可能。在 Google AI Studio 中,Video to Learning App 启动项目展示了如何使视频学习更具效果与互动性。

使用流程如下:

  1. 用户提供一个 YouTube 视频链接与分析提示;
  2. Gemini 2.5 Pro 分析视频并生成学习应用的详细规格说明;
  3. 同一个模型随后根据规格自动生成应用程序代码。

在教育与互动内容生成领域,Gemini 2.5 Flash 也展现出强大能力。


应用实例二:p5.js 动画自动生成

Gemini 2.5 Pro 还能从视频中自动提取信息并生成动画,例如:

  • 输入 Project Astra 视频;
  • 提示:“用 p5.js 创建一个动画,展示视频中出现的不同地标”;
  • 模型根据视频顺序生成动画代码,自动还原地标出现的时间线。


应用实例三:视频中“关键时刻”的检索与描述

在处理长视频(如 Google Cloud Next '25 开幕演讲)时,Gemini 2.5 Pro 可基于音频和视觉信号准确识别并标注多个重要片段(如产品展示),其精度远超此前系统。


应用实例四:视频中的时间推理与计数

凭借其先进的片段识别能力,Gemini 2.5 Pro 还可执行细粒度的时间推理任务。例如:

  • 在 Project Astra 视频中,模型准确统计主角使用手机的 17 次行为
  • 展示了其对视频中时间关系与动作频次的敏感识别能力。


构建视频智能应用的方式

Gemini 2.5 Pro 与 Flash 的视频理解功能现已支持:

  • Google AI Studio
  • Gemini API
  • Vertex AI

其中,Gemini API 支持 YouTube 视频输入,允许开发者从全球数十亿视频中构建应用。

新版本 API 还加入了 “低分辨率媒体处理参数”,在约 200 万 token 上下文限制下,可处理 6 小时以上视频,大幅降低成本,同时保持与高精度模型相当的性能(如在 VideoMME 上达到 84.7% vs 85.2% 的准确率)。


团队表示,社区中已有许多富有创意的视频应用正在涌现,对未来的创新充满期待。Gemini 2.5 正在重新定义人类与视频的互动方式。

相关文章:

  • Python爬虫常用项
  • 数据结构——例题1
  • [特殊字符]CentOS 7.6 安装 JDK 11(适配国内服务器环境)
  • LeetCode热题100--206.反转链表--简单
  • MongoDB 的主要优势和劣势是什么?适用于哪些场景?
  • LeetCode 热题 100_多数元素(97_169_简单_C++)(哈希表;排序)
  • 【2025年前端高频场景题系列】使用同一个链接,如何实现PC打开是web应用、手机打是-个H5 应用?
  • UE5通过C++实现TcpSocket连接
  • X1A000171000300,FC2012AN,32.768kHz,2012mm,EPSON晶振
  • 【Flask全栈开发指南】从零构建企业级Web应用
  • 影刀RPA开发-CSS选择器介绍
  • 第三章 初始化配置(一)
  • 【C++详解】类和对象(上)类的定义、实例化、this指针
  • esp32硬件支持AT指令
  • Leetcode 3544. Subtree Inversion Sum
  • 【Nova UI】十五、打造组件库之滚动条组件(上):滚动条组件的起步与进阶
  • Electron-Vue3、Electron-React、Electron-Angular打造舆情监控系统项目
  • Java SE(12)——异常(Exception)
  • InternVL3: 利用AI处理文本、图像、视频、OCR和数据分析
  • C++11异步编程 --- async
  • 国务院办公厅印发《国务院2025年度立法工作计划》
  • 兰州大学教授安成邦加盟复旦大学中国历史地理研究所
  • 人才争夺战,二三线城市和一线城市拼什么?洛阳官方调研剖析
  • 沈阳卫健委通报“健康证”办理乱象:涉事医院已被立案查处
  • 极限拉扯上任巴西,安切洛蒂开启夏窗主帅大挪移?
  • 云南大理铁路枢纽工程建设取得两大进展,预计明年建成