当前位置: 首页 > news >正文

Google Gemini 2.5 Flash Image(Nano-Banana)震撼登场!人人都能免费用的AI修图神器!

Gemini 2.5 Flash Image(代号 Nano Banana)是 Google 推出的一款最先进的图像生成和编辑模型。它在速度和成本效益的基础上,显著提升了图像质量和创意控制能力。该模型已通过 Gemini API 和 Google AI Studio 面向开发者开放,并通过 Vertex AI 面向企业用户开放。

主要主题与重要功能

1. 图像生成和编辑的新基准

  • 最先进(State-of-the-art):Gemini 2.5 Flash Image 被描述为“最先进的图像生成和编辑模型”。
  • Nano Banana 代号:该模型内部被称为“Nano Banana”,其命名源于一位产品经理在深夜的灵感,并被认为是模因的开始。
  • 用户反馈驱动的改进:早期 Gemini 2.0 Flash 模型虽因低延迟和易用性受到好评,但也收到了关于图像质量和创意控制不足的反馈。Gemini 2.5 Flash Image 正是针对这些痛点进行了改进,重点提升了“视觉质量”、“指令遵循”和“自然编辑”。
  • 成本效益:该模型定价为每百万输出 token 30.00 美元,每张图像约 1290 个输出 token(即每张图像 0.039 美元),与其他 Gemini 2.5 Flash 模态保持一致。

2. Google AI Studio 的“构建模式”更新

  • 简化开发流程:Google AI Studio 的“构建模式”经过重大更新,旨在让开发者更轻松地使用 Gemini 2.5 Flash Image 进行构建。
  • “Vibe Coding”(氛围编码):一个核心理念,指通过简单的提示语即可快速构建、修改和迭代 AI 应用程序。例如,Ammaar 仅通过“几个提示”就创建了“Past Forward”应用。
  • 一键部署与 GitHub 集成:开发者可以直接从 AI Studio 部署应用程序,或将代码保存到 GitHub 进行管理。Kat 演示了如何发布链接和创建新的 GitHub 仓库。
  • AI 助手与错误处理:AI Studio 具有“代码助手”功能,可以根据提示生成应用,并在出现错误时自动尝试修复。
  • 用户界面 (UI) 改进:AI Studio 的 UI 进行了大量更新,提供更多空间用于应用程序预览和代码助手,并支持在代码视图和预览视图之间切换。此外,模型选择器和会话时间线等功能也得到改进,提升了用户体验。

3. 模型核心能力

  • 角色一致性 (Character Consistency):这是该模型的一项“根本性挑战”突破,允许用户在不同环境、角度和设置中保持角色或对象的相同外观。“如果你看到了原始图像,当你把它外推到一堆其他图像时,这就是模型角色一致性的一部分真正闪耀的地方。”(Logan Kilpatrick)
  • 应用示例:“Past Forward”应用(后改为“Future Forward”)可以将用户形象转换为不同年代或未来风格,同时保持人物一致。
  • 视觉模板遵循:模型擅长遵循视觉模板,可用于创建房地产列表卡、员工徽章或产品模型。
  • 基于提示的图像编辑 (Prompt-based Image Editing):利用自然语言进行有针对性的图像转换和精确的局部编辑。
  • 应用示例:“AI 动力照片编辑”应用可以根据提示(如“添加胡子”、“添加高帽”、“添加单片眼镜”)修改图像细节。
  • 高速迭代:“能够持续迭代并能在五六秒内完成这些操作,让它变得非常有趣。”(Logan Kilpatrick)这是 Flash 模型速度优势的关键体现。
  • 原生世界知识 (Native World Knowledge):Gemini 2.5 Flash Image 受益于 Gemini 的世界知识,使其能够更好地理解和生成具有现实世界语义的图像,而非仅仅是美学图像。
  • 应用示例:“Home Canvas”应用允许用户上传产品和场景图片,然后将产品自然地融入场景中,如将枕头或猫咪放置在沙发上,并根据光线添加阴影。
  • 教育辅助:模型能够读取和理解手绘图表,回答现实世界问题,并遵循复杂的编辑指令。
  • 多图像融合 (Multi-image Fusion):模型可以理解并合并多个输入图像。
  • 应用示例:“广告可视化工具”应用允许用户上传产品图像,并将其放置在不同的广告场景和背景中,如城市广告牌或伦敦巴士站。
  • “虚拟试穿 (Virtual Try-On)”:允许用户上传自己的照片和服装物品照片,然后可视化试穿效果。

4. 开放与协作

  • 开发者生态系统:该模型通过 Gemini API 和 Google AI Studio 对开发者开放。
  • 合作伙伴:OpenRouter.ai 和 fal.ai 已与 Google 合作,将 Gemini 2.5 Flash Image 提供给更广泛的开发者社区。OpenRouter.ai 首次集成了图像生成模型。
  • SynthID 水印:所有使用 Gemini 2.5 Flash Image 创建或编辑的图像都将包含“隐形 SynthID 数字水印”,以识别其为 AI 生成或编辑。

5. 未来发展方向与已知限制

  • 改进领域
  • 长文本渲染:Nicole Brichtova 提到,模型在处理通用文本(如生成餐厅菜单并让模型自行构思文本)方面仍有不足,这是未来的重点改进方向。
  • 更可靠的角色一致性:尽管已有显著提升,但仍将继续努力。
  • 事实性表示:尤其是在信息图表等应用中,确保图像不仅美观,而且信息准确。
  • 风格化:某些风格表现良好,但并非所有风格都能保持一致性。
  • 用户反馈的重要性:Google 积极鼓励用户通过开发者论坛或 X 平台提供反馈,以帮助团队改进模型。

演示应用示例

演示网址:https://aistudio.google.com/

上传两张图片

输入提示词:图中的两个人在脱口秀大会的舞台上举起图2的奖杯,发型和样貌不变

看下图细节:(仅供参考,如侵权请告知)

继续指定第一排抱上宠物,再看下图细节

总结

Gemini 2.5 Flash Image 的发布标志着图像生成和编辑领域向前迈出了重要一步,特别是在角色一致性、基于提示的精确编辑、世界知识融合和多图像融合方面。Google AI Studio 提供的“氛围编码”体验和更新的 UI 旨在赋能开发者轻松构建和部署创新应用。虽然模型仍有改进空间(如长文本渲染和事实性表示),但其提供的速度、质量和创意控制能力已为开发者打开了新的可能性。

http://www.dtcms.com/a/361514.html

相关文章:

  • 【开题答辩全过程】以 校园帮帮团跑腿系统的设计与实现为例,包含答辩的问题和答案
  • Leetcode 3664. Two-Letter Card Game
  • LeetCode 面试经典 150_滑动窗口_串联所有单词的子串(32_30_C++_困难)(滑动窗口:控制起点和滑动距离)
  • 原位表征技术在水系电池研究稳定性测试中的应用-测试GO
  • 教育 AI 的下半场:个性化学习路径生成背后,技术如何平衡效率与教育本质?
  • 学习日记-spring-day47-9.1
  • 使用LoadBalancer替换Ribbon(五)
  • 深入解析quiche开源项目:从QUIC协议到云原生实践
  • 每日算法题【二叉树】:计算二叉树节点的个数、叶子结点的个数、第k层节点的个数
  • 【面试场景题】不使用redis、zk如何自己开发一个分布式锁
  • 数据库索引失效的原因+示例
  • 视觉引导机械手双夹爪抓取:偏心旋转补偿与逆运动学求解
  • 卷积神经网络训练全攻略:从理论到实战
  • 【K8s】整体认识K8s之Configmap、Secret/ResourceQuota资源配额/访问控制
  • HTTP/2 多路复用
  • [C语言] 结构体 内存对齐规则 内存大小计算
  • 基于springboot生鲜交易系统源码和论文
  • 一文读懂k8s的pv与pvc原理
  • 威科夫与高频因子
  • 2.充分条件与必要条件
  • Android Framework打电话禁止播放运营商视频彩铃
  • Coze源码分析-工作空间-资源库-前端源码
  • Frida Hook 算法
  • 音频数据集采样率选择建议
  • 从网络层接入控制过渡到应用层身份认证的过程
  • 电源相关零碎知识总结
  • 如何把指定阿里云文件夹下的所有文件移动到另一个文件夹下,移动文件时把文件名称(不包括文件后缀)进行md5编码
  • @Autowired注入底层原理
  • 吴恩达机器学习补充:决策树和随机森林
  • AUTOSAR AP R24-11 Log and Trace 文档总结