Google Gemini 2.5 Flash Image(Nano-Banana)震撼登场!人人都能免费用的AI修图神器!
Gemini 2.5 Flash Image(代号 Nano Banana)是 Google 推出的一款最先进的图像生成和编辑模型。它在速度和成本效益的基础上,显著提升了图像质量和创意控制能力。该模型已通过 Gemini API 和 Google AI Studio 面向开发者开放,并通过 Vertex AI 面向企业用户开放。
主要主题与重要功能
1. 图像生成和编辑的新基准
- 最先进(State-of-the-art):Gemini 2.5 Flash Image 被描述为“最先进的图像生成和编辑模型”。
- Nano Banana 代号:该模型内部被称为“Nano Banana”,其命名源于一位产品经理在深夜的灵感,并被认为是模因的开始。
- 用户反馈驱动的改进:早期 Gemini 2.0 Flash 模型虽因低延迟和易用性受到好评,但也收到了关于图像质量和创意控制不足的反馈。Gemini 2.5 Flash Image 正是针对这些痛点进行了改进,重点提升了“视觉质量”、“指令遵循”和“自然编辑”。
- 成本效益:该模型定价为每百万输出 token 30.00 美元,每张图像约 1290 个输出 token(即每张图像 0.039 美元),与其他 Gemini 2.5 Flash 模态保持一致。
2. Google AI Studio 的“构建模式”更新
- 简化开发流程:Google AI Studio 的“构建模式”经过重大更新,旨在让开发者更轻松地使用 Gemini 2.5 Flash Image 进行构建。
- “Vibe Coding”(氛围编码):一个核心理念,指通过简单的提示语即可快速构建、修改和迭代 AI 应用程序。例如,Ammaar 仅通过“几个提示”就创建了“Past Forward”应用。
- 一键部署与 GitHub 集成:开发者可以直接从 AI Studio 部署应用程序,或将代码保存到 GitHub 进行管理。Kat 演示了如何发布链接和创建新的 GitHub 仓库。
- AI 助手与错误处理:AI Studio 具有“代码助手”功能,可以根据提示生成应用,并在出现错误时自动尝试修复。
- 用户界面 (UI) 改进:AI Studio 的 UI 进行了大量更新,提供更多空间用于应用程序预览和代码助手,并支持在代码视图和预览视图之间切换。此外,模型选择器和会话时间线等功能也得到改进,提升了用户体验。
3. 模型核心能力
- 角色一致性 (Character Consistency):这是该模型的一项“根本性挑战”突破,允许用户在不同环境、角度和设置中保持角色或对象的相同外观。“如果你看到了原始图像,当你把它外推到一堆其他图像时,这就是模型角色一致性的一部分真正闪耀的地方。”(Logan Kilpatrick)
- 应用示例:“Past Forward”应用(后改为“Future Forward”)可以将用户形象转换为不同年代或未来风格,同时保持人物一致。
- 视觉模板遵循:模型擅长遵循视觉模板,可用于创建房地产列表卡、员工徽章或产品模型。
- 基于提示的图像编辑 (Prompt-based Image Editing):利用自然语言进行有针对性的图像转换和精确的局部编辑。
- 应用示例:“AI 动力照片编辑”应用可以根据提示(如“添加胡子”、“添加高帽”、“添加单片眼镜”)修改图像细节。
- 高速迭代:“能够持续迭代并能在五六秒内完成这些操作,让它变得非常有趣。”(Logan Kilpatrick)这是 Flash 模型速度优势的关键体现。
- 原生世界知识 (Native World Knowledge):Gemini 2.5 Flash Image 受益于 Gemini 的世界知识,使其能够更好地理解和生成具有现实世界语义的图像,而非仅仅是美学图像。
- 应用示例:“Home Canvas”应用允许用户上传产品和场景图片,然后将产品自然地融入场景中,如将枕头或猫咪放置在沙发上,并根据光线添加阴影。
- 教育辅助:模型能够读取和理解手绘图表,回答现实世界问题,并遵循复杂的编辑指令。
- 多图像融合 (Multi-image Fusion):模型可以理解并合并多个输入图像。
- 应用示例:“广告可视化工具”应用允许用户上传产品图像,并将其放置在不同的广告场景和背景中,如城市广告牌或伦敦巴士站。
- “虚拟试穿 (Virtual Try-On)”:允许用户上传自己的照片和服装物品照片,然后可视化试穿效果。
4. 开放与协作
- 开发者生态系统:该模型通过 Gemini API 和 Google AI Studio 对开发者开放。
- 合作伙伴:OpenRouter.ai 和 fal.ai 已与 Google 合作,将 Gemini 2.5 Flash Image 提供给更广泛的开发者社区。OpenRouter.ai 首次集成了图像生成模型。
- SynthID 水印:所有使用 Gemini 2.5 Flash Image 创建或编辑的图像都将包含“隐形 SynthID 数字水印”,以识别其为 AI 生成或编辑。
5. 未来发展方向与已知限制
- 改进领域:
- 长文本渲染:Nicole Brichtova 提到,模型在处理通用文本(如生成餐厅菜单并让模型自行构思文本)方面仍有不足,这是未来的重点改进方向。
- 更可靠的角色一致性:尽管已有显著提升,但仍将继续努力。
- 事实性表示:尤其是在信息图表等应用中,确保图像不仅美观,而且信息准确。
- 风格化:某些风格表现良好,但并非所有风格都能保持一致性。
- 用户反馈的重要性:Google 积极鼓励用户通过开发者论坛或 X 平台提供反馈,以帮助团队改进模型。
演示应用示例
演示网址:https://aistudio.google.com/
上传两张图片
输入提示词:图中的两个人在脱口秀大会的舞台上举起图2的奖杯,发型和样貌不变
看下图细节:(仅供参考,如侵权请告知)
继续指定第一排抱上宠物,再看下图细节
总结
Gemini 2.5 Flash Image 的发布标志着图像生成和编辑领域向前迈出了重要一步,特别是在角色一致性、基于提示的精确编辑、世界知识融合和多图像融合方面。Google AI Studio 提供的“氛围编码”体验和更新的 UI 旨在赋能开发者轻松构建和部署创新应用。虽然模型仍有改进空间(如长文本渲染和事实性表示),但其提供的速度、质量和创意控制能力已为开发者打开了新的可能性。