当前位置：首页 > news >正文

Nano Banana如何重塑AGI发展路径

news 2025/9/26 16:36:15

用故事而非关键词驱动生成，这只“香蕉”正改变我们与AI交互的方式

在人工智能技术飞速迭代的当下，多模态领域正成为推动通用人工智能（AGI）发展的关键赛道。2025年8月，谷歌推出的Gemini 2.5 Flash Image模型（代号Nano Banana）以其颠覆性的技术表现刷新了行业认知，为AGI的探索开辟了全新可能。

Nano Banana的亮相颇具戏剧性。几周前，一个顶着神秘“香蕉”代号的模型在全球最权威的大模型测评平台LMArena上悄然登场，没有任何公告或官方文档，却凭借惊人的图像质量和角色一致性迅速登顶文生图和图片编辑榜单。

这一神秘模型引发了AI社区的广泛猜测，直到8月底，谷歌高管在社交平台上发布带有香蕉元素的帖子，谜底才最终揭晓——Nano Banana正是谷歌最新发布的文生图模型Gemini 2.5 Flash Image。

与之前大部分模型专注于“生成一张好图”的目标不同，Nano Banana定位为一个贴近真实工作流的AI编辑器。它能在多次编辑中保持角色和画面的高度一致，让用户只需自然语言就能完成精细的局部修改和多图合成。网友们在测试后纷纷表示，这可能是Photoshop时代的终结。

Nano Banana的核心突破在于其实现了从“拼参数”向“拼世界模型”的范式迁移。传统多模态模型往往通过增大参数规模来提升性能，但这种方式成本高昂且难以解决生成内容的精准性问题。

Nano Banana采用了一种称为“交替生成”的新范式。它将复杂指令拆分成多个步骤，每一步只做一个小调整，如先换衣服再改背景。这种方式让AI编辑不再“失忆”性的一次性乱改，而是带着每一轮修改的“记忆”，从而保持主体的一致性。

角色一致性是Nano Banana最引人注目的突破。传统模型在对图片进行反复修改时，常见“换了衣服，人也变了脸”的问题。而Nano Banana通过“人物锁定令牌”将目标角色映射到高维身份向量，在潜空间中充当锚点，约束生成网络还原对应像素分布，能将跨帧身份漂移误差降低两个数量级。

团队创新性地将文本渲染能力作为衡量模型质量的代理指标。研究员Robert Riachi指出，当一个模型学会正确生成文本结构时，它实际上也在学习如何在图像中生成其他类型的结构。这一指标为训练提供了客观、可量化的衡量标准，避免了人类评估的高成本和主观性。

Nano Banana采用原生多模态架构，将图像的理解与生成能力深度整合在同一个模型中。这种设计在不同模态和能力之间实现“正向迁移”，使模型从图像和视频中学到的物理世界知识可以弥补纯文本数据中的“报告偏见”。

Nano Banana实现了像素级完美编辑，能够在局部编辑时更好地保持图像其余部分不变。在多图融合方面，它能自动处理风格和逻辑一致性，让画面看起来浑然一体，而非简单“粘贴”。

有网友一次性输入包括模特照片、产品、布景元素在内的十几张图片，让Nano Banana进行融合设计，最终效果几乎可以媲美甚至超越专业广告设计公司。

Nano Banana支持多轮对话式编辑和风格混配。用户可以先让房间刷成薄荷绿，再补上书架、换个地毯，模型会一步步记住上下文，不会推翻之前成果。甚至可以将花瓣纹理应用到鞋子上，蝴蝶翅膀图案变成裙子，创造全新风格。

基于其强大能力，网友们开发出多种创新应用：

与竞争对手相比，Nano Banana在多个方面展现出优势。在LMArena的匿名测评中，它基本上全方位碾压了ChatGPT 4o、FLUX Kontext等竞争对手。其单张图像生成成本仅需0.039美元（不到3毛人民币），且生成速度比其他模型快几倍。

nano banana和即梦（Seedream）是当前两款备受关注的AI图像生成模型。为了让你能快速把握它们的核心区别，下面这个表格汇总了它们在关键维度上的不同表现。

对比维度	nano banana (Google)	即梦 4.0 (字节跳动)
核心定位	通用基础模型，强调角色一致性和复杂指令跟随	垂直领域精调模型，深度优化中文场景和电商应用
中文理解与生成	较弱，建议使用英文提示词效果更佳	优势显著，能深度理解中文语境、文化元素和复杂意境
图像质量与风格	角色一致性极高，细节还原能力强，艺术感和创意性较强	写实感和清晰度高，画面细腻实用，特别适合商业场景
特色功能	在复杂多图融合、精准局部编辑、特定艺术风格（如暗黑漫画）上表现稳定	中文文字生成准确率高，支持多比例适配、组图批量生成、局部圈选编辑
操作与性价比	通常需要科学上网，界面相对专业，免费额度少，高频使用需付费	国内直接访问，对新手极友好，每日登录赠送免费积分，性价比高

然而，Nano Banana并非完美。其中文能力尚未出现质的突破，生成的图片仍存在文字乱码现象。在多轮对话编辑中，面对复杂指令时可能出现理解偏差。此外，在图片分辨率、提示词审查严格度以及艺术审美方面，与Midjourney等专业模型仍存在差距。

要充分发挥Nano Banana的潜力，提示词的编写方式至关重要。谷歌官方强调，Nano Banana擅长“读故事”而非“堆关键字”。

谷歌提供了六大提示词模板：

逼真摄影：“A photorealistic [shot type] of [subject], [action/expression], set in [environment]...”
风格贴纸：“A [style] sticker of a [subject], featuring [key characteristics]...”
文字精准：“Create a [image type] for [brand] with the text “[Text]” in a [font style]...”
商业产品照：“A high-resolution, studio-lit product photograph of a [product] on a [surface]...”
极简留白：“A minimalist composition featuring a single [subject] positioned in the [corner]...”
漫画分格：“A single comic book panel in a [art style]. Foreground: [character + action]...”