2026-01-15 06:42:11|kindsoft |来源:kindsoft
美东时间20日周四,谷歌宣布依托Gemini对旗下备受欢迎的图像生成与编辑模型进行升级。此次全新推出的Nano Banana Pro模型,宣称可达到“摄影棚级别”的精度与控制水准,在文本渲染的准确性、图像分辨率以及专业操控能力等方面均实现了明显提升,目标是推动AI图像工具从消费级应用场景拓展至专业设计领域。
Nano Banana Pro能够生成分辨率最高达4K的图像,在多语言场景中可以精准渲染文本,还能让用户如同操作专业相机一般,对拍摄角度、景深、色彩以及光照等参数进行调控。谷歌Labs与Gemini的副总裁Josh Woodward称,这款产品在信息图表制作、幻灯片设计等领域有着出色的表现,能够保持最多五个角色和十四个物体的一致性。
谷歌的全球免费Gemini用户将能够在配额限制内使用Nano Banana Pro,超出配额后将自动切换回旧版模型,付费AI计划订阅用户则拥有更高使用额度。该模型已集成至Canva、Figma、Adobe Firefly和Photoshop等主流设计工具。
谷歌还同步推出了AI内容溯源功能。用户可在Gemini应用程序App中上传图像,查询其是否由谷歌AI生成,该功能未来将扩展至音频和视频。此举是谷歌将AI技术商业化的最新尝试,也是其在生成式AI竞赛中追赶OpenAI的重要一步。
谷歌本周在AI领域动作频频,势头强劲,此次发布正是这一态势的延续。周二推出的Gemini 3在推理与编码能力上取得“巨大跃升”,受此利好推动,周三谷歌母公司Alphabet的股价创下历史新高。到了周四,Nano Banana Pro正式官宣,当天早盘股价一度上涨近5%,不过午盘时随大盘走势转跌,最终收盘下跌约1%,暂时告别了周三刚刚刷新的收盘最高纪录。
攻克AI拼写难题,文本渲染实现突破
AI图像生成模型长期面临的一个核心挑战是文本渲染准确性。虽然部分模型随时间推移改进,但在生成包含多个文本短语的图像时,拼写错误和字体扭曲仍然常见,这限制了其作为专业设计工具的潜力。
Nano Banana Pro直接针对这一问题提供解决方案。谷歌发言人表示,新模型在渲染最终图像前,能够更好地规划文本位置、字体特征及其与其他图像元素的空间关系。该技术可将菜谱文本转换为图解流程图,或可视化天气、体育等实时信息。
Nano Banana Pro具备生成清晰可辨文本的能力,用户可以描述想要的字体类型,或者模拟不同的手写风格,还能在图像里生成本地化文本或者翻译文字。这让用户能够制作面向国际市场的产品展示、海报以及信息图表。谷歌在博客文章中着重指出,锐利且清晰的文本有助于用户打造富有冲击力的海报、复杂的图表和详细的产品模型。
不过谷歌也提醒用户注意局限性。新模型在生成信息图表、标注图表或呈现复杂数据时,可能误读信息或产生事实错误。虽然能够生成和翻译多语言文本,但在语法、拼写、文化细微差别或惯用语方面仍可能出现问题。用户应始终仔细检查生成的图像及其中文本的准确性。
专业级控制功能,分辨率跃升至4K
Nano Banana Pro为专业用户提供了前所未有的精细控制能力。用户可探索不同拍摄角度和类型,包括广角、全景、特写等,还能调整景深以聚焦图像中的不同主体。
在色彩和光照方面,用户可调整色调分级和光照方向,甚至可将场景从白天转换为夜晚。
模型支持1K、2K和4K三种分辨率的精准放大,并能随意切换纵横比以适配不同平台或用途。
分辨率提升的代价是成本增加和速度下降。原Nano Banana模型生成1024像素图像的成本为0.039美元,而新模型生成1080p或2K图像的成本为0.139美元,4K图像为0.24美元。
在素材一致性方面,模型可在单一工作流程中保持最多五个角色的一致性和相似度,以及最多十四个物体的保真度。对于希望在营销活动中融入自身设计的品牌,模型可接收最多14张参考图像,并在用户文本提示描述的新场景中重新编排它们,同时保留输入素材的特征。
模型还能将草图转化为物体,将手绘笔记转为图表,将创意变成3D渲染建筑。用户可一次创建多张图像,快速高效地探索和审查创意选项。谷歌表示,模型还能创建具有真实细节的风景、植物、人物和动物的逼真图像。
广泛产品集成,付费用户获更高配额
Nano Banana Pro正逐步在谷歌现有的AI工具中铺开应用。Gemini App会默认采用这款新模型来生成图像,免费订阅的用户能在规定的使用限额内体验,一旦超出限额就会自动切换回原来的Nano Banana模型。而Google AI Plus、Pro以及Ultra的订阅用户,则能获得更高的生成额度,此外这些付费用户还可以在Notebook LM里使用该模型。
在美国地区,AI Pro与Ultra订阅用户能够借助AI模式在搜索功能里访问该模型。其中,Ultra订阅用户还可以在谷歌视频工具Flow中使用这一模型;Workspace客户则能在Google Slides和Vids中使用它。而开发者们可通过Gemini API、Google AI Studio以及新推出的IDE Antigravity来调用Nano Banana Pro。
谷歌已将SynthID技术融入Gemini应用,该技术可用于为AI生成的图像添加水印并进行检测。用户上传图像后,聊天机器人会告知该图像是否由谷歌图像模型生成或修改。目前,谷歌为所有AI工具生成的媒体都嵌入了不可见的数字水印;免费或Pro方案订阅用户生成的图像还会带有可见水印,而订阅最高级Ultra方案的用户则可以移除可见水印。不过,谷歌并未说明是否计划支持C2PA等其他AI水印标准。
用户增长强劲,商业化进程提速
Nano Banana Pro的前身Nano Banana今年8月面世后在社交媒体上迅速走红,用户将自己或宠物的照片转化为超写实3D小雕像。Woodward在9月的X帖子中写道,该产品帮助Gemini应用在四天内新增1300万用户。
据谷歌发布的数据,Gemini App目前每月活跃用户超过6.5亿,由Gemini驱动的AI Overviews每月用户达20亿。相比之下,OpenAI CEO Sam Altman在10月表示,ChatGPT每周活跃用户达8亿。
Woodward本周四表示,谷歌AI产品需求持续增长,许多用户注册Gemini订阅计划以获得"这些高级模型的更高限额"。他表示,"我们看到大量用户涌向这些产品,这实际上是最好的问题——需求很大,我们正在努力弄清楚如何服务这些需求。"
此次发布意味着谷歌在AI技术商业化进程中又迈出了新的一步。自从2022年ChatGPT问世并掀起生成式AI领域的竞争浪潮后,谷歌便一直在积极追赶OpenAI的步伐。就在上周,OpenAI对外公布了针对GPT-5模型的两项优化升级,让该模型“在默认状态下更显亲切,对话感也更强”,同时“在日常使用场景中变得更高效、更易于用户理解”。当下,ChatGPT在苹果App Store的免费应用排行榜上占据榜首位置,而Gemini则位列第二。
Woodward表示,公司计划继续扩大AI产品规模,重点包括AI电影制作工具Flow和目前作为有限研究预览版提供的"世界构建"模型Genie。