2026-02-17 04:55:12|kindsoft |来源:kindsoft
Google 发布的Nano Banana Pro使用指南,对专业图像生成模型Nano Banana Pro的核心功能与应用技巧展开了介绍。该指南着重凸显了此模型在专业资产生成领域的突破性进展,其涵盖的十大核心能力包括文本渲染、角色一致性保障、视觉合成、与Google搜索的联动、高级编辑操作、2D与3D格式转换以及高分辨率图像输出等。同时,指南中还详细列举了各项功能对应的最佳实践提示词示例,旨在引导用户借助自然语言指令,以类似创意总监的方式与模型进行交互,从而高效地创作出高质量的商业级图像内容。

Nano-Banana Pro相较于前几代产品实现了重大飞跃,从“娱乐性”图像生成升级到“功能性”专业资产制作。在文本渲染、字符一致性、视觉合成、世界知识(搜索)和高分辨率 (4K) 输出方面表现卓越。
本文内容包括:
0. 提示词黄金法则
1. 文本渲染、信息图表和视觉合成
2. 角色一致性与病毒式传播的缩略图
3.利用谷歌搜索进行真实性关联
4. 高级编辑、修复和着色
5. 维度转换(2D↔3D)
6. 高分辨率和纹理增强
7. 思考与推理能力
8. 一次性故事板和概念设计
9. 结构控制与布局引导
10.进阶指南
提示的黄金法则
Nano-Banana Pro 是具备思考能力的模型能匹配关键词,支持理解意图、物理原理和构图。为获得最佳效果,摒弃传统标签指令(例如:狗、公园、4K、逼真),将它视为设计伙伴进行创作。
精修胜于重生成
模型擅长理解对话式修改指令。如果图片已有 80% 符合预期,就不要从头开始生成新图。直接提出具体调整需求即可。
例如:“效果不错,请将光线调整为日落氛围,将文字改为霓虹蓝色。”使用自然语言与完整句式
如同向一位人类设计师阐述需求那样与模型对话。使用规范的语法和生动的形容词。
❌ 反面示例:“酷炫汽车,霓虹,城市,夜晚,8K。”
✅ 正面示例:“一个电影感的广角镜头:一辆未来主义跑车在夜间的东京雨街上飞驰,霓虹招牌的灯光在湿漉漉的 pavement 和车身的金属底盘上反射出斑斓光彩。”
描述需具体并具象化
提示词越模糊,生成的效果就越不好。请明确界定主体、环境、光线与氛围。
主体:不应只说“一位女士”,应描述为“一位身着古着风香奈儿款式套装的优雅老妇人”。材质:需描绘纹理。例如“哑光质感”、“拉丝不锈钢”、“柔软天鹅绒”或“褶皱纸张”。
提供背景信息(“为何”与“为谁”)
由于模型具备“思考”能力,提供背景有助于做出合乎逻辑的艺术决策。
示例:“为一本巴西高端美食烹饪书创作一份三明治的图像。”(模型将据此推断:需要专业的摆盘、浅景深效果及完美的光影。)
文本渲染、信息图表和视觉合成
Nano-Banana Pro 具备先进的生成能力,能渲染清晰易读、风格化的文本,将复杂的信息合成为视觉格式。
最佳实践建议:
信息压缩:可要求模型将密集的文字或PDF内容“压缩”成视觉图表。风格指定:明确说明你想要的风格,例如“精美的杂志排版”、“技术示意图”或“手绘白板风格”。文字引用:将需要展示的具体文字用引号明确指出。
提示词示例:
财报信息图(数据输入):
[输入谷歌最新财报的PDF文件]
“请生成一份简洁、现代的信息图,总结本财报中的关键财务亮点。需包含‘营收增长’与‘净利润’的图表,将CEO的核心引述以风格化的引用框形式突出显示。”

复古信息图:
“制作一张 20 世纪 50 年代风格的复古信息图,介绍美国餐馆的历史。信息图应包含‘食物’、‘点唱机’和‘装饰’等独立部分。确保所有文字清晰易读,符合当时的风格。”

技术图纸:
“绘制一份正投影蓝图,以平面图、立面图和剖面图的形式描述该建筑物。使用专业建筑字体清晰标注‘北立面’和‘正门’。格式为16:9。”

白板总结(教学用途):
用手绘白板图的形式总结“Transformer神经网络架构”的概念,适用于大学讲座。编码器和解码器模块使用不同颜色的马克笔,并清晰地标明“自注意力”和“前馈”。

角色一致性与病毒式缩略图
Nano-Banana Pro 最高支持14张参考图(其中6张可实现高保真度)。这使其能实现“身份锁定”功能——将特定人物或角色无缝置入新场景,且面部特征保持不变。
最佳实践建议:
身份锁定:明确指令:“确保人物面部特征与图1完全一致。”表情与动作:在锁定身份的同时,可自由描述情绪或姿态的变化。病毒式构图:一次性将主体与醒目的图形、文字结合,生成极具传播力的构图。
提示示例:
“病毒式缩略图”(标识 + 文字 + 图形):
使用图 1 中的人物设计一个病毒式视频缩略图。面部一致性:保持人物面部特征与图 1 完全相同,但改变其表情,使其看起来兴奋和惊讶。动作:将人物置于画面左侧,手指指向画面右侧。主体:在右侧放置一张美味的牛油果吐司的高清图片。图形:添加一个醒目的黄色箭头,连接人物的手指和吐司。文字:在中间叠加醒目的流行风格文字:“3minuteFudede!”(3 分钟搞定!)。使用粗白线和阴影。背景:模糊明亮的厨房背景。高饱和度和高对比度。

“毛茸茸的朋友”情景(群体一致性):
[输入3张不同毛绒玩具的图片]
请创作一个有趣的十页故事,讲述这三个毛茸茸的小伙伴去热带度假的故事。故事情节跌宕起伏,扣人心弦,最终以温馨的结局收尾。三个角色的服装和形象要保持一致,但他们的表情和角度在十幅图中要有所变化。每幅图中每个角色只能出现一次。

品牌资产创造:
[输入一张产品图片]
“请创作9张精美的时尚大片,风格应如同获奖时尚杂志大片。请以此为品牌风格参考,需在风格上进行细微调整和丰富变化,展现专业设计感。请一次创作一张,共创作九张图片。”

利用谷歌搜索进行真实性关联
Nano-Banana Pro 能调用谷歌搜索,依据实时数据、时事新闻或事实核查生成图像,减少在时效性话题上出现信息错漏。
最佳实践建议:
可要求它将动态数据(如天气、股市、新闻)进行可视化呈现。模型在生成图像前,会先对搜索结果进行“思考”(推理),再开始创作。
提示示例:
活动可视化:
“根据当前的旅游趋势,生成一张信息图,展示2025年游览美国国家公园的最佳时间。”

高级编辑、修复和着色
模型擅长通过对话式指令完成复杂编辑,包括“局部重绘”(移除/添加对象)、“图像修复”(修复老照片)、“智能上色”(漫画/黑白照片)及“风格转换”。
最佳实践:
语义化指令:无需手动涂抹蒙版,自然描述修改需求即可。物理逻辑理解:可提出复杂指令如“将玻璃杯填满液体”,检验其物理模拟生成能力。
示例提示:
物体移除与补全:
“从这张照片的背景中移除游客,并用与周围环境相匹配的合理纹理(鹅卵石和店面)填充空间。”

漫画/漫画上色:
[输入黑白漫画分镜]
“为这幅漫画分镜上色。使用鲜艳的动漫风格配色方案。确保能量光束的照明效果呈现霓虹蓝色,并且角色的服装颜色与其官方配色一致。”

本地化(文本翻译+文化适应):
[输入一张伦敦公交车站广告的图片]
“将此概念本地化到东京场景,包括将标语翻译成日语。将背景更改为夜晚熙熙攘攘的涩谷街道。”

照明/季节控制:
[输入一张夏季房屋的图片]
“将此场景转换为冬季。保持房屋建筑结构完全相同,但在屋顶和院子里添加积雪,并将照明更改为寒冷阴沉的午后。”

维度转换(2D ↔ 3D)
一项强大的新功能,能将二维平面图转化为三维可视化模型,反过来也可以。对于室内设计师、建筑师乃至 meme 创作者来说,都十分理想。
提示示例:
2D平面图转3D室内设计效果图:
根据上传的2D平面图,生成一张专业的室内设计效果图。布局:采用拼贴画形式,顶部为一张主图(客厅广角视图),下方为三张小图(主卧、家庭办公室和3D俯视图)。风格:所有图片均采用现代简约风格,搭配温暖的橡木地板和米白色墙面。质量:照片级渲染,柔和的自然光。

2D 到 3D 表情包转换:
“将‘一切都好’狗狗表情包转换成逼真的 3D 渲染图。保持构图不变,但让狗狗看起来像毛绒玩具,火焰看起来像真实的火焰。”

高分辨率和纹理增强
Nano-Banana Pro 原生支持1K至4K的图像生成。此特性对于表现细腻纹理或制作大尺寸印刷品尤为实用。
最佳实践建议:
高分辨率请求:若您的API或界面允许,请明确要求生成2K或4K的高分辨率图像。高保真细节描述:在提示词中描述诸如细微瑕疵、复杂表面纹理等高保真细节。
4K纹理生成:
“利用原生高保真输出,打造令人叹为观止、充满氛围的苔藓森林地面环境。掌控复杂的光照效果和细腻的纹理,确保每一根苔藓和每一束光线都以像素级分辨率渲染,满足4K壁纸的需求。”

复杂逻辑(思考模式):
“制作一张超逼真的高级芝士汉堡信息图,将其拆解,展现烤过的奶油蛋卷面包的质地、肉饼煎至焦香的外皮以及闪闪发光的融化芝士。为每一层标注其风味特征。”

思考与推理能力
Nano-Banana Pro 默认采用“思考”模式,模型会生成一些中间的思考图像(不计费),以便在渲染最终输出之前优化构图。有助于进行数据分析和解决视觉问题。
示例提示:
解方程:
在白板上用 C 语言求解方程 log_{x^2+1}(x^4-1)=2。请清晰地写出解题步骤。

视觉推理:
“分析这张房间图片,生成一张‘之前’的图片,展示房间在施工期间可能的样子,包括框架和未完成的石膏板。”

一次性故事板和概念设计
您无需借助分格模板,即可直接生成序列图像或故事板,确保在单次会话中构建出连贯的叙事流。此功能广泛应用于制作“电影概念艺术”(例如,发布即将上映影片的虚假泄露图)。
提示示例:
请创作一个引人入胜的九部分故事,包含九张图片,故事中需出现一位女性和一位男性,他们正在拍摄一部屡获殊荣的豪华行李箱广告。故事应有跌宕起伏的情感,最后以一位女性手持品牌标识的优雅照片结尾。男女主角的身份和着装必须保持一致,但可以从不同的角度和距离拍摄。请逐一生成图片。请确保每张图片均为16:9横向格式。

结构控制与布局引导
参考图的应用不仅限于角色或待编辑对象。您可以通过它们严格控制最终图像的构图与布局。对于需要将草稿、线框图或特定网格转化为精美资产的设计师而言,无疑是一项颠覆性功能。
最佳实践建议:
草案与草图:上传手绘草图,精确指定文本和物体的位置。线框图:使用现有布局或线框图的截图,生成高保真UI效果图。网格:利用网格图片,驱动模型生成专为瓦片式游戏或LED显示屏设计的图像资产。
提示示例:
从草图到最终广告:
“根据此草图为[产品]创作一个广告。”

根据线框图创建 UI 模型:
“按照以下准则为[产品]创建模型。”

像素艺术与LED显示屏:
“请绘制一个独角兽像素画,使其完美契合这幅 64×64 的网格图像。使用高对比度的颜色。”
(提示:开发人员随后可以通过编程方式提取每个单元格的中心颜色,以驱动连接的 64×64 LED 点阵显示屏)。

精灵图示例:
“一位女性在无人机上做后空翻的精灵图,3×3网格,逐帧动画序列,正方形宽高比。请完全按照附件参考图像的结构进行绘制。”
(提示:您可以提取每个单元格并制作成 GIF 动画)


进阶指南
既然已掌握了提示词的基本要领,接下来可以开始构建:
在界面中实验:Google AI Studio是测试提示词和参数的最快捷方式。查看精彩应用:在应用画廊中,体验由 Nano-Banana 驱动的酷炫应用。将创意转化为应用:在 AI Studio Build 中,将您最成功的提示词轻松转化为可分享给朋友的应用。构建应用程序:准备编写代码?请查阅开发者指南或Gemini API 示例库,获取指南和代码片段。技术深度探索:阅读完整的Gemini API文档,了解关于速率限制、定价和集成等详细信息。
英文原文
Nano-Banana Prois a significant leap forward from previous generation models, moving from “fun” image generation to “functional” professional asset production. It excels intext rendering, character consistency, visual synthesis, world knowledge (Search), and high-resolution (4K) output.
Following the developer guide on how to get started with AI Studio and the API, this guide covers the core capabilities and how to prompt them effectively.
By Guillaume Vernade, Gemini Developer Advocate, Google DeepMind
Here’s what you’ll find in this article:
提示词黄金法则文本渲染、信息图表与视觉合成角色一致性与爆款缩略图借助谷歌搜索锚定信息高级编辑、修复与上色维度转换(2D ↔ 3D)高分辨率与纹理思考与推理单提示分镜脚本与概念艺术结构控制与布局引导接下来是什么??第0节:提示词黄金法则
Nano-Banana Pro is a “Thinking” model. It doesn’t just match keywords; it understands intent, physics, and composition. To get the best results, stop using “tag soups” (e.g., dog, park, 4k, realistic) and start acting like a Creative Director.
Edit, Don’t Re-roll
The model is exceptionally good at understanding conversational edits. If an image is 80% correct, do not generate a new one from scratch. Instead, simply ask for the specific change you need.
Example: “That’s great, but change the lighting to sunset and make the text neon blue.”
Use Natural Language & Full Sentences
Talk to the model as if you were briefing a human artist. Use proper grammar and descriptive adjectives.
❌Bad: “Cool car, neon, city, night, 8k.”
✅Good: “A cinematic wide shot of a futuristic sports car speeding through a rainy Tokyo street at night. The neon signs reflect off the wet pavement and the car’s metallic chassis.”
Be Specific and Descriptive
Vague prompts yield generic results. Define the subject, the setting, the lighting, and the mood.
Subject: Instead of “a woman,” say “a sophisticated elderly woman wearing a vintage chanel-style suit.”
Materiality: Describe textures. “Matte finish,” “brushed steel,” “soft velvet,” “crumpled paper.”
Provide Context (The “Why” or “For whom”)
Because the model “thinks,” giving it context helps it make logical artistic decisions.
Example: “Create an image of a sandwich for a Brazilian high-end gourmet cookbook.” (The model will infer professional plating, shallow depth of field, and perfect lighting).
Text Rendering, Infographics & Visual Synthesis
Nano-Banana Pro has SOTA capabilities for rendering legible, stylized text and synthesizing complex information into visual formats.
Best Practices:
Compression: Ask the model to “compress” dense text or PDFs into visual aids.Style: Specify if you want a “polished editorial,” a “technical diagram,” or a “hand-drawn whiteboard” look.Quotes: Clearly specify the text you want in quotes.
Example Prompts:
Earnings Report Infographic (Data Ingestion):
[Input PDF of Google’s latestearnings report]
“Generate a clean, modern infographic summarizing the key financial highlights from this earnings report. Include charts for ‘Revenue Growth’ and ‘Net Income’, and highlight the CEO’s key quote in a stylized pull-quote box.”

Retro Infographic:
“Make a retro, 1950s-style infographic about the history of the American diner. Include distinct sections for ‘The Food,’ ‘The Jukebox,’ and ‘The Decor.’ Ensure all text is legible and stylized to match the period.”

Technical Diagram:
“Create an orthographic blueprint that describes this building in plan, elevation, and section. Label the ‘North Elevation’ and ‘Main Entrance’ clearly in technical architectural font. Format 16:9.”

Whiteboard Summary (Educational):
“Summarize the concept of ‘Transformer Neural Network Architecture’ as a hand-drawn whiteboard diagram suitable for a university lecture. Use different colored markers for the Encoder and Decoder blocks, and include legible labels for ‘Self-Attention’ and ‘Feed Forward’.”

Character Consistency & Viral Thumbnails
Nano-Banana Pro supports up to 14 reference images (6 with high fidelity). This allows for “Identity Locking”—placing a specific person or character into new scenarios without facial distortion.
Best Practices:
Identity Locking: Explicitly state: “Keep the person’s facial features exactly the same as Image 1.”Expression/Action: Describe the change in emotion or pose while maintaining the identity.Viral Composition: Combine subjects with bold graphics and text in a single pass.
Example Prompts:
The “Viral Thumbnail” (Identity + Text + Graphics):
以图1中的人物为主体设计一款能引发传播效应的视频缩略图。面部一致性要求:人物的五官需与图1完全一致,但要将表情调整为兴奋且惊讶的状态。动作设计:让人物位于画面左侧,手指指向画面右侧。主体元素:在画面右侧放置一张高质量的美味牛油果吐司图片。图形元素:添加一个醒目的黄色箭头,连接人物的手指与吐司。文字设计:在画面中间叠加大号的流行风格文字“3分钟搞定!”,文字需带有粗白色描边和投影效果。背景设定:采用模糊处理的明亮厨房场景,整体画面需具备高饱和度和高对比度的视觉效果。

The “Fluffy Friends” Scenario (Group Consistency):
[Input 3 images of different plush creatures]
用这3只毛茸茸的小伙伴去热带度假的设定,创作一个由10个部分组成的趣味故事。整个故事要全程充满惊险感,包含情绪上的起伏波动,最终以欢乐的时刻收尾。要保持3个角色的服装和身份始终一致,但在10张图片里,它们的表情和拍摄角度得各不相同。注意每张图片里每个角色只能出现一次。

Brand Asset Generation:
[Input 1 image of a product]
“Create 9 stunning fashion shots as if they’re from an award-winning fashion editorial. Use this reference as the brand style but add nuance and variety to the range so they convey a professional design touch. Please generate nine images, one at a time.”

Grounding with Google Search
Nano-Banana Pro uses Google Search to generate imagery based on real-time data, current events, or factual verification, reducing hallucinations on timely topics.
Best Practices:
Ask for visualizations of dynamic data (weather, stocks, news).The model will “Think” (reason) about the search results before generating the image.
Example Prompts:
Event Visualization:
“Generate an infographic of the best times to visit the U.S. National Parks in 2025 based on current travel trends.”

Advanced Editing, Restoration & Colorization
The model excels at complex edits via conversational prompting. This includes “In-painting” (removing/adding objects), “Restoration” (fixing old photos), “Colorization” (Manga/B&W photos), and “Style Swapping.”
Best Practices:
Semantic Instructions: You do not need to manually mask; simply tell the model what to change naturally.Physics Understanding: You can ask for complex changes like “fill this glass with liquid” to test physics generation.
Example Prompts:
Object Removal & In-painting:
“Remove the tourists from the background of this photo and fill the space with logical textures (cobblestones and storefronts) that match the surrounding environment.”

Manga/Comic Colorization:
[Input black and white manga panel]
“Colorize this manga panel. Use a vibrant anime style palette. Ensure the lighting effects on the energy beams are glowing neon blue and the character’s outfit is consistent with their official colors.”

Localization (Text Translation + Cultural Adaptation):
[Input image of a London bus stop ad]
“Take this concept and localize it to a Tokyo setting, including translating the tagline into Japanese. Change the background to a bustling Shibuya street at night.”

Lighting/Seasonal Control:
[Input image of a house in summer]
“Turn this scene into winter time. Keep the house architecture exactly the same, but add snow to the roof and yard, and change the lighting to a cold, overcast afternoon.”

Dimensional Translation (2D ↔ 3D)
A powerful new capability is translating 2D schematics into 3D visualizations, or vice versa. This is ideal for interior designers, architects, and meme creators.
Example Prompts:
2D Floor Plan to 3D Interior Design Board:
根据你上传的2D平面图,生成一张包含专业室内设计内容的展示板图片。布局要求如下:整体采用拼贴形式,顶部放置一张大幅主图(客厅区域的广角透视效果),下方排列三张较小的图片,分别对应主卧、家庭办公室场景,以及3D俯视角度的平面图。风格方面,所有图片需统一采用现代极简风格,搭配暖橡木材质的地板与米白色墙面。渲染质量需达到照片级真实感,同时运用柔和的自然光线效果。

2D to 3D Meme Conversion:
“Turn the ‘This is Fine’ dog meme into a photorealistic 3D render. Keep the composition identical but make the dog look like a plush toy and the fire look like realistic flames.”

High-Resolution & Textures
Nano-Banana Pro supports native 1K to 4K image generation. This is particularly useful for detailed textures or large-format prints.
Best Practices:
Explicitly request high resolutions (2K or 4K) if your API/Interface allows.Describe high-fidelity details (imperfections, surface textures).
4K Texture Generation:
“Harness native high-fidelity output to craft a breathtaking, atmospheric environment of a mossy forest floor. Command complex lighting effects and delicate textures, ensuring every strand of moss and beam of light is rendered in pixel-perfect resolution suitable for a 4K wallpaper.”

Complex Logic (Thinking Mode):
“Create a hyper-realistic infographic of a gourmet cheeseburger, deconstructed to show the texture of the toasted brioche bun, the seared crust of the patty, and the glistening melt of the cheese. Label each layer with its flavor profile.”

Thinking & Reasoning
Nano-Banana Pro defaults to a “Thinking” process where it generates interim thought images (not charged) to refine composition before rendering the final output. This allows for data analysis and solving visual problems.
Example Prompts:
Solve Equations:
“Solve log_{x^2+1}(x^4-1)=2 in C on a white board. Show the steps clearly.”

Visual Reasoning:
“Analyze this image of a room and generate a ‘before’ image that shows what the room might have looked like during construction, showing the framing and unfinished drywall.”

One-Shot Storyboarding & Concept Art
You can generate sequential art or storyboards without a grid, ensuring a cohesive narrative flow in a single session. This is also popular for “Movie Concept Art” (e.g., fake leaks of upcoming films).
Example Prompt:
打造一个由9张图片构成、令人沉迷且充满吸引力的9段式故事,故事围绕一支获奖的奢华行李箱广告中的一男一女展开。情节需包含情感的起伏,最终以女子与品牌标志同框的优雅画面收尾。男女主角的身份及着装必须全程保持一致,但可以且应当从不同角度和距离进行呈现。请逐一生成图片,确保每张图片均为16:9的横版格式。

Structural Control & Layout Guidance
输入的图像并不局限于角色参考或待编辑的主体。你可以利用它们来严格把控最终输出的构图与布局。这对于需要将餐巾纸草图、线框图或特定网格布局转化为精致资产的设计师而言,无疑是一项颠覆性的改变。
Best Practices:
草稿与草图:上传手绘草图,明确文本和元素的摆放位置。线框图:利用现有布局的截图或线框图,生成高保真的UI原型图。网格图:使用网格图片,让模型为 tile 类游戏或 LED 显示屏生成素材。
Sketch to Final Ad:
“Create a ad for a [product] following this sketch.”

UI Mockup from Wireframe:
“Create a mock-up for a [product] following these guidelines.”

Pixel Art & LED Displays:
“Generate a pixel art sprite of a unicorn that fits perfectly into this 64×64 grid image. Use high contrast colors.”
(Tip: Developers can then programmatically extract the center color of each cell to drive a connected 64×64 LED matrix display).

Sprites:
“Sprite sheet of a woman doing a backflip on a drone, 3×3 grid, sequence, frame by frame animation, square aspect ratio. Follow the structure of the attached reference image exactly..”
(Tip: You can then extract each cell and make a gif)


What’s Next?
Now that you have mastered the basics of prompting, here is how you can start building:
在UI界面中进行体验:Google AI Studio是测试提示词与参数设置最快捷的方式。你可以在应用商店里查看由Nano-banana技术驱动的超酷应用。把你的创意想法转化为应用:借助AI Studio Build工具,将你最满意的提示词变成能轻松分享给好友的应用。开发应用:准备好编写代码了吗?可以查看开发者指南或Gemini API食谱,获取相关指南和代码片段。技术深度解析:阅读完整的Gemini API文档,了解速率限制、定价和集成等详细信息。