在複雜構圖和多圖一致性方面，Nano Banana Pro 的表現如何？

Answer

Nano Banana Pro 在複雜構圖與多圖一致性方面的表現

Nano Banana Pro 作為 Google 推出的影像生成與編輯旗艦級模型，建構於 Gemini 3 Pro 之上，著重於「進階推理」與「真實世界知識」的結合，旨在輸出更具脈絡的視覺內容。相較於先前的版本，Pro 版定位於複雜構圖與高品質需求，讓使用者能更可靠地將抽象概念轉為具體視覺成果，涵蓋從原型設計到數據視覺化、手寫筆記轉流程圖等多種應用場景。

複雜構圖能力

Nano Banana Pro 強化在影像中直接生成文字的品質與可讀性，並支援多語言文本與在地化翻譯。憑藉 Gemini 3 對語意與深度的理解，模型能在海報、樣張或分鏡草圖中，生成更細緻的字型、材質與書法風格。此外，Pro 版在創作控制上提供更精細的局部編輯能力，例如選取、細修並轉換影像局部，調整鏡位與焦點、進行高階色彩分級，甚至改變場景光線。輸出端也支援多種長寬比，並支援 2K／4K 解析度，便於從社群到印刷的多平台投放。

多圖一致性

在多圖一致性方面，Pro 版可在複雜構圖中融合最多 14 張輸入圖像，並在合成場景中維持最多 5 位人物的相貌一致，適合品牌素材套用、草圖轉商品視覺、藍圖轉擬真 3D 結構等任務。然而，測試顯示，當要求越空泛時，生成內容也越空泛。相較於有明確目標（例如生成注音與拼音）的提示，說明文字變形的機率更高，但整體仍可讀。在生成強度上可觀察到，即使在相對極端的狀況（一次生成多圖、未提供 AI 文字內容），內文仍會出現「變體」，但整體已從難以辨識進化為可讀狀態。

觀看原始文章