Gemini 2.5 Flash Image 在多圖融合與角色一致性方面取得了哪些突破？

Answer

Gemini 2.5 Flash Image 在多圖融合與角色一致性的突破

Gemini 2.5 Flash Image 是 Google 最新推出的影像生成模型，主要針對影像細節處理與語意理解進行優化。其在多圖融合和角色一致性方面取得顯著突破，讓 AI 影像生成更具實用價值。

多圖融合與角色一致性的技術優勢

Gemini 2.5 Flash Image 的核心功能之一是能同時處理多張輸入圖片，並將其融合為全新的場景或物件。更重要的是，它能確保主角或產品在多次生成及不同環境中保持視覺一致性，解決了過去 AI 在跨場景重現同一角色外觀時遇到的困難。舉例來說，即使修改 Prompt，也能避免角色外貌發生變化。

實際應用與成本考量

開發者現在可以透過 Gemini API 和 Google AI Studio 使用 Gemini 2.5 Flash Image 模型。生成一張圖片的成本約為新台幣 1.2 元。此外，所有生成的圖片皆嵌入 SynthID 隱形浮水印，確保 AI 創作的可追溯性，這對於提高 AI 生成內容的透明度和可信度至關重要。SynthID 技術不僅能識別 AI 生成內容，還有助於打擊不實資訊的傳播。

觀看原始文章