Gemini 3 Flash 的 Agentic Vision 功能，具體是如何讓模型主動撰寫 Python 程式碼來處理圖片的？

Gemini 3 Flash 的 Agentic Vision 如何主動撰寫 Python 程式碼處理圖片

Gemini 3 Flash 的 Agentic Vision 功能讓 AI 模型不再只是被動「看」圖片，而是能主動進行分析和操作。其核心機制是透過「Think → Act → Observe」循環，使模型能夠分析圖片，規劃深入調查的方式，並撰寫 Python 程式碼來執行裁切、放大、標註等操作。模型接著觀察程式碼的執行結果，包括生成的標註圖片，並重複以上步驟直到完成分析。

Agentic Vision 的技術核心與 API 呼叫

此功能的技術核心在於 Gemini 3 Flash 模型，並利用 code_execution 工具，使模型能夠編寫並執行 Python 程式碼。透過 API 呼叫啟用 Agentic Vision 時，可以設定模型、圖片內容以及指令，例如「幫我把咖啡標記出來」。回應包含多種部分，如文字分析、程式碼、執行結果以及最重要的模型生成的標註圖片。

實際應用與使用者互動設計

在實際應用中，使用者可以先選擇圖片分析的模式，例如「識別圖片」或「Agentic Vision」。選擇 Agentic Vision 後，使用者需要提供具體指令，例如「標記出所有人」或「數一數有幾隻貓」。模型會根據指令分析圖片並生成標註圖片，最終將標註後的圖片傳回給使用者。這個過程需要暫存圖片，因為 LINE 的 Quick Reply 是異步的，需要一個機制來保存使用者上傳的圖片，直到使用者輸入指令後再進行處理。

Gemini 3 Flash 的 Agentic Vision 功能，具體是如何讓模型主動撰寫 Python 程式碼來處理圖片的？ | 數位時代

Gemini 3 Flash 的 Agentic Vision 如何主動撰寫 Python 程式碼處理圖片

Agentic Vision 的技術核心與 API 呼叫

實際應用與使用者互動設計