Gemini 3 Flash 的 Agentic Vision 功能讓 AI 模型不再只是被動「看」圖片,而是能主動進行分析和操作。其核心機制是透過「Think → Act → Observe」循環,使模型能夠分析圖片,規劃深入調查的方式,並撰寫 Python 程式碼來執行裁切、放大、標註等操作。模型接著觀察程式碼的執行結果,包括生成的標註圖片,並重複以上步驟直到完成分析。
此功能的技術核心在於 Gemini 3 Flash 模型,並利用 code_execution 工具,使模型能夠編寫並執行 Python 程式碼。透過 API 呼叫啟用 Agentic Vision 時,可以設定模型、圖片內容以及指令,例如「幫我把咖啡標記出來」。回應包含多種部分,如文字分析、程式碼、執行結果以及最重要的模型生成的標註圖片。
在實際應用中,使用者可以先選擇圖片分析的模式,例如「識別圖片」或「Agentic Vision」。選擇 Agentic Vision 後,使用者需要提供具體指令,例如「標記出所有人」或「數一數有幾隻貓」。模型會根據指令分析圖片並生成標註圖片,最終將標註後的圖片傳回給使用者。這個過程需要暫存圖片,因為 LINE 的 Quick Reply 是異步的,需要一個機制來保存使用者上傳的圖片,直到使用者輸入指令後再進行處理。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容