Agentic Vision 的核心工作流程是一種主動式的圖片理解方法,它使用 Think → Act → Observe 循環來分析圖片。首先,模型會「Think」,分析圖片並規劃深入調查的方法。接著,模型會「Act」,撰寫 Python 程式碼來執行例如裁切、放大、標註或計算等操作。然後,模型會「Observe」,觀察程式碼的執行結果,包括生成的標註圖片。這個過程會重複進行,直到完成分析。
Agentic Vision 的技術核心是 Gemini 3 Flash 搭配 code_execution 工具,讓模型能夠編寫並執行 Python 程式碼。除了文字分析,它還能回傳模型生成的標註圖片。在使用流程上,使用者先傳送圖片,然後選擇分析方式,可以選擇「識別圖片」或「Agentic Vision」。若選擇 Agentic Vision,使用者需要輸入具體指令,例如「幫我把咖啡標記出來」,模型就會根據指令分析圖片並標註。
在實作上,圖片需要暫存,因為 LINE 的 Quick Reply 是異步的。因此,需要一個暫存圖片的機制(user_id → bytes)和一個等待使用者輸入指令的狀態。Quick Reply 的實作使用 LINE SDK 的 PostbackAction。Agentic Vision 的分析核心使用 Gemini 3 Flash 模型,並設定相關參數,例如溫度、最大輸出 Token 數、工具和 ThinkingConfig。最後,由於 LINE 的 ImageSendMessage 需要公開的 HTTPS URL,因此在 FastAPI 上建立一個圖片 serving endpoint,提供暫存的標註圖片給 LINE 下載。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容