Agentic Vision 的核心工作流程為何？

Agentic Vision 的核心工作流程

Agentic Vision 的核心工作流程是一種主動式的圖片理解方法，它使用 Think → Act → Observe 循環來分析圖片。首先，模型會「Think」，分析圖片並規劃深入調查的方法。接著，模型會「Act」，撰寫 Python 程式碼來執行例如裁切、放大、標註或計算等操作。然後，模型會「Observe」，觀察程式碼的執行結果，包括生成的標註圖片。這個過程會重複進行，直到完成分析。

Agentic Vision 的技術核心與功能設計

Agentic Vision 的技術核心是 Gemini 3 Flash 搭配 code_execution 工具，讓模型能夠編寫並執行 Python 程式碼。除了文字分析，它還能回傳模型生成的標註圖片。在使用流程上，使用者先傳送圖片，然後選擇分析方式，可以選擇「識別圖片」或「Agentic Vision」。若選擇 Agentic Vision，使用者需要輸入具體指令，例如「幫我把咖啡標記出來」，模型就會根據指令分析圖片並標註。

Agentic Vision 的實作細節

在實作上，圖片需要暫存，因為 LINE 的 Quick Reply 是異步的。因此，需要一個暫存圖片的機制（user_id → bytes）和一個等待使用者輸入指令的狀態。Quick Reply 的實作使用 LINE SDK 的 PostbackAction。Agentic Vision 的分析核心使用 Gemini 3 Flash 模型，並設定相關參數，例如溫度、最大輸出 Token 數、工具和 ThinkingConfig。最後，由於 LINE 的 ImageSendMessage 需要公開的 HTTPS URL，因此在 FastAPI 上建立一個圖片 serving endpoint，提供暫存的標註圖片給 LINE 下載。

Agentic Vision 的核心工作流程為何？ | 數位時代