Agentic Vision 的核心優勢在於它將傳統的圖片分析從靜態的文字描述轉變為主動的調查過程。透過「思考(Think)→ 行動(Act)→ 觀察(Observe)」的循環,Agentic Vision 讓模型能夠主動地寫 Python 程式碼來放大、裁切、標註圖片,並根據程式碼的執行結果進行分析,從而更深入地理解圖片內容。這使得 AI 不僅能「看」圖片,還能主動執行任務,例如標記出圖片中的特定物件或進行更複雜的分析。
Agentic Vision 的技術核心包括使用 Gemini 3 Flash 模型和 code_execution 工具,這使得模型能夠編寫並執行 Python 程式碼。除了文字分析,Agentic Vision 還能回傳模型生成的標註圖片。在功能設計上,使用者可以選擇使用 Agentic Vision 模式,並提供具體的指令,例如「幫我把咖啡標記出來」。系統會將圖片和指令一起傳給 Gemini 3 Flash 模型進行分析,並將文字分析和標註圖片傳回給使用者。
開發者 Evan 在實作 Agentic Vision 的過程中分享了一些心得,包括 SDK 版本差異是最大的坑,API 變動頻繁,以及 LINE Bot 回傳圖片的限制等。他建議開發前先確認 SDK 版本,並使用 help() 確認實際可用的 API。此外,他也提到 Thinking 是一把雙刃劍,對於簡單的圖片描述,關閉 Thinking 可以節省 token 額度。總體而言,Agentic Vision 的核心優勢在於其主動性、靈活性和更深入的圖片理解能力,這使得它在各種應用場景中都具有潛力。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容