Google 在 2026 年 1 月針對 Gemini SDK 進行更新,其中 Agentic Vision 功能的引入,為開發者帶來了全新的圖像處理能力。與舊版 Gemini 2.5 Flash 相比,更新後的 Gemini 3 Flash 具備更強的主動性,能夠編寫 Python 程式碼來處理圖片,如放大、裁剪和標註等。這一轉變不僅提升了圖像分析的靈活性,也為開發者在使用 API 時帶來了新的考量。
Agentic Vision 的主要功能提升體現在其主動性上。Gemini 3 Flash 不再僅是被動地分析圖片,而是可以主動執行任務,例如根據指令放大圖片中的特定區域,或者對圖片進行裁剪和標註。這種主動性使得開發者可以利用 Gemini SDK 創建更加智慧和互動性更強的應用。此外,Agentic Vision 還能夠根據圖片內容生成程式碼,進一步擴展了其應用範圍。
儘管 Agentic Vision 帶來了諸多優勢,開發者在使用時仍需注意一些問題。首先,由於 SDK 版本差異,舊版本的方法可能在新版本中無法使用,例如 types.Part.from_image_bytes() 方法可能需要更新為 types.Part.from_bytes()。其次,ThinkingLevel enum 可能不再支援,開發者需要調整程式碼以適應新的 API 結構。最後,Agentic Vision 的 thinking 功能可能會消耗 max_output_tokens 的額度,導致實際回覆被截斷,開發者需要關閉 thinking 或增加 max_output_tokens 的額度。
Google Gemini SDK 在 2026 年 1 月的更新中,Agentic Vision 功能的引入為開發者提供了更強大的圖像處理能力。然而,開發者在使用時需要注意版本差異和 API 變動,並根據實際情況調整程式碼,以充分利用 Agentic Vision 的優勢。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容