Google AI Studio的A/B測試,是在為Gemini 3.0 Pro進行何種關鍵能力的預先測試? | 數位時代

Google AI Studio 的 A/B 測試:Gemini 3.0 Pro 的預先測試重點

Google AI Studio 近期進行的 A/B 測試,普遍認為是為即將推出的 Gemini 3.0 Pro 進行預先測試。這些測試主要集中在評估兩項關鍵能力:手寫文本辨識的準確性,以及視覺結合推理的隱性符號化能力。Google 期望透過這些測試,提升 AI 在理解字面意義背後真實世界規則的能力。

手寫文本辨識準確度的突破

Gemini 3.0 Pro 的測試版本展現了將手寫文字辨識(HTR)提升至專家級準確度的潛力。在排除歧義標點與大小寫後,其字元錯誤率(CER)約為 0.56%,詞錯誤率(WER)約為 1.22%。這表示模型能更精確地辨識姓名、日期、金額、地名等重要資訊,對於歷史研究及其他領域具有重大意義。藉由更精確地理解手寫文本,Gemini 3.0 Pro 有望在處理歷史文獻、檔案數位化等方面發揮更大的作用。

視覺結合推理的隱性符號化能力

除了準確辨識手寫文字,Gemini 3.0 Pro 還能在未被明確要求下,將視覺辨識與情境推理結合,進行近似「符號推理」的一致性校驗與換算。舉例來說,在處理 1758 年的商人日記帳時,模型能自主判定「145」並非數字序列,而是重量的拆分,進而以價格倒推重量。這種能力使模型不僅能「抄對」字,還能連同上下文與世界規則「讀懂、驗算、自我更正」。這種整合視覺資訊和推理的能力,使得 Gemini 3.0 Pro 在處理複雜的、需要理解上下文的任務時,具有更高的準確性和可靠性。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容