一篇由加拿大勞雷爾大學教授馬克·亨弗里斯(Mark Humphries)發表的專文中提到,Google AI Studio 近期出現的 A/B 測試,可能是 Gemini 3.0 Pro 在推出前的測試版本。亨弗里斯透過歷史文件測試,認為這個未知的 Gemini 模型在「手寫文本的準確度」與「視覺結合推理的符號化」上有所突破。這表示模型不只準確辨識手寫文字,還能結合上下文和世界規則來理解、驗算和自我更正,將原本難以使用的歷史檔案轉變為可檢索的資料。
手寫文字辨識(HTR)一直是 AI 領域的挑戰。儘管技術不斷進步,但在準確度上始終難以突破。亨弗里斯指出,對歷史學者而言,辨識名字、日期、金額、地名等關鍵資訊至關重要。Gemini 模型透過更穩定的字形解碼能力,將手寫變體和掃描噪音轉換為一致的字符序列,從而解決了基礎可讀性的問題。此外,Gemini 在帳冊情境中辨識「金額=單價×數量」等關係,將低頻資訊嵌入更大的語境網路中,並運用隱性知識進行單位換算,確保資料一致性。
Gemini 模型的突破,意味著 AI 不僅能準確轉錄文本,還能對交易、度量衡、文化語境做出解讀。這項技術將對醫療、物流、法務、製造等領域產生影響,AI 模型可從單純的「看懂」走向「查核」,確保資料的可信度。對企業而言,這表示產品能從工具轉變為系統,為各行業帶來可靠性的提升。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容