DeepSeek-OCR 在處理長文件、跨頁表格與圖形理解方面,相較於傳統 OCR 有何優勢?
Answer
DeepSeek-OCR 在處理長文件、跨頁表格與圖形理解方面的優勢
DeepSeek-OCR 採用了獨特的「光學壓縮」技術,使其在處理長文件、跨頁表格與圖形理解方面相較於傳統 OCR 具有顯著的優勢。這項技術的核心理念是將文件視為圖片進行處理,透過模型分工合作和資料壓縮來大幅減少運算需求。
技術細節與步驟
DeepSeek-OCR 的技術實現主要分為三個步驟:首先,透過 DeepEncoder 前處理引擎將版面「劃重點」,標記出段落、表格和圖形的位置。其次,進行「資訊減肥」,將原始頁面的視覺單位(token)透過壓縮器大幅減少,例如將 4,096 個視覺單位壓縮到 256 個,從而節省算力和記憶體。最後,利用 OpenAI 的 CLIP 模型來理解「看到的區塊」的語意,判斷內容和圖表的含義。透過這種方式,DeepSeek-OCR 僅需 64 到 400 個視覺 token 就能讀懂一頁文件,相較於傳統 OCR 需要上千到上萬個 token,大大降低了運算需求。
效能與應用
DeepSeek-OCR 在效能方面表現出色,單顆 Nvidia A100 GPU 每日可處理約 20 萬頁資料;若使用 20 台伺服器、每台 8 顆 A100 的叢集,日處理量可達 3,300 萬頁。這使得它非常適合處理長文件、跨頁表格與圖形理解,以及跨語言文件抽取。此外,DeepSeek-OCR 還具有彈性,可在維持原始版面或輸出純文字之間取得平衡,適用於大量掃描、歸檔和資料萃取的工作。DeepSeek-OCR 透過「影像壓縮+少量 token」的策略,將 OCR 技術提升到可支援 LLM 長脈絡與結構化資料抽取的系統級能力。