相較於傳統 OCR,DeepSeek-OCR 僅用 64 到 400 個 token 讀懂文件的優勢是什麼?
Answer
DeepSeek-OCR 相較於傳統 OCR 的優勢:以更少 Token 實現高效文件理解
DeepSeek-OCR 採用名為「光學壓縮」的技術,透過模型協同和資料壓縮,大幅減少運算需求,從而更有效地處理包含大量文字的圖片。其中,OpenAI 的 CLIP 模型在整個 OCR 流程中扮演關鍵的語意理解角色,這使得 DeepSeek-OCR 能夠以顯著更少的 token 讀懂文件。
CLIP 模型在 DeepSeek-OCR 中的語意理解
DeepSeek-OCR 的技術流程首先使用 DeepEncoder 引擎對版面進行分析,標記出段落、表格和圖形的位置,然後透過「資訊減肥」過程,大幅減少視覺單位(token)。此時,OpenAI 的 CLIP 模型被用來理解經過壓縮後的區塊的語意,判斷內容和圖表的含義。
DeepSeek-OCR 的優勢與影響
由於 CLIP 模型的語意理解能力,DeepSeek-OCR 能夠以較少的視覺 token(64 到 400 個)讀懂一頁文件,相較於傳統 OCR 需要數千甚至數萬個 token,大幅降低了運算需求。這種方式不僅節省了算力和記憶體,還使 DeepSeek-OCR 更有效地支援長文件、跨頁表格與圖形理解,以及跨語言文件抽取,成為支援大型語言模型(LLM)長脈絡和結構化資料抽取的強大系統。