相較於傳統 OCR，DeepSeek-OCR 僅用 64 到 400 個 token 讀懂文件的優勢是什麼？

Answer

DeepSeek-OCR 相較於傳統 OCR 的優勢：以更少 Token 實現高效文件理解

DeepSeek-OCR 採用名為「光學壓縮」的技術，透過模型協同和資料壓縮，大幅減少運算需求，從而更有效地處理包含大量文字的圖片。其中，OpenAI 的 CLIP 模型在整個 OCR 流程中扮演關鍵的語意理解角色，這使得 DeepSeek-OCR 能夠以顯著更少的 token 讀懂文件。

CLIP 模型在 DeepSeek-OCR 中的語意理解

DeepSeek-OCR 的技術流程首先使用 DeepEncoder 引擎對版面進行分析，標記出段落、表格和圖形的位置，然後透過「資訊減肥」過程，大幅減少視覺單位（token）。此時，OpenAI 的 CLIP 模型被用來理解經過壓縮後的區塊的語意，判斷內容和圖表的含義。

DeepSeek-OCR 的優勢與影響

由於 CLIP 模型的語意理解能力，DeepSeek-OCR 能夠以較少的視覺 token（64 到 400 個）讀懂一頁文件，相較於傳統 OCR 需要數千甚至數萬個 token，大幅降低了運算需求。這種方式不僅節省了算力和記憶體，還使 DeepSeek-OCR 更有效地支援長文件、跨頁表格與圖形理解，以及跨語言文件抽取，成為支援大型語言模型（LLM）長脈絡和結構化資料抽取的強大系統。

觀看原始文章