DeepSeek-OCR 的「光學壓縮」技術，是如何實現最高 10 倍壓縮率並保留 97% 資訊的？

Answer

DeepSeek-OCR 的「光學壓縮」技術原理

DeepSeek-OCR 採用「光學壓縮」技術，主要目的是在處理包含大量文字的圖片時，能以更有效率的方式壓縮資料，並將壓縮後的資料交由 AI 進行處理。這項技術的核心理念是將文件視為圖片進行處理，透過模型分工合作和資料壓縮來大幅減少運算需求，在維持約 97% 資訊的前提下，將文字脈絡壓縮至最高 10 倍。

技術細節與步驟

DeepSeek-OCR 的技術實現主要分為三個步驟：首先，透過 DeepEncoder 前處理引擎將版面「劃重點」，標記出段落、表格和圖形的位置。其次，進行「資訊減肥」，將原始頁面的視覺單位（token）透過壓縮器大幅減少，例如將 4,096 個視覺單位壓縮到 256 個，從而節省算力和記憶體。最後，利用 OpenAI 的 CLIP 模型來理解「看到的區塊」的語意，判斷內容和圖表的含義。透過這種方式，DeepSeek-OCR 僅需 64 到 400 個視覺 token 就能讀懂一頁文件，相較於傳統 OCR 需要上千到上萬個 token，大大降低了運算需求。

效能與應用

DeepSeek-OCR 在效能方面表現出色，單顆 Nvidia A100 GPU 每日可處理約 20 萬頁資料；若使用 20 台伺服器、每台 8 顆 A100 的叢集，日處理量可達 3,300 萬頁。這使得它非常適合處理長文件、跨頁表格與圖形理解，以及跨語言文件抽取。此外，DeepSeek-OCR 還具有彈性，可在維持原始版面或輸出純文字之間取得平衡，適用於大量掃描、歸檔和資料萃取的工作。DeepSeek-OCR 透過「影像壓縮＋少量 token」的策略，將 OCR 技術提升到可支援 LLM 長脈絡與結構化資料抽取的系統級能力。

觀看原始文章