與傳統 OCR 相比,DeepSeek-OCR 在 token 使用量上有何顯著差異?
Answer
DeepSeek-OCR 在 Token 使用量上的顯著差異
DeepSeek-OCR 採用了名為「光學壓縮」的技術,利用模型協同和資料壓縮來顯著降低運算需求,使其能更有效處理包含大量文字的圖片。其中,OpenAI 的 CLIP 模型在整個 OCR 流程中扮演關鍵角色,負責語意理解,這使得 DeepSeek-OCR 能夠以遠少於傳統 OCR 的 token 讀懂文件。傳統 OCR 技術往往需要數千甚至數萬個 token 才能處理一頁文件,而 DeepSeek-OCR 透過其獨特的架構,大幅降低了這一需求。
CLIP 模型在語意理解中的作用
DeepSeek-OCR 的技術流程首先使用 DeepEncoder 引擎分析版面,標記出段落、表格和圖形的位置,然後透過「資訊減肥」過程,大幅減少視覺單位 (token)。在此過程中,OpenAI 的 CLIP 模型被用來理解壓縮後的區塊的語意,判斷內容和圖表的含義。這使得 DeepSeek-OCR 能夠在保留關鍵資訊的同時,有效減少需要處理的 token 數量。
DeepSeek-OCR 的優勢與影響
由於 CLIP 模型的語意理解能力,DeepSeek-OCR 僅需較少的視覺 token (64 到 400 個) 即可讀懂一頁文件。這種方式不僅節省了算力和記憶體,還使 DeepSeek-OCR 更有效地支援長文件、跨頁表格與圖形理解,以及跨語言文件抽取。這使得 DeepSeek-OCR 成為一個支援大型語言模型 (LLM) 長脈絡和結構化資料抽取的強大系統,突顯了其在處理複雜文件時的效率與優勢。