閱讀紀錄

隱藏 →
此記錄會在頁面關閉後消失

DeepSeek-OCR 的「光學壓縮」技術,是如何實現最高 10 倍壓縮率並保留 97% 資訊的?

Answer

DeepSeek-OCR 的「光學壓縮」技術原理

DeepSeek-OCR 採用「光學壓縮」技術,主要目的是在處理包含大量文字的圖片時,能以更有效率的方式壓縮資料,並將壓縮後的資料交由 AI 進行處理。這項技術的核心理念是將文件視為圖片進行處理,透過模型分工合作和資料壓縮來大幅減少運算需求,在維持約 97% 資訊的前提下,將文字脈絡壓縮至最高 10 倍。

技術細節與步驟

DeepSeek-OCR 的技術實現主要分為三個步驟:首先,透過 DeepEncoder 前處理引擎將版面「劃重點」,標記出段落、表格和圖形的位置。其次,進行「資訊減肥」,將原始頁面的視覺單位(token)透過壓縮器大幅減少,例如將 4,096 個視覺單位壓縮到 256 個,從而節省算力和記憶體。最後,利用 OpenAI 的 CLIP 模型來理解「看到的區塊」的語意,判斷內容和圖表的含義。透過這種方式,DeepSeek-OCR 僅需 64 到 400 個視覺 token 就能讀懂一頁文件,相較於傳統 OCR 需要上千到上萬個 token,大大降低了運算需求。

效能與應用

DeepSeek-OCR 在效能方面表現出色,單顆 Nvidia A100 GPU 每日可處理約 20 萬頁資料;若使用 20 台伺服器、每台 8 顆 A100 的叢集,日處理量可達 3,300 萬頁。這使得它非常適合處理長文件、跨頁表格與圖形理解,以及跨語言文件抽取。此外,DeepSeek-OCR 還具有彈性,可在維持原始版面或輸出純文字之間取得平衡,適用於大量掃描、歸檔和資料萃取的工作。DeepSeek-OCR 透過「影像壓縮+少量 token」的策略,將 OCR 技術提升到可支援 LLM 長脈絡與結構化資料抽取的系統級能力。

你想知道哪些?AI來解答

DeepSeek-OCR 的「光學壓縮」技術是如何在維持 97% 資訊的前提下,達成最高 10 倍的壓縮率?

more

DeepSeek-OCR 的 DeepEncoder 前處理引擎如何標記文件版面以利 AI 處理?

more

DeepSeek-OCR 如何透過「資訊減肥」步驟,大幅減少原始頁面的視覺單位(token)?

more

OpenAI 的 CLIP 模型在 DeepSeek-OCR 的 OCR 流程中扮演什麼樣的語意理解角色?

more

DeepSeek-OCR 在處理長文件、跨頁表格與圖形理解方面,相較於傳統 OCR 有何優勢?

more

你覺得這篇文章有幫助嗎?

likelike
有幫助
unlikeunlike
沒幫助
reportreport
回報問題
view
1
like
0
unlike
0
分享給好友
line facebook link