DeepSeek OCR 開放原始碼與模型權重,對AI生態系和LLM語料庫建置有何潛在影響? | 數位時代

DeepSeek OCR 開放原始碼與模型權重對 AI 生態系的潛在影響

DeepSeek OCR 的開源及其模型權重的開放,對 AI 生態系和大型語言模型 (LLM) 的語料庫建置產生多方面的影響。這項技術的核心在於高效壓縮圖像中的文字資訊,大幅降低 AI 處理長篇文件的算力需求,為各界帶來了效率紅利。

DeepSeek OCR 的核心技術是將文件視為圖像處理,透過獨特的「光學壓縮」技術,以最高 10 倍的壓縮率保留約 97% 的資訊。其採用雙模型分工合作,再透過 16 倍壓縮器大幅減少計算量。這使得單一 Nvidia A100 GPU 每日可處理超過 20 萬頁資料,若使用 20 台伺服器,每台搭載 8 塊 A100 處理器,每日處理量可達 3,300 萬頁。

DeepSeek OCR 技術如何影響 LLM 語料庫建置?

DeepSeek OCR 的技術架構包含三個主要步驟:首先,DeepEncoder 引擎負責將版面劃分重點,區隔段落、表格和圖形等元素。其次,透過壓縮器減少資訊量,將原本 1,024x1,024 像素的頁面壓縮至 256 個視覺單位 (token)。最後,利用 OpenAI 的 CLIP 模型將「看到的區塊」對應到「語意」,判斷內容和圖表的含義。由於已事先進行切塊和瘦身,CLIP 模型無需處理整頁的雜訊。

開放原始碼和模型權重有助於 AI 生態系驗證和擴展 DeepSeek OCR 技術。研究團隊使用約 3,000 萬頁 PDF 文件進行訓練,涵蓋近百種語言,包含 2,500 萬頁中英文文件,並加入 1,000 萬張合成圖表、500 萬份化學式和 100 萬份幾何圖形,以強化多模態文件理解能力。

DeepSeek OCR 的應用與未來展望

DeepSeek OCR 的開放,除了降低了 AI 處理長文件的算力需求外,也加速了 AI 模型在多語言、多模態文件理解上的進展。其在多語、保留版面和純文字輸出之間提供彈性,適用於長文件抽取、AI 訓練語料建置,以及聊天機器人脈絡的「成本感知式」保存。

DeepSeek OCR 的技術優勢主要體現在長文件處理、跨頁表格與圖形理解,以及跨語言文件抽取上,可在維持原始版面或輸出純文字的彈性間取得平衡。透過壓縮處理更少的符號,實現更快的處理速度和更低的成本,對需要大量掃描、歸檔和資料萃取的工作類型帶來直接的效率提升。


This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容