UCM的三層記憶體結構如何分配即時、短期與長期記憶資料?
Answer
UCM 的三層記憶體結構如何分配即時、短期與長期記憶資料?
華為於 2025 金融 AI 推理應用落地與發展論壇上發表的 UCM(推理記憶資料管理器),旨在解決 AI 推理過程中的「推不動」、「推得慢」和「推得貴」三大問題。UCM 的核心概念是分層記憶,類似於人腦對資訊的處理方式,將常用資訊置於容易取得的地方,而較少使用的資訊則儲存在深層記憶中,以達到最佳效能。
三層記憶體結構
UCM 將 AI 推理系統的記憶體分為三層,每一層負責儲存不同時效性的資料:
- 即時記憶資料 (HBM): 儲存即時所需的資料,放置於高頻寬記憶體 (HBM) 中,以提供最快速的存取速度,確保 AI 能夠即時回應。
- 短期記憶資料 (DRAM): 儲存短期內需要使用的資料,放置於動態隨機存取記憶體 (DRAM) 中,DRAM 的存取速度較 HBM 慢,但容量較大,適合儲存短期內的上下文資訊。
- 長期記憶資料 (共享專業儲存): 儲存長期需要使用的資料,放置於共享專業儲存中,此層記憶體的容量最大,適合儲存海量的歷史資訊,但存取速度較慢。
技術突破與效能提升
UCM 透過 KV 快取 (KV Cache) 和記憶管理為中心的推理加速技術,突破了傳統 AI 模型記憶容量的限制,將記憶容量從 GB 級提升至 PB 級。此外,UCM 還具有三大技術突破:推理引擎外掛程式、智慧快取管理和高速存取適配器。經測試驗證,UCM 能顯著縮短首次回應時間,並大幅提升系統處理量。