華為UCM解決了AI推理的哪些主要問題?
Answer
華為 UCM 如何解決 AI 推理問題?
華為在 2025 金融 AI 推理應用落地與發展論壇上發布了 AI 推理創新技術 UCM(推理記憶資料管理器),旨在解決當前 AI 推理面臨的「推不動」、「推得慢」和「推得貴」三大問題。UCM 就像為 AI 裝備了一個「超強記憶系統」,能夠更快地回應、處理更長的對話,並大幅降低成本。
UCM 的核心技術:KV 快取與分層記憶
UCM 的核心是基於 KV 快取 (KV Cache) 和記憶體管理的推理加速技術。KV 快取是 AI 模型在對話過程中儲存上下文資訊的關鍵,但過去受限於高頻寬記憶體 (HBM) 容量。UCM 通過將 AI 的記憶容量提升百萬倍,從只能記住少量對話內容擴展到可以記住海量的歷史資訊,從而實現技術突破。
UCM 的三大技術突破
UCM 透過分層記憶的概念,將 AI 推理系統的記憶分為三層:即時記憶資料放在 HBM 中、短期記憶資料放在 DRAM、長期記憶放在共享專業儲存中,並透過智慧分級實現最佳效能。此外,UCM 還包括推理引擎外掛程式(用於連接不同的 AI 系統)、智慧快取管理(支援多級 KV 快取管理及創新加速演算法),以及高速存取適配器(提供高效能 KV 快取存取,加速資料讀取)。經過測試,華為宣稱 UCM 能大幅縮短首次回應時間、提升系統處理量。