華為在 2025 金融 AI 推理應用落地與發展論壇上發表了 AI 推理創新技術 UCM(推理記憶資料管理器),旨在解決 AI 回應速度慢、成本高的問題。UCM 的核心概念是透過「分層記憶」來提升 AI 的效能,讓 AI 能夠更快回應、處理更長的對話,並降低運算成本。
UCM 的核心是以 KV 快取(KV Cache)和記憶體管理為中心的推理加速技術。KV 快取是 AI 模型在對話過程中儲存上下文資訊的關鍵技術。過去,由於受到高頻寬記憶體(HBM)容量的限制,AI 只能記住少量的對話內容。然而,UCM 能夠將 AI 的記憶容量提升百萬倍,從原本只能記住少量對話內容,擴展到可以記住海量的歷史資訊。
UCM 將 AI 推理系統的記憶分為三層:即時記憶資料放在 HBM 中、短期記憶資料放在 DRAM 中、長期記憶放在共享專業儲存中。透過智慧分級,UCM 能夠實現最佳的效能。這種分層記憶的設計類似於人腦,將常用的資訊放在容易取得的地方,不常用的資訊則存在深層記憶中,從而提高整體的運算效率。
This is a simplified version of the page. Some interactive features are only available in the full version.
本頁為精簡版,部分互動功能僅限完整版使用。
👉 View Full Version | 前往完整版內容