**Intel 与 AMD 联合发布 ACE cpu 扩展规范,提升 x86 本地 AI 运算效率**
Intel 和 AMD 近日共同发布了完整的 ACE CPU 扩展规范。这套新指令集针对 AI 计算量身打造,现已落地 x86 架构。其核心在于优化矩阵乘法操作,旨在实现更高的能源效率和计算密度,从而显著降低在 CPU 上本地运行 AI 模型的门槛。

此前,日常的 AI 推理任务多依赖 GPU 完成。然而,对于轻量化模型、低延迟任务或是无独立显卡的设备,直接在 CPU 上运行是更合适的选择。遗憾的是,传统的 AVX10 向量指令并非针对矩阵运算设计,在执行 AI 核心的矩阵乘法时面临功耗高、效率偏低的问题。
ACE 规范正是为了解决这一痛点而生。它基于现有的 AVX10 寄存器进行拓展,但不再是老指令集的简单延伸。ACE 引入了专用硬件单元来处理矩阵计算。这种设计无需对 CPU 底层架构进行大规模重新设计,降低了厂商适配成本。官方数据显示,在同等输入向量规模下,ACE 的计算密度是 AVX10 的 16 倍。这意味着单条 ACE 指令可完成更多计算,有助于减少指令调度开销并提升内存带宽利用率,同时对功耗的控制也更加出色。当然,16 倍计算密度并不意味着直接带来 16 倍的速度提升,最终性能仍取决于 Intel 和 AMD 两家公司在后续处理器上的硬件设计。
对于开发人员,该指令集的一大优势是其跨厂商的通用性。开发者只需编写一套代码,即可适配 Intel 和 AMD 全线支持 ACE 的 CPU,无需再为不同的 AVX 版本分别做多套实现。主流 AI 框架如 PyTorch、TensorFlow 均可无缝兼容该指令集。此外,ACE 支持 INT8、FP8、BF16 等 AI 常用数据格式,并原生支持 OCP MX 微块缩放格式,以此填补了 AVX10 在这方面的空白。
因此,开发人员可将部分临时性的 NPU 算力需求转移至 CPU 处理,避免了适配各家规格不统一的 NPU 硬件的麻烦。未来,安装新一代支持 ACE 扩展的 x86 处理器的设备,包括笔记本、台式机和服务器,将能够在不依赖独立显卡的情况下,流畅运行各类本地 AI 任务。这将进一步拓宽终端侧(端侧)AI 的应用场景。
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
相关阅读










近期热点