英特尔宣布在MLPerf Client v0.6基准测试中成为全球首家实现全NPU(神经网络处理单元)支持的企业,标志着AI终端设备进入“纯NPU加速时代”。该测试由MLCommons联盟主导,聚焦客户端设备大语言模型(LLM)的推理性能,英特尔通过软硬件协同创新,首次将NPU从“辅助角色”推向“性能核心”。
测试结果显示,搭载Intel Core Ultra Series 2处理器的设备在Llama2 7B模型上实现两大突破:首token生成延迟仅1.09秒,较传统GPU方案提速40%;每秒生成18.55个token的吞吐量,满足实时对话需求。其奥秘在于英特尔NPU硬件团队与OpenVINO软件团队的深度协作,通过动态稀疏计算优化和内存带宽压缩技术,使NPU在INT8精度下实现98%的算力利用率,较前代提升3倍。
这一突破将重塑AI终端生态。开发者可基于英特尔NPU实现本地化部署200亿参数模型,且功耗降低60%,为AI PC、车载系统等边缘设备提供“零延迟”交互体验。例如,医疗病理分析设备在无独立GPU条件下,借助NPU实现与RTX 3090Ti相当的语义分割精度,能耗却降低90%。
随着AI应用向轻量化、实时化演进,英特尔全NPU方案或将成为行业标准。这场由硬件架构革新引发的算力革命,正为终端AI的爆发式增长按下加速键。
还没有评论,来说两句吧...