Intel三条线优化阿里云通义千问2模型：720亿参数轻松拿捏

导读：

大跟具俊晔结婚后不仅走上了帮夫之路还开公司签约了具俊晔力推他在台湾省发展如今距离具俊晔秀演出还有几天大家对具俊晔的门票售卖情况十分好奇也有了解行情的内行人给大家算了一笔账总的来...

大S跟具俊晔结婚后，不仅走上了帮夫之路，还开公司签约了具俊晔，力推他在台湾省发展。如今距离具俊晔DJ秀演出还有几天，大家对具俊晔的门票售卖情况十分好奇，也有了解行情的内行人给大家算了一笔账，总的来说，就是大S给具俊晔开这场演出，基本可以说是不盈利，甚至亏本。

快科技6月7日消息，官方宣布，旗下、、解决方案均已经为（Qwen2）的全球发布提供支持，已取得、、等诸多创新成果。

为了最大限度地提升诸通义千问2等大模型的效率，Intel进行了全面的，包括高性能融合算子、平衡精度和速度的先进量化技术等。

Intel还采用KV Caching、PagedAttention机制和张量并行，提高推理效率。

Intel的硬件也可利用软件框架和工具包进行加速，并获得出色的，包括PyTorch以及Intel PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging Face库、vLLM。

首先看Intel Gaudi AI加速器，专为生成式AI、大模型的高性能加速而设计，最新版的Gaudi Optimum可以轻松部署新号的大模型。

Intel使用Gaudi 2，对70亿参数、720亿参数的通义千问2模型的推理和微调吞吐量进行了基准测试，以下为详细性能指标和测试结果：

再看Intel至强处理器，作为通用平台具有广泛的可用性，适用于各个规模的数据中心，对于希望快速部署AI解决方案、没有专项基础设施企业非常理想。

至强处理器的每个核心都内置了Intel AMX高级矩阵扩展，可以处理多样化的AI工作负载，并加速AI推理。

以上是在五代可扩展至强上运行阿里云ecs.ebmg8i.48xlarge实例，通义千问2的下一个推理token延迟情况。

最后是消费级的AI PC，可以在本地部署大模型，既然可以使用处理器内置GPU核显、NPU AI引擎，也可以搭配独立的锐炫显卡。

以下展示了AI PC运行15亿参数的通义千问2：