头部芯片公司大模型竞争“全栈化” 拼完算力拼网络 | 百模大战

最新信息

2023-08-07 16:55:00

头部芯片厂商在大模型领域竞争正进入软硬件、算力、网络的“全栈式”比拼态势——英伟达拔得AI生态头筹之下，英特尔、AMD等厂商不愿落于人后，在应用场景中除了数据中心也瞄准边缘用途，芯片算力之外还看重网络能力。
　　参数是通用AI大模型最重要的指标之一。2022年4月公布的PaLM大模型训练参数高达5400亿，而2021年发布的LaMDA参数为1370亿，ChatGPT背后的GPT-3.5模型参数为1750亿。
　　近日，英特尔公司高级副总裁兼网络与边缘事业部总经理Sachin Katti对界面新闻表示，在云端训练大模型，单个服务器已无法承载，对网络需求的高要求前所未有，“我们训练一个大模型就需要5-20万台服务器，需要通过网络来把这些服务器连接起来然后进行训练，这个量是非常大的。”
　　AI计算大致分为两个层面，首先是对模型进行训练（training），整个过程可能耗时数天或数周；之后是训练出的模型做出推理（inference）。
　　在训练大模型的过程中，网络的重要性已成业界共识。根据中国移动通信研究院发布的《面向AI大模型的智算中心网络演进白皮书》测算，以1750亿参数规模的GPT-3模型训练为例，从理论估算模型分析，当动态时延从10us提升至1000us时，GPU有效计算时间占比将降低接近10％；当网络丢包率为千分之一时，GPU有效计算时间占比将下降13％；当网络丢包率达到1％时，GPU有效计算时间占比将低于5％。“如何降低计算通信时延、提升网络吞吐是AI大模型智算中心能够充分释放算力的核心问题。”白皮书指出。
　　对此，英特尔中国区网络与边缘事业部首席技术官张宇解释称，在训练大模型时，模型参数存储于加速器（如GPU显卡）的片外缓存中，随着训练进程对模型参数进行不断更新迭代。同时，不同加速器之间需要进行频繁且大量的数据交换，且只有在数据交换完成之后，才能够去算下一步的训练结果。
　　“但如果数据交换更新没有结束，训练也不会计算。”张宇说，“所以从中我们可以看到算力和网络能力，对大模型整体性能是两个关键要素。”
　　从推理端来看，张宇提及，AI模型的部署大部分在边缘场景，算力、功耗、成本往往都有限，不像数据中心可以无限增加设备。因此，如何在一个资源受限的情况下去部署大模型，是基础设施厂商需要考虑的重要问题，网络端的考虑点同样不少。
　　“如网络模型压缩问题，如果你把大模型原封不动的放在边缘的话对算力要求太高，很多设备是无法承受的。”张宇表示，对于大模型在推理端的应用，需要根据行业特定要求进行优化，使得简化后的模型既满足特定行业对准确度、功能的要求，所需的算力又能够被边缘设备所承载。
　　对于大模型在边缘的应用上，英特尔除了提供CPU、独立显卡等芯片，满足人工智能模型训练、推理对算力的要求外，还有针对网络的IPU（Infrastructure Processing Unit）产品。张宇称，IPU给用户提供一个可靠的数据传输环境，可满足大模型训练对网络可靠性、丢包率的严格要求，以及对网络速度的要求。
　　“在大模型这一块，和一些友商相比，英特尔的产品实际上涵盖了计算、通讯等各个领域，给用户提供了一个相对来说比较全面的方案。”张宇称。
　　在更考验计算力的AI训练领域，英伟达的优势在于牢牢占据大模型训练的主流市场。此外，英伟达持续推进GPU（图形处理器）、CPU和DPU（数据处理器）的“三芯”策略。其中DPU用于处理海量数据，可以做一些数据的处理和预处理，由DPU将任务分发给CPU、GPU和FPGA等进行计算，定位与英特尔的IPU一致。
　　伴随AI市场的驱动，英特尔的大客户也在加入竞争。2016年，谷歌专门为深度学习打造了TPU（张量处理器），部署在谷歌云平台中，以服务的形式售卖。亚马逊云计算部门也有自研Arm芯片架构服务器CPU，结合用于训练和推理的AI芯片、自研网络芯片等，构成了云计算环境下的芯片布局，可用于大模型计算。
　　张宇强调，除了硬件端，软件也很重要，如英特尔的OpenVINO、OneAPI等软件和组件，可以供开发者方便使用，“用户使用CPU，是因为现有软件能够充分支持，即便这达不到最佳性能。”他称在大模型领域，凭借前期投资和生态搭建，英伟达基于GPU的CUDA软件生态，已经成为开发者用于大模型乃至AI开发的首要选择。
（文章来源：界面新闻）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。