英伟达被“碾压”？

最新信息

英伟达被“碾压”？

2024-02-22 16:20:00

　　近日，“史上最快大模型”爆火。一家海外AI芯片初创公司Groq使用其自研LPU（语言处理单元）作为推理芯片，使大模型每秒生成速度接近每秒500 token（文本中的一个最小单位），碾压GPT-3.5的每秒40 token。
　　这意味着大模型从处理请求到获得响应所需的时间大幅缩短，有网友直呼“它回复的速度比我眨眼还快”；有人认为Groq的LPU可能成为英伟达GPU芯片的有力替代品；更有自媒体声称英伟达被Groq的LPU“碾压”。
　　但随后陆续有业界专家对于Groq LPU性价比和竞争力提出质疑，并否认其可能冲击英伟达。有计算显示Groq LPU的硬件成本约是英伟达H100 GPU的40倍，能耗成本约是其10倍。
　　专家质疑Groq LPU性价比和竞争力
　　清华大学集成电路学院副教授何虎接受记者采访表示，LPU属于推理芯片，和目前供不应求、主要用于大模型训练的GPU芯片不能算同一个赛道。从推理芯片赛道来看，LPU目前可能达到了较高性能，但是运行成本并不低。高性能低成本的推理芯片可以降低推理成本、拓宽AI大模型应用范围。其市场前景主要取决于推理需求的市场选择，不太涉及科技竞争。
　　顾名思义，训练芯片主要用于训练大模型，推理芯片则主要用于AI应用中。业内认为，随着各行各业迎来垂类大模型，AI大模型应用逐步落地，用于推理的算力将和训练算力一样受到关注。
　　然而，即便是用于推理，有专家根据LPU、GPU的内存容量和大模型运行吞吐量计算，无论在性价比和能效比上，LPU都无法和英伟达的GPU竞争。
　　脸书原AI科学家、阿里原技术副总裁贾扬清在海外社交媒体平台发文分析，Groq LPU的内存容量非常小（230MB）。简单计算得出，运行700亿参数模型时，需要305张Groq卡，相当于使用8张英伟达H100。从目前的价格来看，这意味着在同等吞吐量下，Groq LPU的硬件成本约是H100的40倍，能耗成本约是其10倍。
　　记者采访的某国内头部AI芯片公司负责人也认同上述计算结果。他认为，与GPU使用HBM（高带宽存储器）不同，LPU使用了SRAM（静态随机存储器）作为存储，就意味着要堆很多卡才能跑一个大模型。
　　腾讯科技芯片专家姚金鑫更是直言：“英伟达在本次AI浪潮中的绝对领先地位，使得全球都翘首以盼挑战者。每次吸引眼球的文章，总会在最初被人相信，除了这个原因之外，还是因为在做对比时的‘套路’，故意忽略其他因素，用单一维度来做比较。”
　　Groq多年致力于颠覆GPU和CPU等传统架构
　　Groq官网介绍说，LPU代表语言处理单元，是一种新型的端到端处理单元系统，可为具有顺序组件的计算密集型应用程序（如大语言模型LLM）提供最快的推理。
　　对于为什么LPU用于LLM和生成式AI时比GPU快得多，Groq官网解释说，LPU旨在克服LLM的两个瓶颈：计算密度和内存带宽。对于LLM来说，LPU的计算能力要大于GPU和CPU，减少了计算每个单词所需的时间后，可以更快生成文本序列。此外，通过消除外部内存瓶颈使LPU推理引擎能在LLM上提供比GPU高几个数量级的性能。
　　Groq成立于2016年。早在2021年，外界就曾将Groq称为“英伟达最强挑战者”。2021年，Groq获得了由知名投资机构老虎环球管理基金、D1 Capital领投的3亿美元，总融资额达3.67亿美元。

　　2023年8月，Groq就推出了Groq LPU，可以以每秒超过100 token的创纪录速度运行700亿参数的企业级语言模型。Groq估计，与其他系统相比，它具有10倍到100倍的速度优势。
　　Groq创始人兼首席执行官乔纳森·罗斯（Jonathan Ross）曾表示：“人工智能受到现有系统的限制，其中许多系统正在被新进入者追随或逐步改进。无论你在这个问题上投入多少钱，GPU和CPU等传统架构都难以满足人工智能和机器学习不断增长的需求……我们的使命更具颠覆性：Groq寻求通过将计算成本降至零来释放人工智能的潜力。”
（文章来源：上海证券报）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。