英伟达被“碾压”?

最新信息

英伟达被“碾压”?
2024-02-22 16:20:00
K图 NVDA_0
  近日,“史上最快大模型”爆火。一家海外AI芯片初创公司Groq使用其自研LPU(语言处理单元)作为推理芯片,使大模型每秒生成速度接近每秒500 token(文本中的一个最小单位),碾压GPT-3.5的每秒40 token。
  这意味着大模型从处理请求到获得响应所需的时间大幅缩短,有网友直呼“它回复的速度比我眨眼还快”;有人认为Groq的LPU可能成为英伟达GPU芯片的有力替代品;更有自媒体声称英伟达被Groq的LPU“碾压”。
  但随后陆续有业界专家对于Groq LPU性价比和竞争力提出质疑,并否认其可能冲击英伟达。有计算显示Groq LPU的硬件成本约是英伟达H100 GPU的40倍,能耗成本约是其10倍。
  专家质疑Groq LPU性价比和竞争力
  清华大学集成电路学院副教授何虎接受记者采访表示,LPU属于推理芯片,和目前供不应求、主要用于大模型训练的GPU芯片不能算同一个赛道。从推理芯片赛道来看,LPU目前可能达到了较高性能,但是运行成本并不低。高性能低成本的推理芯片可以降低推理成本、拓宽AI大模型应用范围。其市场前景主要取决于推理需求的市场选择,不太涉及科技竞争。
  顾名思义,训练芯片主要用于训练大模型,推理芯片则主要用于AI应用中。业内认为,随着各行各业迎来垂类大模型,AI大模型应用逐步落地,用于推理的算力将和训练算力一样受到关注。
  然而,即便是用于推理,有专家根据LPU、GPU的内存容量和大模型运行吞吐量计算,无论在性价比和能效比上,LPU都无法和英伟达的GPU竞争。
  脸书原AI科学家、阿里原技术副总裁贾扬清在海外社交媒体平台发文分析,Groq LPU的内存容量非常小(230MB)。简单计算得出,运行700亿参数模型时,需要305张Groq卡,相当于使用8张英伟达H100。从目前的价格来看,这意味着在同等吞吐量下,Groq LPU的硬件成本约是H100的40倍,能耗成本约是其10倍。
  记者采访的某国内头部AI芯片公司负责人也认同上述计算结果。他认为,与GPU使用HBM(高带宽存储器)不同,LPU使用了SRAM(静态随机存储器)作为存储,就意味着要堆很多卡才能跑一个大模型。
  腾讯科技芯片专家姚金鑫更是直言:“英伟达在本次AI浪潮中的绝对领先地位,使得全球都翘首以盼挑战者。每次吸引眼球的文章,总会在最初被人相信,除了这个原因之外,还是因为在做对比时的‘套路’,故意忽略其他因素,用单一维度来做比较。”
  Groq多年致力于颠覆GPU和CPU等传统架构
  Groq官网介绍说,LPU代表语言处理单元,是一种新型的端到端处理单元系统,可为具有顺序组件的计算密集型应用程序(如大语言模型LLM)提供最快的推理。
  对于为什么LPU用于LLM和生成式AI时比GPU快得多,Groq官网解释说,LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。对于LLM来说,LPU的计算能力要大于GPU和CPU,减少了计算每个单词所需的时间后,可以更快生成文本序列。此外,通过消除外部内存瓶颈使LPU推理引擎能在LLM上提供比GPU高几个数量级的性能。
  Groq成立于2016年。早在2021年,外界就曾将Groq称为“英伟达最强挑战者”。2021年,Groq获得了由知名投资机构老虎环球管理基金、D1 Capital领投的3亿美元,总融资额达3.67亿美元。
  2023年8月,Groq就推出了Groq LPU,可以以每秒超过100 token的创纪录速度运行700亿参数的企业级语言模型。Groq估计,与其他系统相比,它具有10倍到100倍的速度优势。
  Groq创始人兼首席执行官乔纳森·罗斯(Jonathan Ross)曾表示:“人工智能受到现有系统的限制,其中许多系统正在被新进入者追随或逐步改进。无论你在这个问题上投入多少钱,GPU和CPU等传统架构都难以满足人工智能和机器学习不断增长的需求……我们的使命更具颠覆性:Groq寻求通过将计算成本降至零来释放人工智能的潜力。”
(文章来源:上海证券报)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

英伟达被“碾压”?

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml