2月18日,
山西证券发布计算机行业报告。字节豆包大模型团队发布全新的稀疏模型架构UltraMem,有效解决了当前主流的MoE架构在推理时产生的高额访存问题,推理速度较MoE架构提升2-6倍,同时推理成本最高可降低83%。
UltraMem在PKM架构的基础上对模型结构、value检索方式、稀疏参数进行优化,在保证模型性能的同时大幅提升推理效率。UltraMem架构参考PKM(Product Key Memory)的设计,即Transformer层中嵌入大内存层以及推理时以行列路由的方式激活参数,访存效果较MoE架构明显改善。同时,UltraMem对PKM架构进行针对性优化以提升模型性能:优化模型结构:将PKM的单个内存层拆分成多个内存层均匀嵌入Transformer层中,使模型能够并行执行访存和Transformer层计算操作;优化value检索方式:在推理时以TDQKR的乘法方法替代简单的行列加权方法选出得分最高的多个value,使模型能够精准检索到与输入相关的value;隐式扩展稀疏参数:引入数倍于physical memory的virtual memory,在不提高模型部署复杂度的情况下提升模型性能。根据实验结果,训练规模达2000万value的UltraMem模型,在同等计算资源下可同时实现业界领先的推理速度和模型性能。
推理成本持续下降加速应用生态繁荣。根据Semianalysis数据,随着算法持续进步,截至2024年底,以GPT-3质量的输出为标准,模型推理价格下降了1200倍。进入2025年,在推理技术优化下,DeepSeek模型的使用成本不到o1模型的1/25,而字节最新发布的UltraMem架构将使主流稀疏模型的推理成本大幅下降。认为,模型调用价格是用户选择模型运行应用的重要考量因素,各大模型厂商及科技大厂将持续竞相推动推理成本下降,从而带动上层AI应用的加速落地,并有望促进应用从云端场景向端侧场景拓展。
(文章来源:财中社)