从1到100的跨越,天数智芯的通用GPU落地商用记

最新信息

从1到100的跨越,天数智芯的通用GPU落地商用记
2022-09-13 11:13:00
“我们的天垓100 通用GPU,累计订单额超过2.3亿元,是国内唯一量产的通用GPU芯片。” 天数智芯首席技术官吕坚平表示。
  过去几年的国内GPU赛道可谓炙手可热,涌现出不少GPU初创企业。天数智芯正是其中备受瞩目的一员。2022年7月,“天数智芯”宣布完成超10亿元的C+轮及C++轮融资,分别由金融街资本以及厚朴投资和旗下的厚安创新基金领投。
  相比不少GPU产品还处于“PPT”状态的企业,天数智芯是少数有芯片落地并已产生营收的国内企业。过去一年,天垓100产品累计订单额超过2.3亿元,意向签约客户超过200家,业务覆盖行业超过20个。
  “在完成从0到1的突破后,我们要做的是从1到100的跨越,通过产业生态的融合,实现更大范围内的规模应用。” 吕坚平如是说道。
  今年8月,天数智芯推出了百大应用开放平台DeepSpark.作为国内首个通用计算应用开发及评测平台,DeepSpark基于天数智芯的应用落地经验,分享与落地应用深度耦合的百大算法,并针对行业需求构建多维度测评体系,广泛支持各类落地场景。
  吕坚平透露,DeepSpark将在9月30日对全球开发者开源。“通过打造开源社区,我们希望汇聚全球开发者以及合作伙伴的力量,为GPU产业生态提供更多的可能。”
  专用AI芯片难以取代GPU
  “通用GPU是当下的架构赢家。在云端数据中心场景,不管是AI训练芯片还是AI推理芯片,都需要通用性。” 吕坚平指出。
  这是由于,AI算法创新相当于软件迭代。如果没有通用算力,那么AI芯片就疲于应付各种层出不穷的崭新算法,这也是DSA架构的芯片落地困难的原因。
  “很多AI芯片在设计架构的时候,往往局限于某些特定的算法。一旦出现新的算法和模型,就无法进行适配。现在细分领域的算法大多很复杂,比如在安防行业里,客户提出的算法超过了100个。考虑到AI训练本身为了开发新的算法,如果为了某些特定算法,又来重新设计AI训练芯片,这无疑行不通。” 吕坚平解释道。
  当前,英伟达GPU芯片在云端AI训练领域几乎一家独大。根据IDC发布的《2020-2021中国人工智能计算力发展评估报告》显示,2020年国内GPU服务器占据95%左右的市场份额,是数据中心人工智能加速方案的首选。
  “通用GPU,是唯一被广泛采用开发新AI算法的软硬件平台。这也是英伟达胜出的重要原因。”吕坚平分析,“其他试图取代GPU的竞争者,比如DSA架构的AI训练芯片,常常无法顺利跑通从AI学术大会刚出炉的最新AI算法,甚至忙于应付性能测试标准中的基本算法,这使得其在实际落地中出现困境。反而,被视为‘不够AI专业’的通用GPU,在这方面得心应手。”
  与此同时,即将到来的元宇宙和数字孪生时代,将产生大量的图形计算需求,这意味着AI与图形必须在云端融合。
  “云端内容生成,需要与图形高度配合的AI;云端图形渲染,需要能善用AI的图形。非GPU的架构无法应对AI与图形在云端融合的挑战,但通用GPU可以追加图形功能。” 吕坚平说。
  国产通用GPU的研发之路:从0到100的突破
  这一切,都促使天数智芯在创立之初,就坚定地走上了通用GPU的道路。2018年,天数智芯开始启动云端训练通用芯片天垓100的架构设计,并于2021年3月正式发布。2022年5月,天数智芯点亮了其首款云端推理通用GPU产品?“智铠100”。
  “我们计划今年年底量产智铠100,明年量产第二代AI训练产品天垓200,并在两年之内量产天垓300.” 吕坚平表示。
  在具体的产品性能方面,天垓200将提供更强大算力,并进一步提升AI训练集群的能力;天垓300则会加入图形渲染,使其成为能同时支持云原生渲染和通用技术的GPU。
  “对AI训练芯片而言,在通用性上能达到国际水平的,天数必须榜上有名,我们能让用户无缝地从英伟达迁移到天数智芯的平台。” 吕坚平自信地提到。
  据悉,天数智芯的客户已覆盖安防、自动驾驶、工业、医疗、教育、互联网、金融、零售、智能家居等诸多领域。
  “公司的芯片应用主要分为两大类,一类是运营商之类的算力中心,另一类是各行各业的企业用户。”吕坚平介绍。
  “在医疗医药行业,像基因测序、AI医疗影像诊断等,都需要用到GPU;在体育训练领域,教练可利用AI来评估学生的姿态,对体能提升等给出更适当的建议;在科学计算领域,比如远程石油资源的勘探,我们也都有客户正在落地。此外,公司还在探索AI for science的应用,这是AI专用芯片比较难触碰的领域。由于芯片不够通用,对这些非传统AI算法的新场景无法很好地适配。”
  有投资人对天数智芯评价道:“不少GPU初创企业虽然发布了产品,但离应用还有一定的距离,天数智芯无疑是其中跑得很快的一家。”对此,吕坚平认为,团队的知识和经验是令其在赛道中领跑的原因。
  “GPU架构都有一定的通则,但光知道这个不够,还需要有设计GPU架构的知识、经验、方法学。我们拥有这样的完整团队,懂得从架构设计到验证的全过程。目前研发人员占公司总人数的80%,技术骨干来自于AMD、英特尔、博通、英伟达、甲骨文等各个知名国际企业,参与过多个GPU芯片的研发与产品化。”
  吕坚平自身的履历亦颇为亮眼。加入天数智芯前,他曾任三星全球副总裁、联发科资深总监、英伟达全球资深GPU架构师、高级架构经理等职务。在英伟达任职期间,吕坚平参与多款GPU架构的研发,为索尼研发PS3主机中的RSX GPU,为三星及联发科自研GPU做出重要贡献。
  在30年的漫长芯片研发经验中,吕坚平得出结论,要把产品做成功,三样缺一不可:专业的知识、严谨的方法学,以及优秀的团队。“只要一个环节有所疏漏,产品可能就没法正常发挥功能。”
  此外,对处于前沿技术应用的GPU研发而言,团队能否“向前看”、“看得远”,也是影响未来发展的关键。
  “GPU涉及的场景均是前沿领域。图形渲染持续有新的东西,AI更是不断在往前发展,有时候,你要看得比你客户更远,能预期产业界会往哪方面走。这是带领GPU团队最困难的一点。不能客户要什么,就做什么。有时候稍微想远一点,再跟客户探讨,大家如何一起合力,把产业往前推进。”
  开放开源共建GPU生态
  曾有投行人士指出,国内企业做GPU主要有两大难,一是难在专利壁垒,二是难在GPU芯片的生态体系创新。
  在生态方面,需要初创企业建立完善的软件开发团队,着重开发自身产品的软件开发平台、开发应用软件、中间件等软件产品,通过软件产品来建立更多的行业触达,丰富自身应用面,建立完善的生态体系。
  “GPU生态在这个赛道确实很重要,所以我们也必须做到,与生态伙伴一起合作。” 吕坚平说。
  据了解,天垓100是国内唯一适配X86、ARM、MIPS等各种类型CPU的通用GPU产品;在操作系统层面,支持主流LINUX操作系统和国产KYLIN系统,同时兼容国内外主流AI生态,支持PyTorch、TensorFlow、飞浆等各种深度学习算法框架。
  8月底,天数智芯正式发布百大应用开放平台DeepSpark.在吕坚平看来,当一款产品能够跑通百大应用,并达到多维度性能指标要求以及大规模品质管控,就表明其拥有了可以正式量产并规模应用的实力。
  作为国内首个通用计算应用开发及评测平台,DeepSpark基于天数智芯的应用落地经验,分享与落地应用深度耦合的百大算法,并针对行业需求构建多维度测评体系,广泛支持各类落地场景。9月30日,天数智芯将面向全球开发者开源DeepSpark,通过开源社区的打造,汇聚更多开发者以及合作伙伴的力量。
  “天数曾走过的道路,后来者也都必须经历。所以,我们把学到的东西开源,这相当于给了一张完整的地图,大家可以寻图来了解我们走过的路径,这对国内整个行业会有帮助,也让业内有标准可循。”吕坚平认为。
  展望未来,天数智芯希望通过百大应用开放平台的开源开放,实现平台共建、生态共享、产业共赢。“当然,也希望大家了解到我们的芯片是如何应用到各行各业,实现共建、共享、共赢,并会同合作伙伴为国内生态产业建设做出贡献。” 吕坚平如是说。
(文章来源:财联社)
免责申明: 本站部分内容转载自国内知名媒体,如有侵权请联系客服删除。

从1到100的跨越,天数智芯的通用GPU落地商用记

sitemap.xml sitemap2.xml sitemap3.xml sitemap4.xml