英伟达4亿美元收购95后华人青年AI创业公司,为提高GPU利用率再增“新砝码”
创始人
2025-07-05 23:17:47
0

前脚 AMD 刚刚收购加拿大 AI 初创公司 Untether AI,后脚英伟达就斥资 4 亿美元收购了一家华人 95 后和导师联合创办的加拿大 AI 初创公司CentML[1]。这位青年名叫王尚,此前担任 CentML 的联合创始人兼 CTO。据了解,王尚出生于山东省青岛市,高中就读于青岛二中。2018 年其本科毕业于加拿大多伦多大学,后又在该校先后获得硕士学位和博士学位。他的硕博导师都是多伦多大学的根纳季·佩基门科(Gennady Pekhimenko)教授,而佩基门科教授本人则是 CentML 的联合创始人兼 CEO。值得注意的是,更早之前王尚还在谷歌、英特尔和华为加拿大分公司实习过。

图 | 王尚(来源:http://www.cs.toronto.edu/~wangsh46/)

在收购 CentML 之前,英伟达击败了竞标者并成为最终赢家。据介绍,CentML 开发的软件能在 AI 模型和芯片之间运行,从而利用尚未得到充分利用的硬件容量,并能采用其他技巧使系统运行得更好。CentML 通过出售软件的订阅服务来盈利,其还与云服务提供商签订了收入分成协议,进而将其技术捆绑到服务方案中,旨在帮助客户确定到底使用哪些硬件可以提高机器学习模型的性能并降低其成本,进而帮助客户从现有硬件中获得更多价值。

图 | CentML 公司官网(来源:https://centml.ai/)

据了解,CentML 于 2025 年 6 月 6 日终止了其加拿大联邦商业注册。一封发给 CentML 客户的电子邮件被曝光在社交媒体上,邮件显示 CentML 的运营将于 2025 年 7 月 17 日正式结束。与此同时,该公司更新了它的注册信息、董事以及通信地址。新列出的董事是三名英伟达高管,其通信地址为英伟达位于美国加利福尼亚的总部。

事实上,这次收购可谓谋划已久。英伟达首次涉足 CentML 是在 2023 年 10 月,当时它为 CentML 提供了一笔 2700 万美元的种子轮融资。该轮融资由谷歌旗下专注于 AI 的 Gradient Ventures 基金领投,德勤创投、汤森路透创投和 Radical Ventures 等知名风投公司跟投。当时,这笔资金曾用于在 2024 年底前将 CentML 的 32 人团队扩大一倍。

据一位消息人士告诉外媒,CentML 的出售对其投资者和股东而言价值远超 3 亿美元。但另一位消息人士表示,考虑到包括以“达到业绩目标为条件的承诺”在内的因素,该交易的总价值可能升至 4 亿美元以上,因此这笔交易可能会为 CentML 的早期投资者带来丰厚回报。

图 | CentML 的四位联合创始人(来源:资料图)

其实,王尚和英伟达的渊源颇深。在联合创办 CentML 之前,他曾在英伟达担任工程师,主要工作任务是帮助优化训练工作负载以便提高 GPU 性能,也就是说他第一次在英伟达负责的工作内容和后来所创立的 CentML 的业务内容大致类似。2022 年,他参与创办了 CentML,并由自己的导师佩基门科担任 CEO。佩基门科目前仍在加拿大多伦多大学担任副教授一职,并指导着将近 20 名学生。在 CentML 的四名主要创始成员中,除了佩基门科之外,其余三位创始成员中有两名都是自己的学生,而其中一名便是王尚。那么,他为何选择王尚一起创办了 CentML?王尚有着怎样的技术成果?关于此,从王尚的两篇代表论文或许可以窥斑见豹。这两篇论文分别于 2020 年和 2021 年发表在机器学习与系统会议(MLSys,Machine Learning and Systems)上。手握至少两篇顶会一作论文以及成果具有较高的应用性,可能是自己得以和导师共同创业的原因。那么,这两篇论文分别讲了什么?

(来源:http://www.cs.toronto.edu/~wangsh46/)

在 2020 年的一作论文中,王尚和同事旨在提高反向传播的可扩展性,为此他和同事将反向传播重新表述为一种扫描操作。扫描操作是一种原语,它按顺序对一系列值进行聚合,并返回每一步的中间结果。然后,通过改进之后的布莱洛克扫描算法(Blelloch scan algorithm),在并行系统上扩展这种反向传播的重新表述形式。研究中,他们使用合成数据集针对基础循环神经网络进行了训练评估,并使用 IRMAS 数据集针对带有门控循环单元的循环神经网络进行了训练评估,结果显示这一方法在整体训练时间上实现了高达 2.75 倍的速度提升,在反向传播上实现了 108 倍的速度提升,并证明针对剪枝后的网络进行重新训练可以作为这一方法的实际应用场景。

(来源:http://www.cs.toronto.edu/~wangsh46/)

在 2021 年的一作论文中,王尚等人分析了来自顶尖研究机构的 GPU 集群使用统计数据,以深入了解典型深度学习训练任务所实现的硬件效率。这一研究表明,当单加速器训练任务被重复启动时,例如当用于超参数调优时,它们可能会在集群范围内的资源消耗中占据主导地位,同时却在很大程度上并未充分利用硬件。研究中,王尚等人观察到这类工作负载具有以下独特特征:一是工作中的模型通常具有相同类型和形状的算子,二是这类算子的模型间水平融合等同于其他已经过良好优化的算子。因此,为了帮助业内人士有效提高深度学习训练工作负载的硬件利用率,王尚等人在这项研究中提出了水平融合训练阵列(HFTA,Horizontally Fused Training Array)。HFTA 是一个深度学习框架扩展库,它能够横向融合来自不同重复性任务的模型,直至算子级别,然后在共享加速器上实现同步训练。研究中,王尚等人将 HFTA 用于在当时最新 GPU 和 TPU 上训练的六个深度学习模型。结果表明,与在单独的加速器上运行每个作业的标准做法相比,HFTA 在提高硬件利用率方面非常有效,其训练吞吐量可提高高达 15.1 倍。

(来源:http://www.cs.toronto.edu/~wangsh46/)

由此可见,王尚在五年前就开始关注大模型,并在提高 GPU 利用率上做出了一定成果。而在 2025 年 5 月,也就是 CentML 被英伟达收购的不久之前,王尚接受一家外媒采访并介绍了 CentML 的业务进展。

在上述采访中,王尚表示 CentML 的开源机器学习编译器 Hidet 可以直接对接该公司基于 vLLM 的服务引擎 CServe,进而与 CentML 的一体化 AI 基础设施方案实现顺畅集成。借助 CentML 平台,开发者能够选择 Llama、Mistral 或 DeepSeek 等任何开源模型,并将其部署在任何硬件上(从英伟达 H100、AMD MI300X 到 TPU 均可),后续的性能优化和部署工作则由该技术栈自动完成。王尚表示,通过 CentML 平台,他和同事对于经 AWQ 量化的 DeepSeek-R1 模型进行了优化和部署。在 GPU 内核层面,CentML 借助 Hidet 编译器的领域特定语言 Hexcute,为 DeepSeek -R1 的关键组成部分——混合专家层构建了一个全融合 GPU 内核。相比基于 Triton 编译器打造的同类最佳方案,这一做法将 MoE 层的速度提升了 2 到 11 倍。此外,在推理引擎层面,CentML 构建了 EAGLE 推测式解码技术,该技术利用一个更小的草稿模型来减少原始大模型的工作量并助力其实现并行化,从而能够实现 1.5 到 2 倍的速度提升。

同样是在上述采访中,王尚还介绍了 CentML 团队发表在 2025 年机器学习与系统会议的一篇论文。该论文介绍了一款名为 Seesaw 的大模型推理引擎,其专门针对吞吐量导向型任务优化打造而来。Seesaw 的核心思想是动态模型重分片,该技术能够促进不同阶段间并行化策略的动态重构,从而在两个阶段均实现吞吐量最大化。为了减轻重分片开销以及优化计算效率,CentML 团队采用了分层 KV 缓存缓冲和过渡最小化调度的方法。这些方法通过协同作用能够减少因频繁的阶段转换所带来的开销,同时还能确保批处理效率的最大化。评估结果表明,与目前应用最广泛的顶尖大模型推理引擎 vLLM 相比,Seesaw 的吞吐量最高提升 1.78 倍(平均提升 1.36 倍)。

图 | Seesaw 的相关论文(来源:https://arxiv.org/pdf/2503.06433)

而此次 CentML 被英伟达收购以后,包含王尚在内的几位 CentML 创始人均已入职英伟达。原 CEO 佩基门科目前在英伟达担任 AI 软件高级总监,同时仍在多伦多大学担任教职;作为原 CTO 的王尚目前在英伟达担任 AI 软件系统经理;原首席架构师阿南德·贾亚拉詹(Anand Jayarajan)目前在英伟达担任工程经理;原 COO 阿克巴·努尔利巴耶夫(Akbar Nurlybayev)目前在英伟达担任 AI 软件高级经理。综合媒体报道和职业网站信息,英伟达此次还从 CentML 收编了十几名技术人员。总的来说,等待王尚等人的将是一个新的职业生涯。

参考资料:

1、https://thelogic.co/news/exclusive/nvidias-deal-centml-us400m/

http://www.cs.toronto.edu/~wangsh46/

https://thelogic.co/news/exclusive/centml-nvidia-acquisition-canada-ai/

https://www.theglobeandmail.com/business/article-nvidia-acquires-canadian-machine-learning-company-centml/

https://arxiv.org/abs/2402.16731

https://arxiv.org/abs/2102.02344

https://arxiv.org/abs/1907.10134

https://www.linkedin.com/in/anandj91/

https://www.linkedin.com/in/gpekhimenko/

https://www.linkedin.com/in/akbarnurlybayev/?originalSubdomain=ca

https://www.linkedin.com/in/shang-sam-wang-52851489/

https://centml.ai/

相关内容

女子购买9公斤白银欲线下交...
6月20日,四川资中公安及时阻断一起虚假贵金属投资电信网络诈骗,为...
2026-06-22 04:36:59
股市必读:中国黄金(600...
截至2026年6月18日收盘,中国黄金(600916)报收于7.5...
2026-06-22 04:36:55
6月孩子长高黄金期!多吃8...
6月阳光充足,人体新陈代谢加快,是孩子长高的黄金期。在这个时候,给...
2026-06-22 04:36:50
四线地铁环绕+40余条公交...
广州主城核心置业指南:深度解析保利·海韵交通价值 在广州主城核心区...
2026-06-22 04:36:45
股市必读:赤峰黄金(600...
截至2026年6月18日收盘,赤峰黄金(600988)报收于30....
2026-06-22 04:36:38
湖南黄金迎密集新老交接:5...
澎湃新闻记者 贺梨萍 湖南省属国有矿业龙头湖南黄金(002155....
2026-06-22 04:36:30
白银不是黄金 双重定价逻辑...
2025年初至今,黄金与白银共同走出一轮牛市,但两者涨幅和节奏存在...
2026-06-22 04:36:28

热门资讯

女子购买9公斤白银欲线下交给陌... 6月20日,四川资中公安及时阻断一起虚假贵金属投资电信网络诈骗,为辖区群众止损14万元。原来,陈女士...
6月孩子长高黄金期!多吃8样开... 6月阳光充足,人体新陈代谢加快,是孩子长高的黄金期。在这个时候,给孩子多吃一些开胃菜,既能补钙补锌养...
女子大手笔购买53万黄金,准备... 近日 杭州萧山宁围派出所珠宝城反诈工作室 与分局反诈中心紧密协作、快速响应 及时拦截一起 “线下黄金...
黄金狂跌28%!华尔街集体翻空 猝不及防,黄金跌下神坛。 6月20日,国内金饰价格再度下跌。老凤祥足金首饰价格跌至1258元/克,周...
原创 错... 2026年6月21日,世界杯小组赛第二轮,厄瓜多尔对阵库拉索。在这场比赛中,厄瓜多尔与库拉索均没有取...
万亿级农商联合银行密集出手!农... 近日,国家金融监督管理总局广西监管局密集发布批复,同意广西农村商业联合银行(下称“广西农商联合银行”...
天能铂金电池规模有多大 在消费升级与绿色出行加速普及的背景下,电池行业正从传统基础动力供应向高安全、长续航、智能化、全场景适...
老旧黄金首饰处置 现场打金改款... 旧金改款的市场背景 随着黄金消费市场的发展,不少家庭都存有一定数量的黄金饰品,其中不乏款式过时、尺寸...
7月1日起日本签证费由3000... 新京报贝壳财经讯 6月19日,日本政府在宣布,自2026年7月1日起实施新的签证收费标准。 调整后,...