有网友称CUDA 是 Nvidia 最深的护城河

硬件公司在设计产品的时候需要有一定前瞻性的,需要预测市场的走向,需求的走向,产品的定位等等。这个预测可能是3~5年前出来的。没错,就像你们想的,有的时候预测对了,就是你们看见的大卖的产品;也有很多时候预测错了,就是各种失败的典型,甚至悲惨到“失败”本身都没人知道。就像当年 Intel 的 Skylake 架构准确把握了云计算兴起的脉动,为数据中心业务,也就是以 Xeon 为代表的服务器 CPU (他还有个好听的中文名字,叫“至强”,和我小时候喜欢看的一部动画片 《蓝宝石之谜》里面的男主重名),带来了差不多十年的躺赢时段。还有 Nvidia 从 Pascal 开始准确契合了 AI 的发展进程, 还有目前以 ChatGPT 为代表的 LLM (Large Language Model) 蓬勃发展,简直把 A100 当成了算力的单位。这种“预测”的成功或者失败带来的可能是整个行业翻天覆地的变化。

对于 CPU 和 GPU 在 AI 领域的竞争,可以说 Nvidia 一开始就走在了前面,不过最开始 Intel 落后并不算多。在 Kepler 时代,我还是能依靠出色软件优化能力,拿出全面优于 GPU 的方案;Maxwell 时代实际上就有点力不从心了。那个时间点 Skylake 实际上是有性能优势的,无奈当时我司在 AI 方向的产品策略:默认在部署(Inference)端,认为 CPU 是稳赢的;然后在训练(Training)端,通过 Xeon Phi (这是个类似于 GPU 的通用计算卡,长得和 GPU 差不多,但是复用 CPU 的软件生态) 来和 GPU 抗衡。至今我还对 VP 当时展示的那页 AI 路线图记忆犹新,其实在 Xeon Skylake 和 Xeon Phi 之间还有两款产品,就是上面说的“失败”得都没人知道你的失败的产品。

我这些年见过的最烂的两款产品:一个是 Xeon Phi 的第二代(codename: KNL),另一个是他的第三代 (codename: KNM),当然 KNM 还没量产就被取消了。KNL 多少还是有点市场,这东西比较适合超算,但 KNM 实在扶不起来:它的设计思路是通过一个 4fma 的指令实现 float32 算力的加倍。但实际中,这条指令对矩阵的尺寸有很多限制条件,导致实际的场景中能被加速的情况寥寥无几,也就是标称有差不多 12Tflops,但实际中效率普遍低于 10%。这款产品还给我当时的团队带来了严重的管理危机,因为它“标称”很高,所以老板“认为”它就应该能够干掉当时的 GPU,那个时间点的竞品是 M40。“无奈臣妾做不到”,给我换 Skylake 可以做到,但 KNM 就是怎么优化都不行。最终直接或者间接导致和我一起做 torch 优化工作的另外 4 名工程师全部离职,这几个人还都挺厉害的,他们现在都为各自的公司做出了杰出贡献!不过神奇的是,当时 KNM 在国内是有少量订单的,不得不说 sales 的同事真是厉害!

后来 Nvidia 祭出 P100,这是个 Intel 被甩开的时间点,在这之后差距被越来越大,P100, T100, V100, A100。算力上的差距以肉眼可见的速度被逐渐放大。大模型出来之后简直要砸键盘了,感觉加点又 TM 加错了。

比起硬件算力的差距,软件生态上的差距更让人绝望。当 CUDA 几乎与 AI 画等号的时候,会有大量的社区力量为其助力。这就是一种良性循环:好的性能带来好的生态,好的生态会有助于更好的性能。比如目前 PyTorch 一个季度 release 一次,还有小版本的 release。一次大版本更新可能进 三四千个 Pull Request,这里面 Facebook 固然是主导,当然也有很多专业公司的贡献,但社区开发者的贡献同样不容小觑,而这些改动多数都是 CUDA 为主的。我个人的话,一年大概也能进就百十来个 Pull Request,这里面还不全都是优化,也有一些是在修 BUG。有时候一些比较麻烦的优化,一个就要写个把月,一两百个 commit 的改动。这就是生态的力量,也就是为什么说 CUDA 是 Nvidia 最深的护城河。如果你不加入,感觉就是一个人对抗一个集团。而现实世界中是没有像 Jane 那样的独成一档的5级变种人的。

有一点必须承认的是 Nvidia 在 GPGPU 上的工作不是一蹴而就的,这是个长达十余年的漫长积累。我念硕士的时候也是写 GLSL,CUDA 这些东西。Nvidia 的教育项目做得很好,导致现在的工程师都会写 CUDA。

有网友称CUDA 是 Nvidia 最深的护城河

声明:本站文章,有些原创,有些转载,如发现侵权侵请联系删除。本站所有原创帖均可复制、搬运,开网站就是为了大家一起乐乐,不在乎版权。对了,本站小水管,垃圾服务器,请不要采集,吐槽君纯属用爱发电,经不起折腾。

给TA打赏
共{{data.count}}人
人已打赏
技术宅

Beeper Mini for Android重获新生 但能用多久谁也说不准

2023-12-12 8:42:15

技术宅

据说GitHub.com 跑了 1200 多台 MySQL 主机,这么庞德的数量是如何无缝升级到 8.0?

2023-12-14 1:28:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索