黄仁勋最新采访:谈CUDA、TPU、华为和其他

发表于 3 小时前 | 显示全部楼层 |阅读模式
57 4
在昨日一个采访中,Vlogger Dwarkesh Patel向英伟达CEO Jensen Huang 询问了关于 TPU 竞争、英伟达如何掌控日益紧张的先进芯片供应链、我们是否应该向中国出售 AI 芯片、英伟达为什么不转型为超大规模数据中心、其投资策略等等问题。
以下是我们总结的的三十个重要观点:
1、所有产能问题都可以在两三年内轻松解决
2、CPU有点像凯迪拉克,它是一款舒适的巡航车,速度不会太快,每个人都能轻松驾驭;它配备了巡航控制,一切都很简单。但在很多方面,英伟达的GPU和加速器就像F1赛车
3、跟Elon Musk吃过饭,但Musk没有恳求黄仁勋优先供货GPU
4、GPU订单遵循先来后到原则
5、不喜欢“价高者得”的经营方式
6、后悔错过Anthropic
7、不喜欢挑选赢家进行支持,而是雨露均沾,让他们自由发展
8、依然不看好ASIC,没有任何一个ASIC公司有英伟达可靠
9、和台积电没有法律合同
10、今年的Vera Rubin将会非常出色;明年Vera Rubin Ultra将问世;后年,Feynman将横空出世
11、中国生产了全球60%的主流芯片,甚至更多
12、中国拥有一些世界上最顶尖的计算机科学家
13、中国拥有全球50%的人工智能研究人员
14、中国不是敌人,他们只是对手
15、中国的计算能力非常庞大,中国是全球第二大计算市场。如果他们想整合计算资源,完全可以满足需求。
16、中国拥有的能源量惊人,充足的能源是中国的优势
17、如果中国愿意,他们完全可以把更多的芯片集中起来
18、认为中国无法制造人工智能芯片的说法完全是无稽之谈
19、中国是全球最大的开源软件贡献国
20、中国也是全球最大的开放模型贡献国
21、7nm芯片已经足够好了
22、建立两个生态系统——一个只能运行在外国技术栈上的开源生态系统,另一个是运行在美国技术栈上的封闭生态系统——的做法是极其愚蠢的
23、人工智能本质上就是一个并行计算问题
24、MoE 是一项伟大的发明
25、DeepSeek 绝非无关紧要的进步,如果 DeepSeek 先在华为平台上发布,那对美国来说将是灾难性的
26、x86架构的存在是有原因的。ARM架构如此根深蒂固也是有原因的。这些生态系统难以替代。这需要耗费大量的时间和精力,而且大多数人都不愿意这样做
27、英伟达在中国份额大幅下降
28、架构至关重要,计算机科学至关重要。半导体物理固然重要,但计算机科学才是重中之重
29、即使人工智能今天尚未出现,英伟达的规模也会非常庞大
30、如果没有人工智能,我会非常难过
英伟达最大的护城河是其对稀缺供应链的控制吗?
Q:我们已经看到许多软件公司的估值暴跌,因为人们预期人工智能会使软件商品化。有一种可能过于天真的想法是:你看,英伟达把GDS2文件发给台积电。台积电制造逻辑芯片,制造交换机芯片,然后将它们与SK海力士、美光和三星生产的HBM内存封装在一起。之后,台积电将封装好的芯片发给台湾的ODM厂商,由他们组装成机架。从本质上讲,英伟达制造的是其他人制造的软件,如果软件商品化了,英伟达也会商品化吗?
黄仁勋:最终,总得有某种机制将电子转化为tokens。将电子转化为tokens,并随着时间的推移提升这些tokens的价值,这很难完全商品化。从电子到tokens的转化是一个不可思议的旅程。制造tokens就像让一个分子比另一个分子更有价值,让一个tokens比另一个更有价值。显然,我们正在实时见证着tokens价值的提升,其中蕴含着大量的艺术、工程、科学和发明创造。这种转化、制造以及所有相关的科学原理,我们远未被完全理解,这段旅程也远未结束。我怀疑它最终能否实现。
我们当然会提高效率。你提出的问题正是我对我们公司的理解。输入是电子,输出是tokens。英伟达位于中间。我们的工作是在必要范围内尽可能少地干预,从而以惊人的能力实现这种转型。我所说的“尽可能少地干预”,是指任何我不需要亲自完成的事情,我都会与其他合作伙伴一起,将其纳入我的生态系统。
如果你看看今天的英伟达,我们可能拥有规模最大的合作伙伴生态系统,涵盖供应链的上下游,包括所有计算机公司、应用开发商和模型构建者。人工智能就像一个五层蛋糕,我们的生态系统遍布所有五个层面。我们尽量少做,但事实证明,我们必须做的那部分工作极其困难。我认为这部分工作无法商品化。(We try to do as little as possible, but the part that we have to do, as it turns out, is insanely hard)
事实上,我也不认为企业软件公司、工具制造商……如今大多数软件公司都是工具制造商。当然,也有一些公司不是,它们开发的是工作流程编码系统。但对很多公司来说,它们确实是工具制造商。例如,Excel 是工具,PowerPoint 是工具,Cadence开发工具,Synopsys也开发工具。实际上,我看到的恰恰与人们的看法相反。我认为代理的数量和工具用户的数量都将呈指数级增长。所有这些工具的实例数量很可能会激增。
Synopsys Design Compiler的实例数量很可能会激增,使用平面规划器、布局工具和设计规则检查器的代理数量也会随之大幅增长。如今,我们受限于工程师的数量。未来,这些工程师将得到大量agent的支持。我们将以前所未有的方式探索设计空间,并继续使用我们今天使用的工具。
我认为工具的使用将推动软件公司蓬勃发展。之所以目前还没有出现这种情况,是因为agents还不擅长使用这些工具。要么这些公司会自行开发代理商,要么agents会变得足够熟练,能够使用这些工具。我认为最终会是两者的结合。
Q:在你们最新的文件中,你们与代工厂、内存和封装厂商签订了近1000亿美元的采购承诺。SemiAnalysis报道称,你们这类采购承诺的总额将达到2500亿美元。一种解读是,英伟达的护城河实际上在于你们锁定了未来几年这些稀缺组件的供应。其他厂商或许拥有加速器,但他们真的能获得所需的内存吗?他们真的能获得所需的逻辑芯片吗?这真的是英伟达未来几年最大的护城河吗?
黄仁勋:这是我们能做到而别人很难做到的事情之一。我们在上游投入了大量资源。有些是明确的,比如你提到的这些承诺。有些则是隐性的。例如,我们供应链上的许多上游投资都是由他们进行的,因为我曾对各位CEO说:“让我告诉你们这个行业将会发展到多大的规模,让我解释一下原因,让我和你们一起分析,让我向你们展示我所看到的。”
通过与上游各行各业的CEO们沟通、启发和协调,他们才愿意进行投资。为什么他们愿意为我而不是为其他人投资呢?原因在于,他们知道我有能力购买他们的产品,并通过我的下游渠道销售。事实上,英伟达的下游供应链和我们的下游需求都非常庞大,因此他们愿意进行上游投资。(As a result of that process of informing, inspiring, and aligning with CEOs of all different industries upstream, they’re willing to make the investments. Why are they willing to make the investments for me and not someone else? The reason for that is because they know that I have the capacity to buy their supply and sell it through my downstream. The fact is that Nvidia’s downstream supply chain and our downstream demand is so large, they’re willing to make the investment upstream.)
如果你看看GTC大会,人们都会惊叹于它的规模和参会人员之多。它涵盖了人工智能领域的方方面面,可谓包罗万象。他们齐聚一堂,是因为彼此需要交流。我把他们聚集在一起,是为了让下游企业了解上游,上游企业了解下游,让所有人都能了解人工智能的最新进展。更重要的是,他们还能与人工智能领域的专家、正在蓬勃发展的人工智能初创公司以及所有令人惊叹的成果见面,亲眼见证我所讲述的一切。我花费大量时间,直接或间接地向我们的供应链、合作伙伴和生态系统传达我们面前的机遇。
有些人总是说:“Jensen,大多数主题演讲都是一个接一个的公告。”但我们的主题演讲总会有一部分内容让人感觉有点“折磨”,因为它几乎像是在进行教育。事实上,这正是我所关注的。我需要确保整个供应链,从上到下,整个生态系统,都了解即将发生的事情,它为什么会发生,何时发生,规模有多大,并且能够像我一样系统地思考和分析它。
关于您所描述的护城河,我们有能力为未来做好准备。如果未来几年我们的规模达到万亿美元,我们拥有相应的供应链。如果没有我们的影响力,我们业务的发展速度……就像现金流、供应链和客户流失一样,如果业务流失率很低,没有人会为一个架构构建供应链。我们之所以能够维持如此庞大的规模,完全是因为下游需求巨大。他们看到了这一点,听到了相关信息,预见到了这一切。这使我们能够以如此大的规模去做我们能够做的事情。
Q:我确实想更具体地了解上游能否跟上步伐。多年来,你们的收入每年都翻一番。你们提供给全球的flops数每年都增长三倍以上。
黄仁勋:现在以这种规模翻倍真的太不可思议了。
Q:没错。但你再看看逻辑。你是台积电N3工艺节点的最大客户,也是N2工艺节点的最大客户之一。今年人工智能整体将占N3工艺节点的60%,根据SemiAnalysis的预测,明年将达到86%。如果你已经占据了大部分市场份额,如何才能实现翻番?又该如何逐年实现这一目标?我们现在是否正处于一个由于上游工艺的限制,人工智能计算增长速度不得不放缓的阶段?你认为有什么办法可以解决这个问题?最终,我们如何才能实现每年两倍的晶圆厂建设量?
黄仁勋:在某种程度上,瞬时需求大于全球上下游的供应。在任何时刻,我们都可能面临plumbers数量不足的限制,而这种情况实际上也时有发生。
Q:plumbers受邀参加明年的GTC大会。
黄仁勋:顺便说一句,这主意不错。但这只是个好条件。你想要的是一个瞬时需求大于行业总供给的行业。反之则显然不好。如果我们之间的距离太远,如果某个特定组件的供应量太少,整个行业就会蜂拥而至。例如,你会发现现在人们很少再谈论CoWoS了。
原因在于,过去两年我们全力以赴,实现了超负荷的产能扩张。我们连续数次加倍,每次都翻倍。现在我认为我们形势相当不错。台积电现在也意识到,CoWoS的供应必须跟上逻辑电路和存储器的需求。他们正以与逻辑电路相同的速度扩展CoWoS和未来的封装技术。这非常棒,因为长期以来,CoWoS和HBM存储器都属于小众技术。但现在它们不再是小众技术了。人们现在意识到它们已经成为主流的计算技术。
当然,我们现在更有能力影响供应链的更大范围。在人工智能革命之初,我五年前就说过现在我说的这些话。有些人相信它并进行了投资,例如Sanjay和美光团队。我仍然清楚地记得那次会议,会上我清楚地阐述了将会发生什么、为什么会发生以及今天的预测。他们确实加倍投入。我们在LPDDR和HBM内存领域与他们展开了合作,他们也确实投入了大量资金。这显然对公司产生了巨大的影响。有些人加入得晚一些,但现在他们都在这里了。
这些瓶颈问题都受到了高度重视。现在,我们正在提前数年预先解决这些瓶颈问题。例如,过去几年我们对Lumentum 、Coherent以及硅光子生态系统的投资,真正重塑了供应链。我们围绕台积电构建了一条完整的供应链。我们与他们合作开发了COUPE 项目,发明了大量技术,并将这些专利授权给供应链,以保持其开放性和高效性。
我们正在通过发明新技术、新工作流程、新型测试设备(例如双面探针测试)来构建供应链,同时投资于相关企业并帮助它们扩大产能。可以看出,我们正努力塑造整个生态系统,使供应链能够支持规模化发展。
Q:似乎有些瓶颈比其他瓶颈更容易解决。例如,扩展 CoWoS 与其他扩展方式相比。
黄仁勋:顺便说一句,我碰到的是难度最高的那一个。
Q:哪个?
黄仁勋:水管工和电工。这就是我对那些描述工作终结和职业消亡的末日论者感到担忧的原因之一。如果我们劝阻人们成为软件工程师,我们就会面临软件工程师短缺的问题。十年前也出现过同样的预测。一些末日论者告诫人们:“无论如何,千万别当放射科医生。”你可能还会在网上看到一些这样的视频,说放射科医生将是第一个消失的职业,世界将不再需要更多的放射科医生。猜猜我们现在缺什么?放射科医生。
Q:回到之前关于有些东西可以规模化生产,而有些东西却不行这一点……你究竟如何才能每年生产两倍的逻辑电路?归根结底,存储器和逻辑电路的瓶颈都在于极紫外光刻(EUV)。你如何才能逐年获得两倍的极紫外光刻设备?
黄仁勋:这些都不是无法快速扩展的。所有这些都可以在两三年内轻松实现。你只需要一个需求信号。一旦你能造出一个,你就能造出十个;一旦你能造出十个,你就能造出一百万个。这些都不难复制。
Q:你会追溯到供应链的哪个环节?你会去找ASML说:“嘿,如果我展望三年后,英伟达的年收入达到两万亿美元,我们需要更多的EUV光刻机”吗?
黄仁勋:有些我必须直接说服,有些需要间接,还有一些……如果我能说服台积电,ASML也会被说服。我们必须考虑关键的瓶颈。但如果台积电被说服了,几年后你们就会有很多EUV光刻机可用了。
我的意思是,所有瓶颈都不会持续超过两三年,一个都不会。与此同时,我们的计算效率提高了10倍、20倍,以Hopper到Blackwell为例,甚至提高了30倍到50倍。由于CUDA的灵活性,我们不断开发新的算法。我们正在开发各种新技术,以提高效率,同时提升产能。这些我都不担心。真正让我担忧的是下游的问题。那些阻碍能源发展的能源政策……没有能源,就无法建立任何产业。没有能源,就无法建立一个全新的制造业。
我们希望重振美国工业。我们希望恢复芯片制造、计算机制造和封装产业。我们希望研发电动汽车和机器人等新产品。我们希望建设人工智能工厂。所有这些都离不开能源,而且这些项目都需要很长时间。增加芯片产能,这需要两到三年的时间。增加CoWoS产能,也需要两到三年的时间。
Q:有意思。我感觉有时候客人会跟我说完全相反的话。这种情况下,我确实缺乏相关的专业知识来判断。
黄仁勋:最妙的是,你是在和专家对话。
TPU 能否打破英伟达在 AI 计算领域的垄断地位?
Q:我想问问你们的竞争对手。如果你看看TPU ,可以说全球排名前三的模型中,有两款——Claude和Gemini——都是用TPU训练的。这对英伟达未来的发展意味着什么?
黄仁勋:我们打造的是截然不同的东西。英伟达打造的是加速计算,而不是张量处理单元。加速计算的应用范围非常广泛:分子动力学、量子色动力学、数据处理、数据帧、结构化数据和非结构化数据。它也用于流体动力学和粒子物理学。此外,我们还将其应用于人工智能领域。
加速计算的范畴远比这广泛得多。虽然人工智能是当今的热门话题,而且显然非常重要且影响深远,但计算的范畴远不止于此。英伟达彻底革新了计算方式,从通用计算转向加速计算。我们的市场覆盖范围远远超过任何TPU或ASIC芯片所能企及的范围。从我们的市场地位来看,我们是唯一一家能够加速所有类型应用程序的公司。我们拥有庞大的生态系统。因此,各种框架和算法都可以在英伟达平台上运行。
因为我们的计算机设计之初就考虑到了由他人操作,所以任何具备操作能力的人都可以购买我们的系统。而大多数自建系统则需要用户自行操作,因为它们的设计初衷并非为了方便他人操作。由于任何人都可以操作我们的系统,因此我们的产品已部署在包括 Google、Amazon、Azure 和 OCI 在内的所有云平台上。
如果您想以租赁方式运营,最好拥有一个涵盖多个行业的庞大客户生态系统,以便他们成为承购方。如果您想自行运营,我们当然有能力帮助您,就像我们之前为埃隆·马斯克提供的 xAI 服务一样。而且,由于我们能够赋能任何公司和任何行业的运营者,您可以利用这项技术为礼来公司构建一台用于科学研究和药物研发的超级计算机。我们可以帮助他们运营自己的超级计算机,并将其用于我们所加速的各个药物研发和生物科学领域。
我们能够解决很多TPU无法解决的应用问题。英伟达打造CUDA的目的不仅在于使其成为一个出色的张量处理单元,它还能处理数据处理、计算、人工智能等各个生命周期。我们的市场机会更大,覆盖范围也更广。因为我们现在支持全球所有应用,所以无论你在哪里构建英伟达系统,都无需担心找不到客户。这完全是两码事。
Q:这将是一个很长的问题。你们的营收非常惊人,但你们每季度600亿美元的收入并非来自制药和量子计算领域。你们之所以能做到这一点,是因为人工智能是一项前所未有的技术,而且它正以前所未有的速度发展。
那么问题就变成了:哪种方案最适合人工智能?我不太了解细节,但我跟我的人工智能研究朋友聊过,他们说:“你看,我用TPU的时候,它是一个大型的脉动阵列,非常适合做矩阵乘法,而GPU则非常灵活。当你需要处理大量分支或不规则的内存访问时,它就非常棒。”
但人工智能究竟是什么?它不过是不断重复进行这些非常可预测的矩阵乘法运算。你无需为线程束调度器或线程与内存库之间的切换而牺牲任何芯片面积。而且,TPU 针对当前计算领域收入增长和应用场景的大量需求进行了优化。我想知道你对此有何看法。
黄仁勋:矩阵乘法是人工智能的重要组成部分,但并非全部。如果你想提出新的注意力机制、以不同的方式进行分解,或者发明一种全新的架构——例如混合SSM——你需要一个通用的可编程架构。如果你想创建一个融合扩散和自回归技术的模型,你同样需要一个通用的可编程架构。我们几乎可以运行你所能想象的一切。这就是它的优势所在。由于它是一个可编程系统,因此可以更轻松地发明新的算法。
人工智能之所以能如此快速发展,真正的原因在于其不断发明新算法的能力。与其他任何事物一样,TPU(技术处理单元)也受到摩尔定律的影响,而摩尔定律的年增长率约为25%。要想真正实现10倍甚至100倍的飞跃,唯一的办法就是每年从根本上改变算法及其计算方式。
这就是英伟达的根本优势。我们之所以能让 Blackwell 的能效比 Hopper 高出50倍,唯一的原因是……当初我宣布 Blackwell 的能效将比 Hopper 高出35倍时,没人相信。后来Dylan写了篇文章说我故意隐瞒,但实际上能效是 Hopper 的50倍。单凭摩尔定律是无法实现这一点的。我们解决这个问题的方法是采用新的模型,例如MoE(模块化执行单元),这些模型可以并行化、解耦并分布在整个计算系统中。如果没有能力真正深入研究并利用 CUDA 开发新的内核,这一切都很难做到。
这得益于我们架构的可编程性,以及英伟达作为一家极致的协同设计公司的优势。我们甚至可以将部分计算任务卸载到架构本身(例如NVLink )或网络(例如Spectrum-X)中。我们可以同时对处理器、系统、架构、库和算法进行更改。如果没有 CUDA,我真不知道该从何入手。
Q:这引出了一个关于英伟达客户群的有趣问题。你们60%的收入都来自五大超大规模数据中心运营商。如果换个时代,面对不同的客户群体——比如说进行实验的教授——他们需要CUDA。他们无法使用其他加速器。他们只需要用CUDA运行PyTorch ,并且所有功能都得到优化。
但这些超大规模数据中心运营商拥有编写自有内核的资源。事实上,为了获得其特定架构所需的最后5% 的性能提升,他们必须这样做。Anthropic 和 Google 大多运行着自己的加速器,或者使用 TPU 和Trainium 。即使是使用 GPU 的 OpenAI,也使用Triton ,因为他们需要自己的内核。甚至在 CUDA C++ 方面,他们也没有使用cuBLAS和NCCL ,而是拥有自己的技术栈,该技术栈还可以编译到其他加速器上。如果你的大多数客户能够并且确实找到了 CUDA 的替代方案,那么 CUDA 在多大程度上真的能够推动 Nvidia 平台上的前沿 AI 应用?
黄仁勋:CUDA 拥有丰富的生态系统。如果您想先在任何计算机上进行构建,那么首先基于 CUDA 进行构建是非常明智的选择。正因为其生态系统如此丰富,我们才能支持所有框架。如果您想创建自定义内核……例如,我们为 Triton 做出了巨大贡献。因此,Triton 的后端使用了大量的 Nvidia 技术。
我们很高兴能够帮助每个框架发挥其最大潜力。框架种类繁多,例如 Triton、vLLM 、SGLang等等。现在又涌现出许多新的强化学习框架,例如verl和NeMo RL 。随着训练后处理和强化学习的不断发展,整个领域正经历着爆炸式增长。因此,如果您想基于某个架构进行开发,那么基于 CUDA 无疑是最佳选择,因为 CUDA 的生态系统非常完善。
你知道,如果出了问题,更有可能出在你的代码里,而不是底层那堆积如山的代码里。构建这些系统时,别忘了你要处理的代码量有多大。如果出了问题,是你的问题还是电脑的问题?你肯定希望问题总是出在你身上,并且能够信任电脑。当然,我们自己也存在很多 bug,但我们的系统已经过充分测试,至少你可以在这个基础上继续开发。这就是第一点:生态系统的丰富性、可编程性和强大功能。
第二点是,如果你是一名开发者,无论开发什么软件,你最看重的就是用户基数。你希望你编写的软件能够在大量的其他计算机上运行。你开发软件并非仅仅为了自己,而是为了你的服务器群,或者其他所有人的服务器群,因为你是一名框架构建者。英伟达的 CUDA 生态系统最终是其最大的财富。
现在市面上已经有数亿个GPU。每个云平台都配备了GPU。从A10 、A100 、H100 、H200 ,到L系列、P系列等等,种类繁多,尺寸和形状也各不相同。如果你是一家机器人公司,你肯定希望CUDA协议栈能够直接在机器人上运行。我们的产品几乎无处不在。庞大的用户群意味着,一旦你开发出软件或模型,它就能在任何地方使用。这简直太有价值了。
最后,我们能够覆盖所有云平台,这使我们真正独树一帜。如果您是一家人工智能公司或开发者,您可能并不确定应该与哪家云服务提供商合作,或者在哪里运行。我们几乎可以在任何地方运行,如果您愿意,我们也可以为您提供本地部署服务。丰富的生态系统、庞大的用户群以及我们灵活的部署方式,共同造就了 CUDA 的无可比拟的价值。
Q:这很有道理。我好奇的是,这些优势对你的主要客户来说是否重要。对很多人来说,这些优势可能很重要。能够构建自己软件栈的那类人贡献了你的大部分收入。尤其是在人工智能越来越擅长那些具有严格验证循环、可以进行强化学习的领域……如何编写一个内核,使其在规模化应用中能够最高效地处理注意力机制或多层感知器(MLP)?这是一个非常容易验证的反馈循环。
所有超大规模数据中心运营商都能自行编写这些定制内核吗?英伟达的性价比依然很高,所以他们可能仍然更倾向于使用英伟达的产品。但问题在于,最终会不会演变成谁能以最低的价格提供最佳的规格、浮点运算能力和内存带宽?历史上,英伟达凭借CUDA的护城河,在人工智能领域(包括硬件和软件)一直保持着最高的利润率,高达70%。而问题是,如果大多数客户能够负担得起自行构建,而不是依赖CUDA的护城河,英伟达还能维持这样的利润率吗?
黄仁勋:我们为这些人工智能实验室配备了数量惊人的工程师,他们与这些实验室合作,优化他们的技术栈。原因在于,没有人比我们更了解我们的架构。这些架构不像CPU那样通用。CPU有点像凯迪拉克,它是一款舒适的巡航车,速度不会太快,每个人都能轻松驾驭。它配备了巡航控制,一切都很简单。但在很多方面,英伟达的GPU和加速器就像F1赛车。我估计每个人都能以每小时一百英里的速度驾驶它,但要将其性能发挥到极致,则需要相当丰富的专业知识。我们运用了大量的人工智能技术来创建我们的内核。
我非常肯定,在相当长的一段时间内,我们仍然会被需要。我们的专业知识通常能帮助我们的人工智能实验室合作伙伴轻松地将他们的技术栈性能提升两倍。我们完成技术栈优化或特定内核优化后,他们的模型速度提升三倍、两倍甚至五成的情况并不少见。这是一个巨大的数字,尤其考虑到他们庞大的设备基数,包括他们所有的 Hopper 和 Blackwell 等计算单元。性能提升一倍,收入也会翻倍。这直接转化为实际收益。
英伟达的计算堆栈是全球性价比最高的,没有之一。目前世界上没有任何一个平台能证明它的性能/总拥有成本比更高。没有一家公司能做到。事实上,现有的基准测试,比如Dylan的InferenceMAX ,人人都能用,但没有任何一家公司能做到……TPU不会推出,Trainium也不会推出。
我鼓励他们使用 InferenceMAX 来展示他们惊人的推理成本。这真的很难。没人愿意来。MLPerf 。我倒是很想听听 Trainium 展示一下他们一直声称的40% 的成本优势。我很想听听他们如何证明 TPU 的成本优势。在我看来,这完全说不通。一点道理都没有。从根本上来说,这根本说不通。
所以我认为我们如此成功的原因很简单,就是我们的总体拥有成本 (TCO) 非常低。其次,您提到我们60% 的客户是前五大企业,但其中大部分业务都是外部业务。例如,AWS 上的英伟达产品大部分是为外部客户而非内部用户提供的。Azure 上的所有客户也都是外部客户。OCI 上的所有客户也都是外部客户,而非内部用户。他们之所以青睐我们,是因为我们的覆盖范围非常广。我们可以为他们带来全球所有优秀的客户。这些客户都基于英伟达的产品。而所有这些公司之所以都基于英伟达的产品,正是因为我们覆盖范围广、功能多样。
所以我认为真正的飞轮效应在于用户基数、我们架构的可编程性、我们生态系统的丰富性,以及全球人工智能公司数量众多这一事实。现在有成千上万家人工智能公司。如果你是其中一家人工智能初创公司,你会选择哪种架构?你会选择最普及的架构。而我们的架构是全球最普及的。你会选择用户基数最大的架构。而我们的用户基数最大。你还会选择拥有丰富生态系统的架构。
这就是飞轮效应。原因在于:首先,我们的每美元性能如此之高,以至于他们的tokens成本最低。其次,我们的每瓦性能是全球最高的。因此,如果我们的合作伙伴建造了一个1吉瓦的数据中心,那么这个1吉瓦的数据中心必须能够产生最大的收益和tokens数量,这直接转化为收入。您希望它产生尽可能多的代币,从而最大化数据中心的收益。我们拥有全球最高的每瓦代币产量架构。最后,如果您的目标是租用基础设施,我们拥有全球最多的客户。这就是飞轮效应发挥作用的原因。
Q:有意思。我想问题的关键在于,实际的市场结构究竟如何?因为即便还有其他公司……原本可能存在成千上万家人工智能公司,它们大致平分计算资源。但即便通过这五家超大规模数据中心,真正使用亚马逊计算资源的仍然是 Anthropologie、OpenAI 以及那些有能力且能够自行部署不同加速器的大型基金会实验室。
黄仁勋:不,我认为你的前提是错误的。
Q:也许吧。不过,我想问你一个稍微不同的问题。如果价格、性能、每瓦性能等等这些说法都是真的,那么你认为为什么像 Anthropic 这样的公司会在几天前宣布他们与 Broadcom 和 Google 达成了一项数吉瓦的 TPU 协议,用于他们的大部分计算呢?
显然,对谷歌来说,TPU 占据了大部分计算资源。所以,如果我观察这些大型人工智能公司,会发现它们的很多计算资源……曾经有一段时间它们都依赖英伟达的加速器,但现在情况并非如此。因此,我很好奇,如果这些说法在理论上成立,它们为什么会选择其他加速器呢?
黄仁勋:Anthropic 是一个特例,而非一种趋势。如果没有 Anthropic,TPU 又怎会增长?它完全是 Anthropic 的功劳。如果没有 Anthropic,Trainium 又怎会增长?它也完全是 Anthropic 的功劳。我认为这一点已广为人知。ASIC 的机会并不多,Anthropic 只有一个。
Q:但OpenAI 与 AMD 达成了协议……他们正在打造自己的Titan加速器。
黄仁勋:是的,但我想我们都应该承认,它们很大程度上是英伟达的产品。我们仍然会继续合作。我不介意其他人使用其他产品或尝试其他技术。如果他们不去尝试,又怎么知道我们的产品有多好呢?有时候,我们需要有人提醒自己这一点。我们必须不断地努力才能保住现在的地位。
总是有很多夸张的说法。看看有多少ASIC项目被取消就知道了。就算你打算造ASIC……你还得造出比英伟达更好的产品。造出比英伟达更好的产品可没那么容易。实际上,这根本不现实。英伟达肯定漏掉了什么,真的。因为我们的规模和速度,我们是世界上唯一一家每年都能持续产出新产品的公司。每年都有巨大的飞跃。
Q:我猜他们的逻辑是,“嘿,它不需要更好。它只需要比原来的差不超过70%就行了”,因为他们付给你的是70%的利润率。
黄仁勋:不,别忘了,即使是ASIC芯片,利润率也相当高。比如说,英伟达的利润率是70%。但ASIC芯片的利润率只有65%。你到底能省多少钱?
Q:哦,你是说博通之类的公司吗?
黄仁勋:当然,总得付钱给别人吧。就我所知,ASIC的利润率非常高。他们自己也这么认为,而且他们对ASIC惊人的利润率相当自豪。
所以,你问了为什么。很久以前,我们确实没有能力做到这一点。当时,我并没有深刻意识到建立像 OpenAI 和 Anthropic 那样的基础性人工智能实验室有多么困难,也没有意识到他们需要供应商投入巨资。我们当时根本无力向 Anthropic 投资数十亿美元,让他们使用我们的计算资源。但谷歌和 AWS 有。他们一开始就投入了巨资,作为回报,Anthropic 可以使用他们的计算资源。而我们当时确实没有能力做到这一点。
我觉得我的错误在于,我没有真正理解他们其实别无选择,风险投资家绝不会把50亿到100亿美元投资到一个人工智能实验室,指望它能像Anthropic那样成功。所以这是我的失误。但即便我当时理解了这一点,我想我们当时也没有能力这么做。但我不会再犯同样的错误了。
我很高兴能投资 OpenAI,也很高兴能帮助他们扩大规模,而且我认为这样做至关重要。后来,当 Anthropic 找到我们时,我也很高兴能成为他们的投资者,帮助他们扩大规模。只是当时我们力不从心。如果一切可以重来——如果英伟达当时就能达到现在的规模——我绝对会非常乐意这么做。
为什么英伟达不成为超大规模数据中心运营商?
Q:这确实很有意思。多年来,英伟达一直是人工智能领域最赚钱的公司,赚了很多钱。现在你们开始投资人工智能了。据报道,你们在OpenAI投资了高达300亿美元,在Anthropic投资了100亿美元。现在它们的估值都提高了,我相信还会继续增长。
所以,如果你这些年来一直为他们提供计算资源,并且预见到它的发展方向,而几年前——甚至在某些情况下,一年前——他们的价值只有现在的十分之一,而你又手握大量现金——那么,英伟达完全可以转型为基金会实验室,进行巨额投资来实现这一目标,或者更早地以现在的估值完成你现在达成的这些交易。而且你当时也有足够的资金这样做。所以我很想知道,为什么你没有更早地这样做呢?
黄仁勋:我们尽早完成了这件事。如果可以,我甚至会更早去做。当时Anthropic需要我们做这件事的时候,我们却无能为力。这样做也不符合我们的本性。
Q:怎么会这样?是现金交易之类的吗?
黄仁勋:是的,投资规模的问题。当时我们从未在公司外部投资过,而且投资额也不大。我们当时没意识到需要投资。我一直以为他们可以像其他公司一样,直接去风投那里融资,我的天哪。但他们想做的事情,风投是做不到的。OpenAI想做的事情,风投是做不到的。我现在明白了。当时我并不知道。
但这就是他们的过人之处。这就是他们聪明的原因。他们当时意识到自己必须做这样的事。我很高兴他们这么做了。尽管我们导致Anthropic不得不转投他人,但我仍然为此感到高兴。Anthropic的存在对世界意义重大。我为此感到欣慰。
Q:我猜你仍然赚了很多钱,而且每个季度都在赚得更多。
黄仁勋:有遗憾也是正常的。
Q:所以问题依然存在。既然我们已经到了这里,而且你们也一直在赚这笔钱,那么英伟达应该怎么用呢?一个答案是,现在已经出现了一个完整的中间商生态系统,可以将这些实验室的资本支出转化为运营支出,以便他们能够租用计算资源。因为芯片非常昂贵,而且由于人工智能模型不断改进,它们在其生命周期内能带来巨额利润。因此,它们创造的价值,也就是它们的代币,正在不断增长,但搭建这些系统成本很高。英伟达有足够的资金来承担这些资本支出。事实上,据报道,你们为CoreWeave项目提供了高达63亿美元的支持,并且已经投资了20亿美元。
为什么英伟达不自己做云服务商?为什么不自己做超大规模云服务商,把计算资源出租出去?他们有这么多钱可以这么做。
黄仁勋:这是公司的理念,我认为很明智。我们应该尽可能少地投入,只做必要的事情。这意味着,如果我们不去构建我们的计算平台,我相信这项工作就无法完成。如果我们不承担现在承担的风险——如果我们不以现在的方式构建 NVLink,如果我们不构建整个技术栈,如果我们不以现在的方式创建生态系统,如果我们不投入20年的时间,即使大部分时间都在亏损,也要致力于 CUDA 的发展——如果我们不去做,其他人就不会去做。
如果我们当初没有创建所有CUDA-X 库,使它们都针对特定领域……十五年前,我们开始大力开发领域特定库,因为我们意识到,如果我们不创建这些领域特定库,无论是光线追踪、图像生成,甚至是早期人工智能的模型,无论是数据处理、结构化数据处理还是矢量数据处理,如果我们不创建它们,就不会有人创建。我对此深信不疑。我们创建了一个名为cuLitho的计算光刻库。如果我们不创建它,就不会有人创建。因此,如果我们不做这些,加速计算就不会发展到今天这样的程度。
所以我们应该这样做。我们应该倾尽全力,全心全意地投入到这项工作中。然而,世事难料。如果我不做,也会有人去做。因此,我们公司至今仍然秉持着“尽可能多做,但尽可能少做”(doing as much as needed but as little as possible)的理念。我所做的每一件事,都遵循着这个原则。
就云计算而言,如果我们当初不支持CoreWeave ,这些 neoclouds、这些 AI 云就不会存在。如果我们当初没有帮助 CoreWeave 发展,它们也不会存在。如果我们当初没有支持Nscale ,它们就不会有今天的成就。如果我们当初没有支持Nebius ,它们也不会有今天的成就。如今,它们发展得非常出色。
这算是一种商业模式吗?我们应该尽可能多地做事,尽可能少地干预。所以我们投资于我们的生态系统,因为我希望我们的生态系统蓬勃发展。我希望架构和人工智能能够与尽可能多的行业、尽可能多的国家连接起来,使整个地球能够基于人工智能和美国的技术栈而运转。这正是我们正在追求的愿景。
您刚才提到的一点是……有很多非常优秀的基金会模式公司,我们尽量投资所有这些公司。这也是我们所做的。我们不挑选赢家。我们需要支持所有公司。这是我们投资的乐趣所在,也是我们业务的必要组成部分。但我们也会刻意避免挑选赢家。所以,当我投资一家公司时,我也会投资所有相关的公司。
Q:你为什么刻意不去挑选赢家?
黄仁勋:第一,这不是我们的职责。第二,英伟达创立之初,有60家3D图形公司。我们是唯一一家存活下来的。如果你把这60家图形公司都列出来,问问自己哪家会成功,英伟达肯定排在失败名单的首位。
这事发生在你很久以前,但英伟达的图形架构一开始确实是错的,不是一点点错,而是我们创造了一个彻头彻尾的错误架构,开发者根本无法维护。它注定失败。我们当初的出发点是好的,但最终却得到了错误的解决方案。所有人都认为我们会失败。而我们现在却成功了。
所以我足够谦逊,能够认识到这一点。不要人为地挑选赢家。要么让他们各自发展,要么就帮助他们所有人。
Q:有一点我不明白,你说:“我们优先发展这些NeoCloud项目,并非仅仅因为它们是NeoCloud,我们想扶持它们。”但你又列举了一堆NeoCloud项目,说如果没有NVIDIA,它们根本不会存在。这两件事怎么能自相矛盾呢?
黄仁勋:首先,他们必须有创业的意愿,并且主动来寻求我们的帮助。当他们有创业意愿,并且拥有商业计划、专业知识和热情时……他们显然也必须具备一定的自身能力。但如果最终他们需要一些投资才能启动项目,我们也会全力支持。不过,他们越早启动自己的发展引擎越好……
你的问题是:“我们是否想涉足融资业务?”答案是否定的。融资业务已经存在,我们更愿意与他们合作,而不是自己成为融资者。我们的目标是专注于我们自身的核心业务,尽可能简化我们的商业模式,并支持我们的生态系统。
像 OpenAI 这样的公司,在上市前就需要300亿美元的投资,而我们深信他们,我也深信他们将会成为……嗯,他们现在就已经是一家非凡的公司了。他们将会成为一家了不起的公司。世界需要他们,世界希望他们存在,我也希望他们存在。他们现在顺风顺水。让我们支持他们,让他们发展壮大。我们会进行这些投资,因为他们需要我们这样做。但我们并非试图尽可能多地投资,而是试图尽可能少地干预。
Q:这可能是一个显而易见的问题,但我们已经在 GPU 短缺的情况下生活了很多年,而且随着模型性能的提高,这种情况现在变得更加严重了。
黄仁勋:我们缺少GPU。
Q:是的。众所周知,英伟达在分配稀缺资源方面并非只看出价,而是会考虑“我们想确保这些新云平台能够存在。所以我们给CoreWeave分配一些,给Crusoe分配一些,给Lambda分配一些。”这对英伟达有什么好处呢?首先,你是否同意这种将市场分割的说法?
黄仁勋:不,不。你的前提完全错误。我们对这些事情非常重视。首先,如果没有采购订单,再多的讨论也无济于事。在拿到采购订单之前,我们能做什么?所以,首要任务是与所有人密切合作,努力完成预测,因为这些项目需要很长时间才能建成,数据中心的建设更是如此。我们通过预测来确保供需平衡等等。明白吗?这是首要任务。
第二,我们已尽力与尽可能多的人进行预测,但最终您仍然需要下单。或许由于某种原因,您尚未下单。我能怎么办?在某些情况下,我们会遵循先到先得的原则。但除此之外,如果您因为数据中心尚未准备就绪,或者某些组件尚未到位而无法搭建数据中心,我们可能会优先服务其他客户。这只是为了最大限度地提高我们工厂的产能。我们可能会对此进行一些调整。
除此之外,优先级是先进先出。你必须下订单。如果你不下订单……当然,这方面有很多传闻。比如,这一切都源于一篇关于拉里和埃隆和我共进晚餐的文章,文章里他们恳求我提供GPU 。这事根本没发生过(That never happened)。我们确实一起吃了顿饭。我们确实一起吃了顿饭,而且那是一顿非常棒的晚餐。他们从来没有恳求我提供GPU。他们只需要下订单。一旦他们下订单,我们会尽力满足他们的产能需求。我们的流程很简单。
Q:好的。听起来好像有个排队机制,然后根据你的数据中心是否准备就绪以及你何时下订单,你才能在特定时间获得资源。但这仍然不像是价高者得。这样做有什么原因吗?
黄仁勋:我们从来不那样做。
Q:为什么不直接选择价高者得呢?
黄仁勋:因为这是糟糕的商业做法。你定好价格,然后让别人决定买不买。我知道芯片行业的其他公司会在需求旺盛时调整价格,但我们不会。这从来都不是我们的行事方式。您可以信赖我们。我更愿意做一个可靠的人,成为行业的基石。您无需猜测。如果我报了价,那就是我们报的价格。就是这样。如果需求激增,那就顺其自然。
Q:另一方面,这就是为什么你和台积电保持着良好的合作关系,对吧?
黄仁勋:是的,英伟达和他们合作已经快30年了。英伟达和台积电之间没有正式的法律合同。所以总会有些不公平的待遇。有时候我判断对,有时候我判断错。有时候我能拿到更好的价格,有时候会拿到更差的价格。但总的来说,我们之间的关系非常棒。我完全信任他们,完全可以依靠他们。
选择英伟达,有一点可以肯定:今年,Vera Rubin将会非常出色。明年,Vera Rubin Ultra将问世。后年,Feynman将横空出世。再后年,我还没公布名字呢。每年,你都可以信赖我们。你得去全世界找找其他 ASIC 团队——随便挑一个——才能找到一个可以让你说:“我可以把我的全部家产都押上,我可以把我的整个公司都押上,你们每年都会为我服务。你们的token成本每年都会下降一个数量级,我可以像信赖时钟一样信赖你们。”(“I can bet the farm, I can bet my entire business that you will be here for me every single year. Your token cost will decrease by an order of magnitude every single year. I can count on it like I can count on the clock.”)
我刚才提到了台积电。历史上没有任何其他代工厂能做到这一点。但如今,你可以这样评价英伟达。每年你都可以信赖我们。如果你想购买价值十亿美元的AI工厂计算资源,没问题。如果你想购买价值一亿美元的,没问题。你想购买价值一千万美元的,或者仅仅是一个机架,都没问题。或者仅仅是一张显卡,好的,没问题。如果你想订购价值一千亿美元的AI工厂,没问题。我们是当今世界上唯一一家可以这样说的公司。
台积电的情况也一样。我想买一台,买十亿台,都没问题。我们只需要按部就班地做好规划,做所有成熟企业都会做的事情。所以我认为,英伟达能够成为全球人工智能产业的基石,是我们花了二十多年才取得的成就。这需要巨大的投入和奉献。公司的稳定性、公司的持续发展,对我们来说至关重要。
我们应该向中国出售人工智能芯片吗?
Q:好的。我想问问关于中国的问题。其实我也不知道对向中国出售芯片到底好不好有什么看法,但我喜欢和嘉宾唱反调。所以,上次达里奥做客“谁支持出口管制”节目时,我问他,为什么美国和中国不能都拥有数据中心领域的天才人才呢?不过既然你持相反观点,那我就反过来问你。
换个角度来看,Anthropic Games几天前发布了Mythos Preview 。他们甚至没有公开发布这款Mythos模型,因为他们说它拥有如此强大的网络攻击能力,在确保所有零日漏洞都被修复之前,世界还没有做好准备。但他们表示,Mythos在所有主流操作系统和浏览器中都发现了数千个高危漏洞。他们甚至在OpenBSD中也发现了一个漏洞,而OpenBSD正是专门设计用来避免零日漏洞的操作系统。他们发现的这个漏洞已经存在了27年。
因此,如果中国能够获得人工智能芯片,训练像 Claude Mythos 这样具有网络攻击能力的模型,并利用更强大的计算能力运行数百万个实例,这会构成威胁吗?
黄仁勋:首先,Mythos 的训练所用的计算能力和计算量都相当普通,但训练所用的却是一家非常优秀的公司。这种计算能力和计算类型在中国非常普遍。所以你首先需要明白,芯片在中国是存在的。
他们生产了全球60%的主流芯片,甚至可能更多。对他们来说,这是一个非常庞大的产业。他们拥有一些世界上最顶尖的计算机科学家。众所周知,所有这些人工智能实验室中的大多数人工智能研究人员都是中国人。他们拥有全球50%的人工智能研究人员。所以问题是,考虑到他们已经拥有的所有资源——他们拥有丰富的能源、大量的芯片、以及绝大多数的人工智能研究人员——如果你担心他们,那么创造一个安全世界的最佳方法是什么?
将他们视为受害者,把他们变成敌人,可能并非最佳方案。他们是对手。(Victimizing them, turning them into an enemy, likely isn’t the best answer. They are an adversary.)我们希望美国获胜。但我认为,开展对话和研究性对话或许是最稳妥的做法。由于我们目前将中国视为对手的态度,这方面明显缺失。我们的人工智能研究人员和他们的人工智能研究人员必须进行真正的对话。我们必须努力就人工智能的用途达成共识。
至于查找软件漏洞,这当然是人工智能的职责所在。它会在很多软件中发现漏洞吗?当然会。软件漏洞数不胜数。人工智能软件中也存在大量漏洞。这正是人工智能的职责所在,我很高兴人工智能已经发展到能够帮助我们大幅提高生产力的水平。
网络安全、人工智能网络安全、人工智能安全、人工智能隐私和人工智能保障等领域的生态系统非常丰富,但却常常被忽视。一个庞大的人工智能初创企业生态系统正在努力为我们创造这样的未来:一个功能强大的人工智能代理被成千上万个其他人工智能代理环绕,共同守护着它的安全。这样的未来必将到来。
让人工智能代理在无人监管的情况下四处运行,这简直是疯了。我们非常清楚,这个生态系统需要蓬勃发展。事实证明,这个生态系统需要开源。这个生态系统需要开放的模型。他们需要开放的技术栈,这样所有的人工智能研究人员和优秀的计算机科学家才能构建强大且安全的AI系统。因此,我们必须确保开源生态系统的活力。这一点不容忽视。很多开源项目都来自中国。我们不应该扼杀它。
关于中国,我们当然希望美国拥有尽可能多的计算能力。我们受限于能源,但我们已经投入大量资源来解决这个问题。我们绝不能让能源成为国家发展的瓶颈。但我们也希望确保全世界的人工智能开发者都基于美国的技术栈进行开发,并将人工智能的贡献和进步——尤其是在开源的情况下——贡献给美国生态系统。如果建立两个生态系统——一个是只能运行在外国技术栈上的开源生态系统,另一个是运行在美国技术栈上的封闭生态系统——那将是极其愚蠢的。我认为这对美国来说将是一个糟糕的结果。
Q:由于事情很多,我先简单概括一下。我认为,回到黑客攻击中提到的浮点运算能力差距问题,没错,他们的确拥有计算能力,但他们实际能够生产的浮点运算能力只有美国的十分之一。
那么,他们最终能否训练出像 Mythos 这样的模型呢?答案是肯定的。但问题在于,由于失败案例更多,美国实验室能够率先达到这种能力水平。因为 Anthropic 公司抢先一步,他们会说:“好吧,我们先保留一个月,让所有美国公司都有机会使用。他们会修复所有漏洞,然后我们再发布。”
此外,即便他们训练出了这样的模型,大规模部署的能力也至关重要……如果一个网络黑客拥有上百万个这样的模型,那肯定比只有一千个要危险得多。所以推理计算能力真的非常重要。事实上,他们拥有如此多优秀的AI研究人员,这才是真正令人担忧的地方,因为是什么让这些工程师研究人员如此高效?答案是计算能力。
如果你和美国的任何一家人工智能实验室交谈,他们都会说瓶颈在于计算能力。无论是DeepSeek的创始人,还是Qwen的领导层,都说过类似的话。他们都认为瓶颈在于计算能力。那么问题来了,难道不应该让美国公司凭借更强大的计算能力率先达到Mythos级别,为我们的社会做好准备,赶在中国之前,因为中国计算能力较弱,这样做不是更好吗?
黄仁勋:我们应该永远争第一,永远拥有更多。但要让你描述的结果成真,就必须走极端。他们必须完全没有计算能力。如果他们有一些计算能力,问题在于需要多少?
中国的计算能力非常庞大。要知道,中国可是全球第二大计算市场。如果他们想整合计算资源,完全可以满足需求。
而且,他们拥有的能源量简直惊人,不是吗?人工智能本质上就是一个并行计算问题,不是吗?既然能源是免费的,为什么他们不能把芯片的数量增加4倍、10倍甚至更多呢?他们拥有如此多的能源。他们的数据中心空空荡荡,电力却依然充足。你知道他们有“鬼城”,他们的数据中心也一样空置。他们的基础设施容量如此庞大。如果他们愿意,他们完全可以把更多的芯片集中起来,哪怕是更落后工艺的芯片
他们的芯片制造能力位居世界前列。半导体行业都知道他们垄断了主流芯片市场。他们的产能过剩。因此,认为中国无法制造人工智能芯片的说法完全是无稽之谈。
当然,如果你问我,如果全世界完全没有计算能力,美国会不会更领先?但这根本不可能。这并非现实。他们现在的计算能力已经非常充足了。你所担心的那个问题,他们所需的计算能力阈值,他们早已达到,甚至超过了。
所以我认为你误解了人工智能的本质,它就像一个五层蛋糕,最底层是能源。能源充足时,芯片就足够了;芯片充足时,能源就足够了。例如,美国能源匮乏,这就是为什么英伟达必须不断改进我们的架构,并进行这种极致的协同设计,以便在我们出货的芯片数量有限的情况下——因为能源供应极其有限——实现每瓦吞吐量的惊人水平。
但如果你的瓦数完全充足,而且是免费的,你又何必在意每瓦性能呢?你已经绰绰有余了。你可以用旧芯片来做。所以7nm芯片本质上就是Hopper。Hopper的能力……我必须告诉你,如今的模型大多都是基于Hopper算法训练的,也就是Hopper算法的生成。所以7nm芯片已经足够好了。充足的能源是中国的优势。
Q:但问题在于,他们是否真的能够生产出足够的芯片。
黄仁勋:但他们的确做到了。证据是什么?华为刚刚经历了公司历史上业绩最好的一年。
Q:最先进的HBM一定需要EUV?
黄仁勋:不对。完全不对。你可以把它们组合起来,就像我们把它们和NVL72组合起来一样。他们已经展示了硅光子学技术,可以将所有这些计算能力连接起来,形成一台巨型超级计算机。你的前提完全错误。
事实上,他们的AI研发进展顺利。世界上最顶尖的AI研究人员,由于计算能力有限,反而创造出了极其智能的算法。别忘了,我刚才说过摩尔定律每年大约推进25%。然而,凭借卓越的计算机科学,我们仍然可以将算法性能提升10倍。我的意思是,卓越的计算机科学才是关键所在。
毫无疑问,MoE 是一项伟大的发明。毫无疑问,所有令人惊叹的注意力机制都减少了计算量。我们必须承认,人工智能的大部分进步都源于算法的进步,而不仅仅是硬件的改进。既然大部分进步都来自算法、计算机科学和编程,那么他们庞大的人工智能研究人员队伍难道不是他们最根本的优势吗?我们都看到了这一点。DeepSeek 绝非无关紧要的进步。如果 DeepSeek 先在华为平台上发布,那对我们国家来说将是灾难性的。
Q:为什么会这样?因为目前像 DeepSeek 这样的模型,只要是开源的,就可以在任何加速器上运行。为什么将来情况会改变呢?
黄仁勋:假设并非如此。假设它是针对华为优化的,假设它是针对他们的架构优化的。那将使我们处于劣势。你描述的情况在我看来是好消息。一家公司开发了一款软件,开发了一个人工智能模型,而它在美式技术栈上运行效果最佳。我认为这是好消息。但你却把它设定为坏消息。现在我要告诉你坏消息:世界各地的人工智能模型都是在非美国硬件上开发的,而它们在非美国硬件上运行效果最佳。这对我们来说是坏消息。
Q:我感觉并没有证据表明存在如此巨大的差异,足以阻止你更换加速器。美国实验室正在所有云平台、所有不同的加速器上运行他们的模型。
黄仁勋:我就是证据。你拿一个针对英伟达显卡优化的模型,然后试图在其他显卡上运行它,这是行不通的。
Q:但美国实验室确实会这样做。
黄仁勋:它们的运行效果并没有更好。英伟达的成功就是最好的证明。人工智能模型是在我们的技术栈上创建的,在我们的技术栈上运行效果也最好,这难道不合逻辑吗?
Q:Anthropic 的模型可以在 GPU 上运行,可以在 Trainium 上运行,也可以在 TPU 上运行。
黄仁勋:要改变现状,需要付出很多努力。但看看全球南方国家,看看中东地区。如果所有人工智能模型在别人的技术栈上运行效果最佳,那么你现在提出的“这对美国来说是件好事”的说法就太荒谬了。
Q:但我不太明白这个论点。假设中国公司率先开发出下一代Mythos系统。他们率先发现了美国软件的所有安全漏洞,但他们可以在英伟达硬件上运行,然后把产品运往全球南方国家。他们用英伟达硬件开发,这有什么好处呢?好吧,它的确能在英伟达硬件上运行——
黄仁勋:这不好,这不好,我们不能让它发生。
Q:你为什么认为它(指代英伟达GPU)是完全可替代的,即使你不向他们供货,华为也能完全替代?他们落后了,对吧?他们的芯片比你的差。
黄仁勋:完全是这样……现在就有证据。他们的芯片产业规模庞大。
Q:你只要对比H200和华为910C的浮点运算能力、带宽或内存容量就知道了,它们的性能大概只有前者的一半到三分之一。
黄仁勋:他们用量更多。他们用的量是原来的两倍。
Q:你的论点似乎是,他们拥有巨大的能源,他们需要用芯片来填充这些能源。
黄仁勋:而且他们很擅长制造业。
Q:我相信最终他们肯定能在生产能力上胜过所有人。但现在还有这关键的几年。
黄仁勋:你所说的关键年份是指哪一年?如果未来几年至关重要,那么我们必须确保在这关键的几年里,全世界所有的人工智能模型都建立在美国的技术栈之上。
人工智能产业有五个层面,每个层面都必须成功。而最需要成功的层面实际上是人工智能应用。你为什么如此执着于那个人工智能模型?那家公司?究竟是出于什么原因?
能源、芯片以及人工智能研究人员的生态系统使这一切成为可能。
Q:如果美国的计算能力存在瓶颈,那么向中国出口芯片又如何能使美国保持领先地位呢?
黄仁勋:我认为美国理应领先。美国的计算能力是世界其他任何地方的100倍。美国理应领先。好吧。美国确实领先。
英伟达致力于研发最先进的技术。我们确保美国实验室能够第一时间获悉这些技术,并拥有优先购买权。如果他们资金不足,我们甚至会投资扶持他们。美国理应领先。我们希望竭尽所能确保美国保持领先地位。这一点您同意吗?我们正在为此竭尽全力。
你认为英伟达是一家美国公司?好的。首先,为什么我们不制定一个更平衡的监管政策,让英伟达能够在全球范围内取得成功,而不是让美国放弃全球市场?你为什么要让美国放弃全球市场?
芯片产业是美国生态系统的一部分,是美国技术领先地位的一部分,也是人工智能生态系统的一部分,更是人工智能领先地位的一部分。为什么你们的政策和理念会导致美国放弃世界市场的大部分份额?
将人工智能与你刚才提到的任何东西相提并论都是荒谬的。
Q:所以关键在于,现在卖芯片对我们长远发展有何帮助?特斯拉长期以来一直向中国销售性能卓越的电动汽车。iPhone在中国也畅销,而且质量极佳。特斯拉并没有造成中国市场的垄断。中国仍然会生产自己的电动汽车,并且占据主导地位。他们的智能手机也占据主导地位。
黄仁勋:今天我们开始对话时,您也承认英伟达的处境非常特殊。您用了“护城河”这样的词。对我们公司而言,最重要的就是我们生态系统的丰富性,而这离不开开发者。全球50%的人工智能开发者都在中国。美国不应该放弃这块宝地。
Q:但是我们在美国有很多英伟达的开发者,但这并不妨碍美国实验室未来使用其他加速器。事实上,他们现在就在使用其他加速器,这很好,也很棒。如果你向中国销售英伟达芯片,我不明白为什么在中国就不能这样做,就像谷歌可以使用TPU和英伟达芯片一样。
黄仁勋:我们必须不断创新,而且正如你可能知道的,我们的市场份额正在增长,而不是下降。那种认为即使我们在中国竞争,最终也会失去那个市场的想法……你不是在跟一个醒来就觉得自己是个失败者的人说话。那种失败者的态度,那种失败者的假设,在我看来毫无道理。
我们不是汽车。我们不是汽车。我可以今天买这个牌子的车,明天再买另一个牌子的车,这很容易。但计算机领域并非如此。x86架构的存在是有原因的。ARM架构如此根深蒂固也是有原因的。这些生态系统难以替代。这需要耗费大量的时间和精力,而且大多数人都不愿意这样做。因此,我们的职责是继续培育这个生态系统,不断推进技术发展,从而在市场竞争中保持优势。
如果按照你描述的那种前提来划分市场,我根本无法接受。这完全说不通。因为我不认为美国是失败者,我们的行业也不是失败者。这种失败论调,这种失败心态,在我看来毫无道理。
Q:但他们之所以从你这里购买是有原因的。我们有来自中国公司创始人的引述,他们表示公司在计算能力方面遇到了瓶颈。
黄仁勋:因为我们的芯片更好。总的来说,我们的芯片更好。这一点毋庸置疑。如果没有我们的芯片……您能承认华为今年的业绩创下纪录吗?您能承认一大批芯片公司都上市了吗?您能承认吗?
您是否也承认,我们过去在该市场占据了很大的份额,而现在份额已经大幅下降?我们也可以承认,中国占据了全球科技产业约40%的份额。为了美国科技产业的利益而放弃这个市场,是对我们国家的损害,是对我们国家安全的损害,也是对我们科技领导地位的损害。这一切仅仅是为了一家公司的利益。这在我看来毫无道理。
Q:我有点糊涂了。感觉你好像在说两件事。一是如果我们能参与竞争,我们的芯片性能会远胜华为,所以我们肯定能赢下这场与华为的竞争。二是就算没有我们,他们也会做同样的事情。这两件事怎么可能同时成立呢?
黄仁勋:这显然是事实。如果没有更好的选择,你只能选择唯一的选择。这怎么会不合逻辑呢?这明明很合乎逻辑。
Q:他们想要英伟达芯片的原因是,英伟达芯片性能更好。
黄仁勋:是的
Q:更好的模型需要更多的计算资源。更多的计算资源意味着你可以训练出更好的模型。
黄仁勋:不,它就是更好。它更好,因为它更容易编程。我们拥有更好的生态系统。但无论“更好”指的是什么,无论“更好”指的是什么……当然,我们会把计算资源输送给他们。那又怎样?事实是我们能从中受益。别忘了,我们能享受到美国技术领先地位带来的好处。我们能享受到开发者们在美国技术栈上工作的益处。随着这些人工智能模型扩散到世界各地,我们也能享受到美国技术栈因此成为最佳选择带来的好处。我们可以继续推进和推广美国技术。我认为这是一件好事。这是美国技术领先地位中非常重要的一部分。
现在,你所倡导的政策导致美国电信行业基本上被排挤出了世界市场,以至于我们甚至无法掌控自己的电信业务。我认为这并不明智。这种做法有些目光短浅,而且导致了一些意想不到的后果,我现在正在向你描述这些后果,但你似乎很难理解。
Q:好的,我们先退一步。问题的关键似乎在于,这里既有潜在的收益,也有潜在的成本。我们正在努力弄清楚的是,收益是否值得付出成本?我想让你们意识到潜在的成本。计算是训练强大模型的输入。强大的模型确实拥有强大的攻击能力,例如网络攻击。美国公司率先达到 Mythos 级别的能力是一件好事,现在他们决定暂缓发布这些能力,以便美国公司和美国政府能够在正式发布该级别能力之前,更好地保护他们的软件。
如果中国拥有更强大的计算能力或更多的众包计算资源,如果他们能够更早地开发出类似 Mythos 那样的计算模型并进行广泛部署,那将会非常糟糕。这种情况没有发生的原因之一是,由于像英伟达这样的美国公司,我们拥有了更强大的计算能力。这是将计算资源转移到中国所要付出的代价。所以,我们暂且不谈好处。您是否意识到这是一种潜在的代价?
黄仁勋:我还要告诉你,潜在的代价是,我们允许人工智能技术栈中最重要的一层——芯片层——拱手让出整个市场——全球第二大市场——让他们得以发展规模,建立自己的生态系统,从而使未来的人工智能模型以与美国技术栈截然不同的方式进行优化。随着人工智能在全球扩散,他们的标准和技术栈将会超越我们,因为他们的模型是开放的。
Q:我想我只是对英伟达的内核工程师和CUDA工程师有足够的信心,相信他们能够进行优化——
黄仁勋:如你所知,人工智能不仅仅是内核优化。
中国是全球最大的开源软件贡献国。这是事实。中国也是全球最大的开放模型贡献国。这是事实。如今,它建立在美国的技术栈之上,也就是英伟达的技术栈。这是事实。
人工智能技术栈的五个层面都至关重要。美国应该力争拿下所有五个层面。它们都不可或缺。当然,最重要的层面是人工智能应用层。这一层会渗透到社会各个角落,被应用最为广泛,也将从这场工业革命中获益最多。但我的观点是,每一层都必须成功。
如果我们吓唬全国人民,让他们觉得人工智能就像核弹一样,让每个人都憎恨人工智能、害怕人工智能,我不知道这对美国有什么好处。这只会害了美国。如果我们吓得所有人都不敢从事软件工程工作,因为人工智能会扼杀所有软件工程岗位——结果导致我们一个软件工程师都没有——那我们也是在害美国。
如果我们因为计算机视觉完全免费,人工智能的工作能力不会比放射科医生差,就吓跑所有人,让大家都不想当放射科医生,那我们就误解了工作和任务之间的区别。放射科医生的工作是照护病人,而任务是解读扫描结果。如果我们对这一点理解如此深刻,吓跑所有人去读放射科,那么我们将面临放射科医生短缺和医疗资源匮乏的问题。
所以我的意思是,当你设定一个如此极端的前提,一切都从零到无穷大,最终只会吓到人们,而这根本不是事实。生活并非如此。我们希望美国领先吗?当然希望。我们需要在各个层面都保持领先地位吗?当然需要。当然需要。今天你谈到Mythos,是因为Mythos很重要。没错。太好了。
但几年后,我预言,当我们想要推广美国技术体系,当我们希望美国技术走向世界——走向印度、走向中东、走向非洲、走向东南亚——当我们的国家想要出口,因为我们想要出口我们的技术,我们想要出口我们的标准时,我希望你我再次进行同样的对话。我会详细地告诉你今天的对话,告诉你你的政策和你的设想是如何导致美国毫无理由地拱手让出世界第二大市场。
我们不应该放弃。如果输了,那就输了。但我们为什么要放弃呢?现在没人主张非此即彼。没人主张非此即彼,也就是说我们应该一直把所有东西都运到中国去。没人主张那样。我们应该始终拥有最先进的技术。我们应该始终拥有最多的技术,并且是第一。但我们也应该努力在全球范围内竞争并取得胜利。这两件事可以同时进行。这需要一些细致入微的思考,一些成熟的态度,而不是绝对的。世界本来就不是绝对的。
Q:因为受到各种限制(例如拿不到EUV光刻机),中国的芯片真的能出口到世界各地,从而确立行业标准吗?
黄仁勋:那我们直接看事实吧?Blackwell的光刻技术真的比Hopper先进50倍吗?真的有50倍吗?差远了。我一直在重复这句话:摩尔定律已经失效了。从晶体管本身的性能来看,Hopper和Blackwell之间的差距大概是75%。两者相隔三年,差距高达75%。Blackwell尔的性能是Hopper的50倍。
我的观点是,架构至关重要。计算机科学至关重要。半导体物理固然重要,但计算机科学才是重中之重。人工智能的影响很大程度上源于计算栈,这也是CUDA如此高效、如此受人喜爱的原因。它是一个生态系统,一种计算架构,它提供了极大的灵活性,以至于如果你想彻底改变架构——比如创建类似MoE的架构、类似扩散的架构、或者创建解耦架构——你都能做到。这很容易。
所以事实是,人工智能不仅关乎底层架构,也关乎上层技术栈。如果我们拥有针对自身技术栈和生态系统进行优化的架构和软件栈,那当然是好事,因为我们今天一开始就讨论了英伟达生态系统的丰富性。为什么人们总是喜欢先写CUDA?确实如此。中国的研究人员也是如此。
但如果我们被迫离开中国,首先,这是一个政策错误。显然,这会引发强烈反弹。这对美国来说后果很严重。它促进了中国的芯片产业发展,加速了其人工智能生态系统的转型升级,迫使其人工智能生态系统专注于内部架构。现在亡羊补牢,为时未晚,但事已至此。
未来你会看到,他们显然不会止步于于此。他们的制造工艺很出色,他们会继续在现有及更先进的工艺基础上发展。先进工艺的差距有10倍吗?答案是否定的。架构很重要,网络也很重要。这就是英伟达收购Mellanox的原因。网络很重要,能源也很重要。所有这些都很重要。事情并不像你试图简化的那样简单。
为什么英伟达不生产多种不同的芯片架构?
Q:我们之前讨论过台积电在内存等方面的瓶颈问题。
所以,如果我们身处这样一个世界:你已经占据了N3的大部分份额——而且在某个时候你会进入N2时代,并占据N2的大部分份额——你是否认为你可以回到N7时代,也就是利用旧工艺节点的剩余产能,然后说:“嘿,人工智能的需求如此巨大,而我们扩展前沿技术的能力却无法满足,所以我们要制造一个Hopper或Ampere架构的处理器,但要运用我们目前掌握的所有数值计算知识以及你提到的所有其他改进”?你认为这种情况会在2030年之前发生吗?
黄仁勋:没必要。原因在于,每一代产品的架构都不仅仅局限于晶体管的尺寸。它还涉及到大量的工程设计、封装、堆叠、数值计算和系统架构。
当产能耗尽时,想要轻易地回到之前的制程节点……那需要投入大量的研发资源,谁也负担不起。我们有能力向前发展,但我认为我们负担不起回头路。现在,假设有一天,我们突然意识到:“我们再也无法拥有更多的产能了。”我会选择回到7nm制程吗?当然会毫不犹豫地选择它。
Q:我之前和人讨论时,有人问过我一个问题:为什么英伟达不同时开展多个架构完全不同的芯片项目?比如,可以开发类似Cerebras的晶圆级芯片,也可以开发类似Dojo 的大型封装芯片,还可以开发不使用 CUDA 的芯片。英伟达拥有足够的资源和工程人才来并行开发所有这些芯片。考虑到人工智能和架构的未来发展方向难以预测,为什么要把所有鸡蛋都放在一个篮子里呢?
黄仁勋:哦,我们当然可以。只是我们没有更好的办法。我们能做所有这些事情,但效果并不理想。我们在模拟器里模拟了所有情况,结果证明更糟。所以我们不会这么做。我们现在做的正是我们想做的项目。如果工作负载发生巨大变化——我指的不是算法,而是工作负载本身,而这取决于市场格局——我们可能会考虑增加其他加速器。
例如,我们最近新增了Groq ,并且计划将其整合到我们的 CUDA 生态系统中。我们现在这样做是因为token价值飙升,可以采用不同的定价策略。就在几年前token要么是免费的,要么价格非常低廉。但现在,我们的客户群体各不相同,他们需要不同的解决方案。因为客户收入很高——例如我们的软件工程师——如果我能为他们提供响应速度更快的代币,从而让他们比现在更高效,我愿意为此付费。
但这个市场是最近才出现的。所以我认为我们现在有能力基于响应时间,将同一个模型划分成不同的细分市场。这就是我们决定扩展帕累托前沿,并创建一个响应时间更快、但吞吐量更低的推理细分市场的原因。在此之前,更高的吞吐量总是更好的。我们认为,未来可能会出现平均售价(ASP)非常高的代币,即使工厂的吞吐量较低,ASP 也能弥补这一点。
这就是我们这么做的原因。但除此之外,从架构角度来看,如果我有更多资金,我会加大对英伟达架构的投入。
Q:最后一个问题。假设深度学习革命没有发生,英伟达会做什么?
黄仁勋:加速计算,这和我们一直以来所做的一模一样。我们公司的理念是摩尔定律将会……通用计算在很多方面都很出色,但对于很多计算任务来说,它并非理想之选。
因此,我们将一种名为GPU(CUDA)的架构与CPU结合起来,从而加速CPU的工作负载。不同的代码内核或算法可以卸载到GPU上执行。这样一来,应用程序的运行速度就能提升100倍、200倍。这项技术有哪些应用呢?显然,它适用于工程、科学、物理、数据处理、计算机图形学、图像生成等各个领域。即使人工智能今天尚未出现,英伟达的规模也会非常庞大。
原因相当根本,那就是通用计算的扩展能力已基本达到极限。而唯一的方法……或者说,实现这一目标的方法之一,就是通过领域特定加速。我们最初关注的领域之一是计算机图形学,但还有许多其他领域。种类繁多,包括粒子物理和流体动力学、结构化数据处理,以及各种各样能够从 CUDA 中受益的算法。
我们的使命是真正将加速计算带给全世界,推进通用计算无法胜任的应用,并扩展到足以帮助某些科学领域取得突破的水平。早期的一些应用包括分子动力学、用于能源勘探的地震数据处理、图像处理等等,所有这些领域通用计算的效率都太低,无法胜任。
如果没有人工智能,我会非常难过。但正因为我们在计算机领域取得了进步,深度学习才得以普及。我们让任何研究人员、任何科学家、任何学生,无论身处何地,都能使用个人电脑或GeForce显卡,开展令人惊叹的科学研究。这一根本承诺从未改变,丝毫未变。
如果你看过GTC,就会发现它最初的部分完全与人工智能无关。无论是计算光刻、量子化学,还是数据处理等等,都与人工智能无关。而且这些内容仍然非常重要。我知道人工智能非常有趣,也很令人兴奋,但还有很多人在做着与人工智能无关的重要工作,张量也不是唯一的计算方法。我们希望能够帮助到所有人。
全部评论
黄仁勋老是神吹吹
3 小时前 ·回复
厉害了
3 小时前 ·回复
再牛的公司,也要跟着世界大势走
3 小时前 ·回复
黄仁勋:我们尽量投资所有这些公司。这也是我们所做的。我们不挑选赢家。我们需要支持所有公司。这是我们投资的乐趣所在,也是我们业务的必要组成部分。但我们也会刻意避免挑选赢家。所以,当我投资一家公司时,我也会投资所有相关的公司。Q:你为什么刻意不去挑选赢家?黄仁勋:第一,这不是我们的职责。第二,英伟达创立之初,有60家3D图形公司。我们是唯一一家存活下来的。如果你把这60家图形公司都列出来,问问自己哪家会成功,英伟达肯定排在失败名单的首位。
3 小时前 ·回复
您需要登录后才可以回帖 登录 | 立即注册
发表评论
发布 联系QQ