最强 AI 芯片要推中国特供版?黄仁勋最新发声,3500 亿的市场太诱人

发表于 6 天前 来自手机 | 显示全部楼层 |阅读模式
212 0
短短两天,寒武纪两度超越贵州茅台,成为 A 股第一高价「股王」。而推动用户预期不断攀升的,离不开 AI 市场的持续火热。
与之形成此消彼长走势的是,英伟达在今日公布 2026 财年第二季度财务业绩后,反而股价大跌,不过交出的成绩单还是亮眼的:
营收达 467 亿美元,较第一季度增长 6%,同比增长 56%
数据中心收入为 411 亿美元,较第一季度增长 5%,同比增长 56%
Blackwell 数据中心收入环比增长 17%
这家曾经的游戏显卡厂商,如今市值突破 4 万亿美元,成为 AI 时代当之无愧的「卖铲人」,也难怪不少人将本次财报比作解答 AI 泡沫疑虑的答卷。


被「宠坏」的市场预期,和永远在路上的下一代产品
英伟达正被自己过去的成功所绑架,这是一种甜蜜的诅咒。
过去多个财季,英伟达每次都超越了营收预期,这种「业绩超预期并上调指引」的固定模式,已经让市场习惯于期待一次又一次的超预期。
但问题是, 当英伟达总是给出 110 分的答案,那么 100 分就显得像是不及格。
在财报前夕,市场关注的焦点集中在新一代 Blackwell GPU 和 NVL72 机架的大规模部署上。
从技术角度看,这种期待并非空穴来风。
英伟达花费数年时间打造了 Blackwell NVLink 72 系统 ——一种机架级计算平台,使其能够作为一个单一的巨型 GPU 运行。


从 NVLink 8(节点级计算,每个节点是一台计算机)过渡到 NVLink 72(机架级计算,每个机架是一台计算机),不仅带来了数量级的性能提升,也就意味着更高的能效和更低的 Token 生成成本。
英伟达创始人兼 CEO 黄仁勋表示:
「Blackwell 是全球期待已久的人工智能平台,带来了卓越的一代飞跃 —— Blackwell Ultra 正在全速量产,市场需求极为强劲。」
新一代核心 Blackwell 架构的 B100/B200 系列,性能相比 H100 提升了 2.5 倍。GB200 NBL 系统正在被广泛采用,已在国内外云服务商和互联网公司大规模部署。
包括 OpenAI、Meta 等厂商也正在数据中心规模上使用 GB200 NBL72, 不仅用于训练下一代模型,也用于生产环境中的推理服务。


且由于 GB200 与 GB300 在架构、软件和物理形态上的兼容性,使得主要云服务商向新一代基于 GB300 的机架架构过渡过程十分顺畅。
据英伟达 CFO Colette Kress 透露,7 月下旬和 8 月上旬的工厂产线已顺利完成转换,以支持 GB300 的爬坡生产。
「目前已全面进入量产阶段,产能恢复到满负荷,每周大约生产 1000 个机架。随着更多产能的上线,预计在第三季度内产量还将进一步加快。我们预计在下半年实现大规模市场供应。」
按照惯例,Blackwell 之后还有代号「Rubin」的下一代架构,预计 2026 年推出,随后是 2027 年的「Rubin Ultra」。这种快速迭代的节奏,既保持了技术领先,又让竞争对手永远在追赶路上。


英伟达 CFO Colette Kress 对 AI 市场的发展有着更为庞大的野心,她在财报电话会议上表示
「我们正处在一场将改变所有行业的工业革命开端。 预计到本十年末,AI 基础设施的投入将达到 3 到 4 万亿美元。
这一增长主要来自云厂商到企业的资本开支,仅今年就预计在数据中心基础设施和算力上的投资将达到 6000 亿美元,两年间几乎翻倍。」
这也是过去很长一段时间,英伟达反复强调的事情—— 英伟达已经不再是单纯的 GPU 公司,而是一家不折不扣的 AI 基础设施公司。
黄仁勋今天凌晨的原话是这么说的:
以 1GW 规模的 AI 工厂为例,造价可能在 500 亿至 600 亿美元之间,其中大约 35% 左右由 NVIDIA 提供(上下浮动)。这里客户获得的不仅仅是 GPU。
虽然我们以 GPU 的发明而闻名,但过去十年,我们已经转型成为一家 AI 基础设施公司。要打造一台 Rubin AI 超级计算机,就需要六种不同类型的芯片。而要扩展到 1GW 规模的数据中心,就需要数十万 GPU 计算节点和大量机架。因此,我们的定位是 AI 基础设施公司,希望能持续推动这个行业的发展,让 AI 更有用。
并且,在黄仁勋看来,英伟达的亮眼之处在于 GPU 的能效最佳。在电力受限的数据中心,性能功耗比直接决定了收入,而性能功耗比远超任何其他计算平台,所以 买得越多,成长越快。
尤其是当推理型与智能体 AI 的发展与普及,所带来的算力需求呈指数级增长,而这种对 AI 计算能力「永不满足」的需求,成了英伟达营收增长的主要引擎。
不仅如此,英伟达提供的 CUDA 并行计算平台、推理加速库、各行业 AI 模型框架等,已成为 AI 开发者必备工具。
这种生态壁垒意味着客户一旦采用英伟达方案,往往难以替换。换句话说,英伟达真正提供了一个面向 AI 工厂的完整全栈解决方案。
黄仁勋:将 Blackwell 带到中国市场
这季度财报最扎眼的数据,在于明确了中国市场的影响。英伟达 2026 财年第二季度财报显示,来自中国市场收入 27.69 亿美元,比 2025 财年第二季度的 36.67 亿美元 缩水近 9 亿美元。
相应地,黄仁勋表示,中国市场在数据中心总收入中的占比已降至 「低个位数百分比」 。
当然,英伟达的当务之急,或许就是推出一系列性能降低、符合出口管制的「合规芯片」。这一策略始于基于 Hopper 架构的 H20,并延续至基于新 Blackwell 架构的产品线。


据路透社此前报道,英伟达正在准备专为中国定制的 Blackwell 架构削减版 GPU(代号 B30A)。
该芯片性能介于受限 H20 和国际版高端 GPU 之间,如获批准将瞄准中国高端算力需求。此外还有一款规格较低的推理芯片 RTX6000D,专门针对中国市场的特定需求。
作为全球第二大计算市场,黄仁勋表示 中国市场今年对英伟达来说大约有 500 亿美元(折合人民币 3577 亿元)的机会,而且每年会以 50% 左右的速度增长。 在他看来,来自中国的开源模型质量非常优秀。
例如 DeepSeek 在全球声名鹊起,Qwen 很出色,Kimi 也很出色。还有许多新的模型不断涌现,它们是多模态的,是优秀的大语言模型。这些开源模型实际上推动了全球企业对 AI 的采用。


另外黄仁勋还不忘表示, 将 Blackwell 带入中国市场是完全有可能的。包括黄仁勋上个月也亲自来华斡旋,表态将不遗余力优化产品以符合监管要求,并坚定服务中国市场。
但在另一侧,国内力量正在加速崛起。
最近,DeepSeek 发布了最新版本 V3.1,被称为「迈向 Agent 时代的第一步」。
但更重要的信号还在于,DeepSeek V3.1 引入了一种称为「UE8M0 FP8 Scale」的新参数精度格式,并明确表示这是「 针对即将发布的下一代国产芯片设计」的精度格式。
DeepSeek 采用的 UE8M0 FP8 格式尤其针对国产芯片的硬件逻辑特点设计,在 8 bit 的位宽限制下(即当前低精度场景)丢弃尾数而极大扩展指数动态范围。
这一设计让国产芯片在大模型训练中更稳定,高效利用每一点算力。此外,对于许多在 HBM 高带宽内存上不及英伟达的国产芯片而言,FP8 格式有效缓解了带宽瓶颈,让硬件性能得到充分发挥。
而巧合的是,英伟达最近提出的 NVFP4(4 位数值格式)则在大模型预训练领域实现了突破。
相比于以往训练常用 16 位(FP16/BF16)或 8 位 (FP8)精度,而 NVFP4 将精度进一步压缩到 4 位,在保持模型精度的同时大幅提升训练速度和算力利用率。


实验结果显示,在 120 亿参数的 Mamba-Transformer 混合模型上,NVFP4 能完整训练到 10 万亿 token,收敛效果几乎与 FP8 一致,下游任务测试精度也基本相同。


只是,当国产头部芯片厂商组建「朋友圈」,共同打造适配本土芯片的软件栈、工具链,也将有望提升下游客户对国产方案的信心。
英伟达依旧是在淘金热中稳赚不赔的「卖铲人」。但现在,矿场边上涌现出越来越多本土的铁匠铺,正用本地的矿石和工艺,打造出更适合本地矿工的工具。
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
全部评论

暂无评论,期待您打破宁静

您需要登录后才可以回帖 登录 | 立即注册
发表评论
发布 联系QQ