欢迎您访问澳门·威尼斯人(Venetian)轴承生产有限公司
全国咨询热线: HASHKFK

新闻资讯

威尼斯人娱乐

VenetianYULE

澳门威尼斯人娱乐场-Venetian Macao Casino黄仁勋GTC完整演讲:生成Token的成本与效率决定科技企业的营收与生死

作者:小编2026-03-17 12:16:28

  澳门威尼斯人娱乐场-Venetian Macao Casino(访问: hash.cyou 领取999USDT)

澳门威尼斯人娱乐场-Venetian Macao Casino黄仁勋GTC完整演讲:生成Token的成本与效率决定科技企业的营收与生死

  在自动驾驶领域,比亚迪、现代、日产等头部车企已纷纷加入英伟达的Robotaxi就绪平台;而在通用机器人领域,英伟达发布了专为人形机器人打造的通用基础模型 Project GR00T。它能够让机器人通过观察人类行为来学习自然语言和模仿动作。此外,英伟达还大幅更新了Isaac机器人平台,推出了专为机械臂控制和3D视觉环境感知打造的全新软硬件库。英伟达与迪士尼幻想工程合作打造的《冰雪奇缘》雪宝(Olaf)实体机器人也踏上GTC舞台,与黄仁勋亲密互动。

  在开始之前,我要感谢赛前节目主持人Sarah Go和Alfred Lin,以及NVIDIA的首家风险投资机构Sequoia Capital的Gavin Baker。作为首位主要机构投资者,他们深耕技术领域,洞悉行业动态,拥有广泛的技术生态系统。当然也要感谢我亲手挑选并邀请的各位全明星VIP嘉宾,此外我还要感谢所有到场的赞助公司。NVIDIA是一家平台公司,拥有技术、平台以及丰富的生态系统。今天这里汇聚了全球100万亿美元产业的代表,共有450家公司赞助了本次活动,拥有一千场技术分会和2000位演讲嘉宾。

  一切都始于这里,今年是CUDA问世20周年。20年来我们一直致力于这一架构的研发。这项革命性的发明通过单指令多线程编写标量代码即可衍生出多线程应用,这比SIMD更容易编程。我们最近还添加了Tiles,以帮助开发者对Tensor Core及当今人工智能基础数学结构进行编程。目前已有数千个工具、编译器、框架、库和数十万个公开的开源项目,CUDA已经深度集成到每一个生态系统中。最难实现的一点是庞大的装机量。

  我们花了20年时间在全球构建起数以亿计运行CUDA的GPU和计算系统,覆盖了每一个云平台和计算机公司,服务于几乎所有行业。CUDA的装机量正是推动飞轮加速转动的核心动力。装机量吸引了开发者,开发者随后创造出如深度学习等实现突破的新算法。这些突破催生了全新市场并建立起新的生态系统,吸引更多公司加入,从而创造了更大的装机量。这种飞轮效应目前正在加速,NVIDIA库的下载量正以惊人的速度增长。这种效应不仅让计算平台能支持众多应用和突破,还赋予了基础设施极长的使用寿命。

  有如此多的应用可以在NVIDIA CUDA上运行,我们支持AI生命周期的每个阶段和每个数据处理平台,加速各种基于科学原理的求解器。正因应用范围如此之广,一旦安装NVIDIA GPU,其使用寿命周期就极长。这也是为什么早在六年前出货的Ampere架构在云端的定价依然在上涨。高装机量、显著的飞轮效应和极广的开发者覆盖范围,加上我们持续更新软件,使得计算成本不断下降。加速计算极大提升了应用速度,随着我们在软件生命周期内的持续培育和更新,用户不仅能获得初次使用的性能提升,还能获得加速计算带来的持续成本降低。因为装机量庞大,我们发布的新优化方案能惠及数以百万计兼容架构的GPU,覆盖全球用户。动态组合扩大了NVIDIA架构的影响力,加速增长的同时降低了计算成本并促进新增长,这就是CUDA的核心价值。

  但我们的旅程实际上始于25年前的GeForce。GeForce是NVIDIA最伟大的营销活动,许多人是伴随它长大的。早在你们自己负担得起之前,父母就付钱让你们成为了NVIDIA的客户,直到有一天你们成为出色的计算机科学家和真正的开发者。GeForce造就了今天的NVIDIA并孕育了CUDA。25年前我们发明了全球首款可编程加速器——像素着色器,旨在让加速器具备可编程性。5年后CUDA诞生了。我们当年倾尽全公司利润所做的最大投资,就是凭借GeForce将CUDA推广到每台电脑上。历经20年和13代产品,CUDA现已无处不在。十年前我们推出了RTX,针对现代计算机图形时代彻底重新设计了架构。GeForce将CUDA推向世界,也让众多先驱发现GPU是加速深度学习的良师益友,从而开启了AI大爆炸。十年前我们决定融合可编程着色技术并引入硬件光线追踪,当时我们就认为AI将彻底变革计算机图形学。正如GeForce将AI带给世界,现在AI将反过来彻底变革计算机图形学。

  接下来我们要详细探讨结构化数据。大家熟知的SQL、Spark、Pandas、Velox以及Snowflake、Databricks、Amazon EMR、Azure Fabric、Google Cloud BigQuery等超大型平台都在处理数据框。这些数据框是巨大的电子表格,保存着企业计算和业务的单一真值。过去我们努力加速结构化数据处理,以更低成本和更高频率让公司高效运行。未来AI将以极快的速度使用这些结构化数据库。除此之外,还有代表全球绝大部分信息的非结构化生成式数据库,如向量数据库、PDF、视频和演讲等。每年生成的90%的数据都是非结构化数据。直到现在由于缺乏简便的索引方式且难以理解其含义,这些数据一直无法被高效查询和搜索。

  今天我们将发布几项重要合作。IBM作为领域特定语言SQL的发明者,正在使用cuDF加速watsonx的数据处理。60年前IBM推出了开启计算时代的System/360,随后SQL和数据仓库构成了现代企业计算的基石。今天IBM与NVIDIA正通过利用GPU计算库加速watsonx.data的SQL引擎,为AI时代重新定义数据处理。由于当前CPU数据处理系统已无法满足AI对海量数据集的快速访问需求,企业必须转型。例如雀巢每天要做数千次供应链决策,在CPU上每天只能刷新几次汇总了全球交付事件的订单到现金数据集市,而在NVIDIA GPU上运行加速的watsonx后,速度提升了5倍且成本降低了83%。

  AI时代的加速计算已经到来。我们不仅加速了云端数据处理,也加速了本地部署。全球领先的系统和存储制造商Dell与我们合作,将cuDF和cuVS集成到Dell AI数据平台中以迎接AI时代。我们还与Google Cloud合作加速了Vertex AI和BigQuery。在与Snapchat的合作中,我们将其计算成本降低了近80%。当你加速计算和数据处理时,不仅获得了速度和规模优势,最重要的是获得了成本优势。摩尔定律的核心是性能每隔几年翻倍,但它现在已经后劲不足。加速计算让我们能够实现跨越。

  NVIDIA作为一家算法公司,凭借广泛的市场触达和庞大的装机量,通过持续优化算法不断降低计算成本,为大家扩大规模并提升速度。NVIDIA构建了加速计算平台并提供RTX、cuDF、cuVS等一系列库,最终将其集成到全球的云服务和OEM厂商中触达全球。这种合作模式正在Google Cloud、Snapchat等平台上不断重复。我们为在JAX、XLA和PyTorch上所做的出色工作感到自豪。我们是全球唯一在这些框架上都表现卓越的加速器。像Baseten、CrowdStrike、Puma、Salesforce等不仅是我们的客户也是开发者。

  在AWS,我们加速了EMR、SageMaker和Bedrock。NVIDIA与AWS进行了深度集成,他们也是我们的首个云合作伙伴。在Microsoft Azure方面,我们为其打造并安装了首台NVIDIA A100超级计算机,这为后来与OpenAI的巨大成功合作奠定了基础。我们与Azure的合作由来已久,不仅为其云服务和Bing Search提供加速,还与他们的AIFoundry开展了深度合作。随着AI在全球范围内的扩展,Azure Regions的合作也变得极其重要。我们提供的一项核心功能是机密计算(Confidential Computing)。机密计算能够确保操作员无法触碰或查看数据和模型。NVIDIA GPU是全球首款实现该功能的GPU,它能够支持并在不同云端和地区安全部署OpenAI和Anthropic等极其宝贵的模型。这一切都要归功于至关重要的机密计算技术。

  在客户合作方面,Synopsis是我们的重要合作伙伴,我们正在加速其所有的EDA和CAU工作流,并落地于Microsoft Azure。我们既是Oracle的首家供应商,也是他们的首位AI客户。让我非常自豪的是,我首次向Oracle解释了AI云的概念,并成为了他们的首位客户,从那时起Oracle便开始腾飞。我们在那里落地了包括Quark、Cohere、Fireworks以及OpenAI在内的一大批合作伙伴。CoreWeave是全球首个AI原生云,其建立的核心目标就是在加速计算时代提供并托管GPU,为AI云提供托管服务。他们拥有出色的客户群,并且增长速度惊人。

  我还非常看好Palantir和Dell平台。我们三家公司共同努力打造了一种全新类型的AI平台——Palantir Ontology平台。该平台可以在任何国家、任何物理隔离(air-gapped)区域实现完全本地化的现场部署。AI几乎可以部署在任何地方。如果没有我们的机密计算能力,没有我们构建端到端系统以及提供整个加速计算和AI堆栈的能力(涵盖从向量或结构化数据处理到AI时代的完整流程),这一切都不可能实现。这些例子展示了我们与全球云服务提供商之间的特殊合作关系,他们今天都在现场,我由衷感谢大家的辛勤付出。

  作为一家垂直整合的计算公司,我们别无选择,必须深入理解应用、领域和算法的底层逻辑。我们还必须弄清楚如何将算法部署在数据中心、云端、本地(on-prem)、边缘端或机器人系统等各种截然不同的计算系统中。从底层芯片到系统,我们实现了垂直整合。而NVIDIA之所以无比强大,是因为我们横向开放。我们致力于将NVIDIA的软件、库和技术与合作伙伴的技术相结合,集成到任何目标平台中,从而将加速计算带给世界上的每一个人。本次GTC大会正是这一理念的绝佳展示。

  目前我们拥有触达各大垂直领域的领域特定库,以解决各行各业的关键问题。例如在金融服务业(这也是本届GTC参会人数最多的群体),算法交易正从依赖人类进行特征工程的传统机器学习,转向由超级计算机分析海量数据并自动发现洞察与模式,这正是金融业的深度学习和Transformer时刻。医疗保健行业也迎来了ChatGPT时刻。我们正在将AI物理学和AI生物学应用于药物研发,并开发用于客户服务和辅助诊断的AI Agent。

  在工业领域,我们正在开启人类历史上规模最大的扩建工程,全球大多数行业都在建造AI工厂,今天也有许多芯片和计算机制造厂的代表来到现场。在媒体与娱乐方面,实时AI平台正在支持翻译、广播、直播游戏和视频,绝大部分内容都将通过AI进行增强。在量子计算领域,有35家公司正利用我们的Holoscan平台构建下一代量子GPU混合系统。零售和消费品(CPG)行业正利用NVIDIA优化供应链,并构建代理式购物系统和客服AI Agent,这是一个价值35万亿美元的庞大市场。

  在规模达50万亿美元的制造业机器人领域,NVIDIA已深耕十年,构建了重建机器人系统所需的基础计算机,并与所有主流机器人制造公司展开合作,此次展会我们就展出了110台机器人。电信行业的规模约为2万亿美元,其遍布全球的基站作为上一代计算时代的基础设施,即将迎来彻底重塑。未来的基站将成为AI基础设施平台,让AI在边缘运行。我们的Aerial(即AIRAN)平台正在与Nokia、T-Mobile等多家公司开展重大合作。

  在这一切的核心是我们自主发明的CUDA-X库算法,这是NVIDIA作为一家算法公司的立身之本,也是我们区别于其他公司的特别之处。算法让我们能够深入各个行业,将世界顶尖计算机科学家解决问题的方法重构并转化为库。在本次展会上,我们将发布大量库和模型,这些不断更新的库是我们公司的瑰宝,它们激活了计算平台,真正解决了实际问题。比如引发现代AI大爆发的cuDNN,以及用于决策优化的cuOPT、计算光刻的cuLitho、直接稀疏求解器的cuDSS、基因组学的Parabricks等上千个CUDA-X库,正助力开发者在科学和工程领域取得突破。大家所看到的一切都不是人工动画,而是基于基础物理求解器、AI物理模型和物理AI机器人模型的完全模拟。凭借对算法的理解与计算平台的结合,NVIDIA作为一家垂直整合且横向开放的公司,正不断解锁新机遇。

  如今除了传统巨头,还涌现了一大批像OpenAI、Anthropic这样的AI原生(AInative)初创公司。随着计算被重新发明,创投圈向初创企业投入了史无前例的1500亿美元资金。因为历史上第一次,这些公司全都需要庞大的算力和海量的Token,他们要么自己生成Token,要么为现有的Token增值。正如PC、互联网和移动云时代诞生了Google、Amazon和Meta一样,我们正处于新平台转型的开端,必将涌现出对未来具有重大影响力的新公司。

  过去两年的爆发源于三大里程碑。首先,ChatGPT开启了生成式AI时代,它不仅能感知和领悟,还能翻译并生成原创内容。其次,生成式计算彻底改变了计算的实现方式,从过去的基于检索转变为现在的生成式,这也深刻改变了计算机的架构和构建方式。第三是推理AI的崛起,O1和O3模型的出现让AI能够反思、独立思考、分解问题并进行自我验证,使生成式AI变得更值得信赖且基于事实。这种推理能力大幅增加了上下文输入和思考输出的Token使用量,显著提高了计算量需求。随后ClaudeCode作为首个智能体模型问世,它能够自动读取文件、编写代码、编译测试并迭代,彻底变革了软件工程。

  AI现在必须思考、行动并进行阅读,而要做到这些,它必须进行推理并进行逻辑推演。AI的每一个部分在思考、行动和生成Token时都必须进行推理。现在早已过了训练阶段,我们正处于推理领域,推理的拐点已经到来。在这个时刻所需的计算量增加了大约10000倍。在过去的两年里计算需求增长了10000倍,而使用量可能增长了100倍。相信计算需求在过去两年里增长了一百万倍,这也是每一家初创公司、OpenAI和Anthropic的共同感受。如果他们能获得更多算力就能生成更多Token,营收就会增长,越先进的AI就会变得越聪明。

  我们在过去一年里做了大量工作,2025年是NVIDIA的推理之年。我们希望确保不仅擅长训练和后训练,而且在AI的每一个阶段都表现出色。对基础设施的投资可以长期扩展,NVIDIA基础设施使用寿命长且成本极低。毫无疑问NVIDIA系统是世界上成本最低的AI基础设施。去年的一切都是围绕推理AI展开的,这推动了拐点的到来。同时Anthropic和Meta的Llama等代表全球三分之一AI开源模型算力的平台都选择了NVIDIA。开源模型已接近前沿水平且无处不在。NVIDIA是当今世界上唯一能够跨越所有语言和AI领域运行的平台,涵盖生物学、计算机图形学、计算机视觉、语音、蛋白质、化学和机器人技术等领域。我们的架构从边缘到云端通用,使其成为成本最低且最值得信赖的平台。

  面对一万亿美元的庞大基础设施规模,必须确保投资具有高性能、成本效益和长期使用寿命。你可以满怀信心地选择NVIDIA,无论部署在云端、本地还是世界任何地方,我们都能提供支持。我们现在是一个运行所有AI的计算平台,这已体现在业务中。我们60%的业务来自前五大超大规模云服务商,其中一部分用于内部AI消耗。推荐系统和搜索等内部工作负载正从传统方法转向深度学习和大语言模型,这些负载正向NVIDIA极具优势的GPU上迁移。通过与各大AI实验室合作并拥有庞大的原生生态系统,我们能将算力带入云端并被迅速消耗。另外40%的业务遍布区域云、主权云、企业、工业领域、机器人技术、边缘计算和超级计算系统等。AI广泛的触达范围和多样性正是其韧性所在,它现已成为一项基础技术和全新的计算平台变革。

  我们的职责是继续推动技术进步。去年作为推理之年,我们在Hopper架构巅峰时冒着巨大风险进行了彻底重塑。我们决定将架构提升到全新水平,彻底重构系统以解耦计算并创造了NVLINK-72。其构建、制造和编程方式都发生了彻底改变。GraceBlackwell和NVLINK-72是一场巨大的赌注,感谢所有合作伙伴的辛勤努力。NVFP4不仅仅是精度上的提升,它代表了完全不同类型的TensorCore和计算单元。我们证明了可以在不损失精度的情况下进行推理并大幅提升性能和能效,同时还能将其用于训练。结合NVLINK-72、NVFP4、Dynamo、TensorRT-LLM以及一系列新算法,我们甚至投入数十亿美元建造了DGXCloud超级计算机来优化内核和软件栈。过去人们常说推理很简单,但实际上推理是终极难题,也是驱动收入的核心动力。对AI推理最全面的扫描数据显示每瓦特Token数至关重要。每个数据中心都受到功率限制,物理法则决定了1吉瓦的工厂不可能变成2吉瓦。因此必须在有限功率下产出最大数量的Token,力求处于效能曲线的顶端。

  推理速度决定了响应速度,也就是单次推理的交互性。推理速度越快,能处理的上下文和思考的Token就越多,这等同于AI的智能程度和吞吐量。AI越聪明,思考时间变长,吞吐量就会随之降低。从现在起,全世界的每一位CEO都会将业务视作Token工厂并将其直接与收入挂钩。在给定功率下,更好的每瓦性能意味着更高的吞吐量和更多的Token产出。NVIDIA拥有全球最高的性能,摩尔定律原本预期带来1.5倍的提升,但我们实现了35倍的跨越。

  例如Fireworks和Together等平台增长迅速,生产效能就是他们的一切。在我们更新软件后系统硬件不变的情况下,平均速度从每秒约700个Token提升到了接近5000个,整整提高了七倍。过去用于存储文件的数据中心现在已经变成了受功率限制的Token工厂。推理是新的工作负载,Token是新的商品,计算即收入。未来每一家云服务和AI公司都将思考其Token工厂的效能,这种智能将由Token来增强。

  回顾过去十年的发展,我们在2016年推出了全球首款专为深度学习设计的计算机DGX-1,八个Pascal架构GPU通过第一代NVLink连接提供170Teraflops算力。随后通过Volta架构引入NVLink交换机,将16颗GPU作为巨型GPU运行。随着模型增长数据中心需成为单一计算单元,于是Mellanox加入了NVIDIA。2020年推出的DGXA100SuperPOD结合了纵向与横向扩展架构。之后开启生成式AI时代的Hopper架构配备了FP8,而Blackwell通过NVLINK-72重新定义了AI超级计算,实现130TB/s的全对全带宽。

  如今智能体系统的算力需求呈指数级增长。专为智能体AI设计的VeraRubin推进了计算领域的各个支柱,提供3.6Exaflops算力和每秒260Terabytes的全对全带宽。搭配专为编排设计的VeraCPU机架、基于BlueField-4的STX存储机架、提升能效的Spectrum-X交换机,以及增加Token加速器的Grock-3LPX机架,合力实现了每兆瓦35倍的吞吐量提升。这个包含七颗芯片、五台机架级计算机的全新平台,让算力在短短10年内提升了4000万倍。

  过去介绍Hopper时我还能举起一颗芯片,但VeraRubin是一个需要整体优化的庞大系统。智能体系统最关键的是大语言模型的思考过程,模型不断增大对内存和存储系统产生了巨大压力,因此我们重新发明了存储系统。AI需要工具尽可能快地运行,为此我们打造了全新VeraCPU,它专为极高单线程性能设计,是全球唯一采用LPDDR5的数据中心CPU,能效比傲视群雄。该CPU旨在与机架其他部分协同进行智能体处理。VeraRubin系统已实现100%液冷,取消了线缆,安装时间从两天缩短至两小时。它使用45度温水冷却,大幅降低了数据中心的散热成本与能源消耗。这是目前世界上唯一构建到第六代的纵向扩展交换系统,实现难度极高。此外采用共封装光学技术的Spectrum-X交换机也已全面量产,光子直接连接芯片硅片,工艺完全是革命性的。VeraCPU作为独立产品已成为价值数十亿美元的业务。

  业界都在致力于不断突破能力边界,因为模型参数越大就越智能,输入的上下文越长则相关性越高。而在更快的生成速度下,系统能更好地进行思考与迭代,从而催生出更聪明的AI模型,每一次性能的跃升都赋予了服务更高的溢价空间。未来可能会出现收费高达45美元甚至每百万Token收费150美元的高级模型服务,专门为处于关键研发路径或进行长期复杂研究、对Token生成速度有极高要求的用户提供支持。不过从现实来看,如果一个研究团队每天消耗五千万个Token,以每百万150美元计价,这样的成本是难以承受的。但我们坚信阶梯化与细分化就是AI产业的未来发展方向。AI技术必须从确立自身价值和实用性起步,不断迭代升级,未来大多数AI服务都将采用这种多层级的模式。

  回顾Hopper架构,大家本就预期下一代产品性能会有所提升,但Grace Blackwell的飞跃幅度超乎所有人想象。Grace Blackwell在免费层级实现了吞吐量的极大提升,而这正是企业实现服务变现的核心领域,其吞吐量直接跃升了35倍。正如各行各业的商业逻辑一样:服务层级越高,对应的质量与性能越好,但可用容量相对越低。我们在将基础层级性能提升35倍的同时,还引入了全新的服务层级,这就是Grace Blackwell相较于Hopper实现的巨大跨越。

  从客户的实际运营角度来看,假设一个数据中心只有1吉瓦的电力总容量,我们需要进行精细的算力分配:比如将各25%的算力分别投入到免费、中级、高级和Premium层级中。免费层级用于获客,而顶层服务则面向最具价值的客户群,两者结合最终转化为业务营收。在相同的资源限制下,Blackwell架构能够创造五倍以上的收入,而Vera Rubin同样能实现五倍的营收增长。因此客户应该尽早向Vera Rubin架构迁移,这不仅能显著提升吞吐量,还能大幅降低单Token的生成成本。

  然而如果我们向外大幅延伸需求场景,假设你需要提供的服务不再是每秒400个Token,而是每秒1000个Token的超高速生成,NVLink72受限于带宽瓶颈将力不从心。这正是Groq大显身手的领域。Groq技术超越了现有极限,甚至突破了NVLink72所能触及的性能天花板。如果将技术转化为实际收益,Vera Rubin的创收能力是Blackwell的5倍。如果你的主要业务是高吞吐量工作负载,我建议100%部署Vera Rubin;但如果你的业务涉及大量代码编写或极高价值的Token生成任务,引入Groq将是明智之举。一种合理的资源配置是将Groq部署在约25%的数据中心节点中,剩余75%全部采用Vera Rubin。通过将两者深度融合,我们可以进一步拓展系统的性能边界。

  在这个体系中存在着两种走向极端的处理器架构:一颗Vera Rubin芯片拥有288GB的庞大显存;而如果要承载Rubin级别的海量模型参数以及庞大的上下文和KV缓存(KV Cache),则需要堆叠数量惊人的Groq芯片。庞大的内存需求曾一度限制了Groq进入主流市场,直到我们构思出一个绝妙的解决方案——通过一款名为Dynamo的软件实现完全的解耦推理(Disaggregated Inference)。

  我们彻底重构了AI推理流水线的执行方式。我们将最擅长高吞吐量计算的任务交给Vera Rubin处理,同时将解码生成、低延迟响应以及受带宽瓶颈制约的工作负载卸载给Groq。就这样我们将两种特性截然不同的处理器完美统一。为了解决海量内存需求,我们只需横向扩展大量Groq芯片来扩充内存容量。对于万亿参数级别的超大模型,我们可以将其完整部署在Groq芯片集群中;同时Vera Rubin在一旁协同工作,负责存储处理复杂智能体(Agentic AI)系统所需的庞大KV缓存。

  基于解耦推理的概念,Vera Rubin负责处理相对简单的预填充(Pre-fill)环节,而Groq则深度参与解码(Decode)过程。解码阶段中计算密集的注意力(Attention)机制由Vera Rubin承担,而前馈网络(Feedforward Network)以及最终的Token生成则在Groq芯片上执行。这两大系统通过以太网(Ethernet)紧密耦合,并通过特殊传输模式将网络延迟削减了近一半。在这一强大的硬件底座之上,我们运行了专为AI工厂打造的卓越操作系统Dynamo,最终实现了高达35倍的性能飞跃,更带来了全球前所未见的Token生成层级推理性能。这就是整合了Groq技术的新一代Vera Rubin系统。

  回顾以往,由于NVLink72架构的极度复杂性,Grace Blackwell在早期的样片测试阶段面临了巨大挑战;但Vera Rubin的测试工作推进得异常顺利。正如Satya所宣布的,第一台Vera Rubin机架已在Microsoft Azure云平台上正式点亮运行。我们在全球范围内构建了极其强大的供应链体系,目前每周能够产出数千套此类庞大系统,相当于每个月都能交付数吉瓦规模的AI工厂基础设施。在持续交付GB300机架的同时,我们也在全面量产Vera Rubin机架。

  与此同时Vera CPU也取得了空前的成功。当前AI在执行工具调用(Tool Use)等复杂操作时,依然高度依赖CPU的指令处理能力,Vera CPU的架构设计完美契合了这一核心诉求。Vera CPU与BlueField数据处理器以及CX9网卡深度整合,共同接入了BlueField-4网络堆栈生态。目前全球所有的主流存储企业都在积极融入我们的系统生态。过去是人类在使用SQL查询调用数据,而未来将是海量的AI智能体在疯狂读取存储系统。这些系统必须能够无缝支持cuDF加速存储、cuVS加速存储以及极其关键的海量KV缓存读取。

  关于我们的产品路线图:Blackwell架构的Oberon系统已经全面问世,并且在Rubin架构中我们将继续沿用Oberon系统,确保客户软硬件资产的向后兼容。Oberon采用了铜缆纵向扩展(Scale-up)技术,同时我们也支持通过光通信实现系统的横向扩展(Scale-out),最高可扩展至NVLink576的庞大网络。业界经常讨论NVIDIA未来会押注铜缆还是光通信,我们的答案是两者齐头并进。我们将推出配合Kyber架构的NVLink144,并通过光纤连接将采用NVLink72的Oberon系统进一步扩展为NVLink576集群。

  在这之后我们将迎来代号为Feynman的全新一代架构。Feynman不仅拥有全面革新的GPU,还将搭载由NVIDIA与Grok团队强强联手打造的全新LPU——LP40芯片。与之配套的还有代号为Rosa的全新CPU以及新一代BlueField-5数据处理器,负责将新一代CPU与SuperNIC CX10紧密连接。在Feynman架构下,我们将提供基于铜缆的Kyber纵向扩展方案,以及基于CPO技术的Kyber光通信纵向扩展方案。这是我们首次在纵向扩展领域同时并行推进铜缆和共封装光学技术路线。铜缆连接依然至关重要,但同时我们也必须大规模提升光通信的连接规模和CPO产能,以应对日益暴涨的算力需求。

  为了解决这一痛点,我们打造了Omniverse及其延伸的DSX平台。这是一个让全球产业链伙伴能够在虚拟世界同协作、联合设计吉瓦级超级AI工厂的数字孪生平台。我们拥有涵盖机架结构、机械物理、热力学散热、电气工程以及复杂网络拓扑的全套物理级模拟系统,这些仿真能力已深度集成到我们全球生态伙伴的专业工业软件中。此外DSX平台还能直接与现实世界的电网连接,动态统筹调度数据中心功耗与电网负荷以节约能源。在数据中心内部我们引入了Max-Q技术,在供电、冷却及各类硬件设施之间进行动态负载均衡,确保每一度电都能转化为最极致的Token吞吐量。在这个宏大的系统工程中,我深信至少还能挖掘出两倍以上的性能提升空间。

  NVIDIA DSX是一张用于设计和运营AI工厂的Omniverse数字孪生蓝图。开发者可以通过丰富的API接入:使用DSXsim进行物理、电气与热能仿真;通过DSxExchange管理AI工厂的运营数据;利用DSxFlex实现与电网的动态功率协同;最后由DSX Max-Q动态最大化Token吞吐量。这一流程始于NVIDIA与各大设备制造商提供的仿真就绪(Sim-ready)资产,交由PTC Windchill PLM进行管理,随后导入达索系统的3DExperience平台进行基于模型的系统工程(MBSE)设计。工程企业可将数据无缝导入自定义的Omniverse应用中完成最终厂房设计。在虚拟验证环节,我们调用西门子Star-CCM+进行外部热分析,使用Cadence Reality进行内部热分析,利用ETAP进行电气仿真,最后依靠NVIDIA的网络模拟器DSx Air配合Procore平成虚拟调试。

  OpenClaw正在重塑各行各业。有人分享了一位60岁的父亲安装OpenClaw的案例:他通过蓝牙将设备连接到OpenClaw,系统接管了精酿啤酒的全套自动化流程,甚至自动生成并上线了供客户下单的完整电商网站。在深圳数百家商户正利用它实现龙虾销售的全链路自动化。连我们自己的工程师也正尝试使用OpenClaw来构建下一代的OpenClaw。现在甚至连OpenClaw开发者大会(Claw Con)都应运而生了。

  那么OpenClaw究竟是什么?本质上它是一个超级连接器和全局化的智能体系统(Agentic System)。它的核心能力在于调用并连接大型语言模型,从而接管与管理计算机资源。OpenClaw可以访问各类工具和底层文件系统;具备强大的任务调度能力,能够执行定时任务(Cron Jobs);它拥有极强的逻辑拆解能力,能够根据分步引导(Step-by-step)的提示词拆解复杂问题,并自主衍生和唤醒其他子代理(Sub-agents)协同工作。此外它还拥有极其丰富的全模态I/O输入输出能力,你可以通过任何模态与之交互——甚至向它挥手它也能理解,并在执行完毕后通过系统消息、短信或电子邮件向你汇报结果。

  它还有什么功能?基于这一点,可以说它事实上是一个操作系统。我刚才使用的正是描述操作系统时会用到的语法。OpenClaw已经开源了Agentic计算机的核心操作系统,这与Windows让个人电脑成为可能并无二致。现在OpenClaw让创建个人智能体成为了可能,其影响不可估量。最重要的一点是,现在每一家软件公司和技术公司都意识到了这一点。对于CEO们来说,问题在于你们的OpenClaw战略是什么。正如我们曾经需要制定Linux战略、HTTP和HTML战略从而开启互联网时代,正如我们需要制定Kubernetes战略从而使移动云成为可能,当今世界上的每家公司都需要制定OpenClaw战略和智能体系统战略,这是全新的计算机。

  在OpenClaw出现之前,企业级IT被称为数据中心的原因是那些巨大的建筑存储着数据、人们的文件以及企业的结构化数据。这些数据会流经包含各种工作流和记录系统的软件,并转化为人类和数字员工使用的工具。那是旧的IT行业:软件公司开发工具、保存文件,全球系统集成商和顾问帮助公司研究如何使用并集成这些工具。这些工具对于治理、安全、隐私和合规性来说具有极高的价值,且这一切将继续保持其重要性。但在OpenClaw之后的智能体时代,情况将发生改变。每一家IT公司和SaaS公司都将转变为一家动力源公司,毫无疑问,每一家SaaS公司都将成为智能体即服务公司。

  令人惊叹的是,OpenClaw在最准确的时间为整个行业提供了最需要的东西,就像Linux、Kubernetes和HTML在最恰当的时机出现一样。它让整个行业能够抓住这个开源技术栈并大有作为。但目前面临一个问题:企业网络中的智能体系统可以访问敏感信息、执行代码并进行外部通信。这意味着它可以访问员工、供应链和财务等敏感信息并将其发送出去,这显然是绝对不被允许的。因此,我们召集了世界上顶尖的安全和计算专家与Pieter合作开发了OpenClaw,使其具备企业级安全和隐私保护能力。

  我们推出了NVIDIA的OpenClaw参考实现NemoClaw。它拥有代理式AI工具包,其中第一部分是现已集成到OpenClaw中的OpenShell技术,这让它具备了企业级就绪能力。你可以下载试用NemoClaw参考堆栈,并将全球所有SaaS公司极具价值的策略引擎连接到它。NemoClaw或带有OpenShell的OpenClaw将能够执行该策略引擎,它配备了网络护栏和隐私路由器,从而保护并安全地在公司内部执行策略。

  我们还为智能体系统增加了定制化Claws功能,让用户能够拥有专属的定制模型,这正是NVIDIA的Open Model Initiative。NVIDIA目前处于每一个AI模型领域的最前沿,无论是Nemotron语言模型、Kosmos世界基础模型、GROOT通用机器人人工智能、用于自动驾驶汽车的AlphaMIO、用于数字生物学的VaioNemo,还是用于AI物理学的Earth-2。因为世界是多样化的,没有单一的模型可以服务于所有行业。

  Open Models是全球规模最大且最具多样性的AI生态系统之一,涵盖语言、视觉、生物学、物理学和自主系统领域的近三百万个开放模型,助力构建特定领域的AI。作为开源AI领域最大的贡献者之一,NVIDIA构建并发布了六个系列的开放前沿模型,提供训练数据和框架以帮助开发者进行定制和采用。每个系列都在推出登顶排行榜的新模型。其核心包括用于语言推理、视觉理解、RAG、安全和语音的Nemotron模型,用于物理AI世界生成与理解的前沿模型Kosmos,全球首款具备思考与推理能力的自动驾驶AIAlphaMIO,通用机器人基础模型GROOT,用于生物化学和分子设计的开放模型VaioNemo,以及植根于AI物理学的天气和气候预测模型Earth-2。

  NVIDIA开放模型为研究人员和开发人员提供了构建其专业领域AI的基础。我们的模型是世界级的并在排行榜上名列前茅,但最重要的是我们将持续推动其进化,例如Nemotron 3之后将推出Nemotron 4,Kosmos 1之后推出了Kosmos 2,GROOT也已经到了第二代。我们通过垂直整合与水平开放让每个人都能加入AI革命。在研究、语音、世界模型、通用人工智能机器人、自动驾驶汽车和推理领域,我们的模型均位列排行榜第一,其中最重要的是集成在OpenClaw中的Nemotron-3,它是世界上最好的三个模型之一。我们致力于创建基础模型以便用户进行微调和后训练,使其完全符合所需的智能水平。即将推出的Nemotron 3 Ultra将成为世界上最出色的基础模型,帮助每个国家建立其主权AI。

  加入该联盟的出色公司包括影像公司Blackforest Labs、编程公司Cursor、在创建自定义智能体方面拥有十亿次下载量的LangChain、Mistral,以及打造了多模态智能体系统的Perplexity。此外,还有Reflection、来自印度的Sarvam、Thinking Machine以及Mira Murati的实验室等优秀伙伴加入了我们。世界上每一家软件公司都需要智能体系统和OpenClaw策略,这些伙伴都对此表示赞同,并正在与我们合作集成NeMo Claw参考设计、NVIDIA Agentic AI Toolkit以及我们所有的开源模型。

  智能体具备感知、推理和行动的能力。目前大多数智能体都是在数字世界中进行推理和编写软件的数字智能体,但我们也一直在研究具有物理实体的智能体,也就是机器人,它们需要的是物理AI。世界上几乎每一家制造机器人的公司都在与NVIDIA合作。我们提供由训练计算机、合成数据生成与仿真计算机以及机器人内部计算机构成的三台计算机架构,拥有实现目标所需的所有软件栈和AI模型,这些都已集成到全球从Siemens到Cadence等合作伙伴的生态系统中。今天我们宣布了一大批新合作伙伴,自动驾驶汽车的ChatGPT时刻已经到来,我们已经成功实现了汽车的自动驾驶。

  此外,我们正与ABB、Universal Robotics、KUKA等众多机器人公司合作,将物理AI模型集成到仿真系统中,以便将机器人部署到生产线上。Caterpillar和T-Mobile也参与了合作,未来的无线电塔将升级为NVIDIA Aerial AI RAN,这种机器人无线电塔能对流量进行推理,计算出如何调整波束成形以节省能源并提高保真度。在众多人形机器人中,Disney机器人是我最喜欢的之一。物理AI在全球范围内的首次大规模部署从自动驾驶汽车开启,借助NVIDIA AlphaMIO,车辆现在具备了推理能力,能够安全智能地应对各种场景。汽车可以对操作进行旁白解说,解释绕过违章停放车辆等决策的思考过程,并严格遵循加速等指令。

  为加速这一进程,NVIDIA构建了开源的ISAAC Lab用于机器人的训练、评估与模拟。Newton用于可扩展且GPU加速的可微分物理模拟,Kosmos世界模型用于神经模拟,GROOT开源机器人基础模型用于推理与动作生成。凭借充足的算力,各地开发者正弥合物理AI的数据鸿沟。例如,Peritas AI在ISAAC Lab中训练手术室辅助机器人并通过Kosmos成倍增加数据;Skilled AI利用ISAAC Lab和Kosmos生成训练后数据,并通过强化学习在数千种场景中强化模型。Humanoid、Hexagon Robotics、Foxconn和Noble Machines均使用ISAAC Lab进行全身控制、操作策略训练及数据生成微调。Disney Research则在Newton和ISAAC Lab中结合其Kamino物理模拟器为其角色机器人训练策略。

  接下来请出Disney机器人Olaf。它的成功运行证明了Newton和Omniverse的强大。Olaf肚子里的Jetson计算机让它学会了在Omniverse中行走。正是通过物理学原理,以及在与Disney和DeepMind共同开发的NVIDIA Warp之上运行的Newton解算器,Olaf才能完美适应物理世界。试想一下Disneyland的未来,将会有无数像Olaf这样自由走动的角色机器人。通常在演讲结束时我会复述重点内容,包括推理拐点、AI工厂、正在发生的OpenClaw智能体革命以及物理AI和机器人技术。但今天我们将用一段总结视频来收尾。

  视频回顾了算力爆发的历程,从CNN到OpenClaw,我们将算力提升了四千万倍。在AI时代早期,训练是核心范式,但如今推理正在运行整个世界。通过Vera等架构,成本降低了35倍,Blackwell让推理能力大幅跃升。过去构建AI工厂耗时数年且缺乏明确的扩展方法,而现在的技术能直接将电力转化为营收。智能体也从被动观望转变为自主行动,一旦偏离航向,开源的NeMo Guardrails会迅速拦截并守护进程。