编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
在1月6日拉斯维加斯的时候CES峰会上,黄仁勋终于现身了 !价格讲最结新
出场就让直播间的打下达评论区炸了 ,黄教主上身blingbling的黄仁互联新皮夹克引起了网友的好奇,这是勋新心鳄鱼皮的吗 ,有链接吗,年演这得几万刀吧(狗头) ?全总强G起可全球
“大家喜欢我的新皮夹克吗 ?”
图片
黄仁勋开场用了10分钟的时间介绍了英伟达的成长史 ,服务器租用他回忆了GeForce显卡和CUDA、推最AI的块连容器三个阶段的标志性里程碑。
我们的承载一切都是从1993年开始的,当英伟达开始设计第一款游戏的流量GPU的时候,我们希望能够让整个的英伟游戏机能做出普通游戏机不能实现的功能,因此我们在整个设计游戏的个野过程之中 ,高防服务器我们的时候编程是采用了CUDA 。后来的价格讲最结新话,我们又把CUDA进一步的设计成统一的游戏架构。
最开始的时候,1999年 ,我们推出了“”GeForce”的显卡 。6年之后,我们重新设计了另外一款可以编程的GPU 。建站模板2006年 ,我们真正的发明了CUDA,它能够去以一种命令行 、科学的方式去解释、去分享和表达我们的GPU 。
最开始的时候是很难被人理解的 ,实际上我们花了数年的时间,甚至是6年或更久的模板下载时间,让人们去理解CUDA的这样一个编程 。
所有的一切,都是从过去20多年的努力开始的,我们一直在GPU处理器上处于领先的地位 ,GPU也是让整个现代计算机的图像成型的基础处理器 。
再后来就是亿华云2012年Alex和2018年的Transformer的诞生,以神经网络为代表的人工智能被落地在了GPU上。事实上GPU,在很多情况下都和AI的利益结合在一起 ,成为了AI的房屋 ,成为了AI的容器。现在我觉得AI已经到了类似GForce的这样一个阶段,人们可以像当年基于GeForce显卡一样实现不一样的游戏一样,免费模板用AI可以做出很多很酷的产品或功能,比如大家现在看到的实时计算机渲染图像的应用。
情绪铺垫到位后,黄仁勋冷不防就开始了“新品王炸”模式。
图片
右手展示了自家最新的GPU——RTX 5090 ,左手则是用来对比的RTX 4090。
黄教主这次上来并没有直接突出说性能如何,上来就直接说价格:
那对于RTX 4090级性能表现的话 ,我们决定把它降价到549美元(4000块钱~) 。如果没有人工智能,这个价格都是不可能的 。
图片
“对于RTX 4090 ,我知道大家都说它太贵了 ,它是1599美元。不过它也是大家目前为止能做出的最好的一个投资 ,对于1599美元,你带回家了一个价值上万的数字家庭影院,难道不是吗 ?”
新发布的GPURTX50系列 ,总共有四款AI处理器,其中RTX5070就可以用$549的价格来实现,4090级别的性能,直接省去了1000多刀。
图片
这还没完,大家都知道如何让这些牛逼的GPU真正进入到大家的使用场景中 ,才是老黄关注的,(当然也是在CES这种场合必须要亮相实际AI产品) ,老黄直接抛出了英伟达新推出的基于RTX5070的笔记本 ,便于大家去使用和管理GPU,只需要4090机一半的能耗,定价1299美元(不到一万块钱,9500左右。)
图片
这个是RTX5070电脑,1299美元,就可以有RTX4090的同样的性能表现。给大家展示一下我们最新这款计算机。大家可以看一下这款计算机。
至于RTX5090有多强?这里列出几个参数 :920亿个晶体管 、4000 AI TOPS(每秒万亿次操作)的性能 ,具备1.8 TB/s 的内存带宽 ,能够快速地读取和写入数据,能够实现380 RT TFLOPS(每秒万亿次浮点运算)的光线追踪性能,具有125 Shader TFLOPS 的着色器性能。
图片
图片
相信对于游戏开发者而言,更能品出来这意味着什么 ,3A大作的制作周期有望大大缩短了!
黄仁勋是这样讲的,相比上一代架构 ,Blackwell 在每瓦性能上提高了 4 倍 ,在 每美元性能 上提高了 3 倍 。这意味着 ,在相同成本下,训练模型的规模可以增加 3 倍,而这些改进背后的关键是生成 AI token 。这些 token 被广泛应用于 ChatGPT、Gemini 和各种 AI 服务中,是未来计算的基础。
不过性能最强的RTX 5090也是卖出了高价 :1999美元(约14651元),大家看情况要不要尝尝鲜。
此外 ,仍然值得一提的是老黄在Blackwell架构关键的互联技术也来了波新的——NVLink72。老黄称之为“整个处理中心的脊柱”。主要看下有哪些高光配置:
72个Blackwell GPU具备1.4 ExaFLOPS TE FP4计算能力晶体管数量达到130万亿拥有2592个 Grace CPU核心72个ConnectX - 8网络接口卡576个存储芯片 ,总容量14TB ,带宽1.2PB/s18个NVLink交换机,全连接带宽130 TB/s
图片
为了介绍这个新的互联技术NVLink72,老黄甚至化身“美国队长”手持盾牌道具 ,整起活来 。
图片
黄仁勋是这样总结的新款GPU的——
Blackwell系统的奇迹在于其前所未有的规模 ,Blackwell芯片是人类历史上最大的单芯片;该系统的最终目标是增强我们在技术和创新方面的能力和体验 。
而创建NVLink的根本目的是围绕主动型人工智能(Agentic AI),它展现了延长测试时间和提升客户互动的完美模型 。
英伟达的目标是创建一个巨型芯片,该芯片将使用72个Blackwell GPU或144个芯片,超越世界上最快的超级计算机的能力 。
黄仁勋透露 ,英伟达拥有多种(计算)系统 ,如NBLink 36x2和NBLink 72x1,能够满足全球几乎所有数据中心的需求 ,目前在约45家工厂生产 。
小编解释一下 :Blackwell 架构下的 72 块 GPU 组成了全球最大的单芯片系统,提供了高达 1.4 ExaFLOPS 的 AI 浮点性能,其内存带宽达到惊人的 1.2 PB/s,相当于全球所有互联网流量的总和。这种超级计算能力 ,使得 AI 能够处理更复杂的推理任务 ,同时显著降低成本,为更高效的计算奠定了基础 。
据现场消息,Blackwell目前已全面投入生产,所有主要云服务提供商均已建立系统 ,提供约200种不同型号和配置,来自约15家硬件制造商 。Blackwell相比于前一代在性能上实现了四倍的提升。黄仁勋宣布,基于Llama推出完整系列模型,采用NVIDIA Llama Nemo Tron语言基础模型 。
那么除了造更强性能的芯片 ,英伟达这两年,都在跟客户忙那些新业务 ?
黄仁勋也不装了,紧接着在阐述了自己对于大模型现在存在的三种Scaling Law :预训练、后训练、测试时间计算之后,就开始了自己对于2025之后Agent的一些进展——
AI Agent 是新的数字劳动力,能够协助或代替人类完成任务。英伟达的 Agentic AI 构建模块 、NEM 预训练模型和 Nemo 框架,帮助组织轻松开发并部署 AI Agent 。这些 Agent 可被训练为领域特定的任务专家。
以下是四个示例:
研究助理 Agent :能够阅读复杂文件,如讲座 、期刊、财务报告等,并生成交互式播客,便于学习;
软件安全 AI Agent :帮助开发者持续扫描软件漏洞,并提示采取相应措施;
虚拟实验室 AI Agent :加速化合物设计与筛选,快速找到潜在药物候选者;
视频分析 AI Agent :基于 英伟达Metropolis 蓝图 ,分析来自数十亿摄像头的数据 ,生成交互式搜索、摘要和报告 。例如,监控交通流量 、设施流程 ,提供改进建议等。
“最后 ,我还有一个重要的内容想展示 ,所有这些都离不开我们十年前在公司内部启动的一个名为Project Digits 的项目 ,完整名称为 Deep Learning GPU Intelligence Training System(深度学习 GPU 智能训练系统) ,简称 Digits。”
黄教主继续强化这样一种信号:英伟达不知是一家GPU公司 ,而是一个智能工厂!
在正式发布之前,我们对 DGX 进行了调整 ,使其与公司内部的 RTX、AGX、OVX 以及其他系列产品和谐一致。DGX1 的问世真正改变了 AI 的发展方向,而这也是英伟达对 AI 发展的一个里程碑 。
图片
DGX1 的初衷是为研究人员和初创企业提供开箱即用的 AI 超级计算机 。想象一下,以往的超级计算机需要用户建造专属设施,设计和打造复杂的基础设施,才能实现其存在。而DGX1 则是一台专门为 AI 开发设计的超级计算机,无需复杂操作,开箱即可使用 。
“我还记得,2016 年我将第一台 DGX1 交付给一家初创公司—— OpenAI 。当时 ,埃隆·马斯克(Elon Musk)、伊利亚·苏茨科维尔(Ilya Sutskever)以及 英伟达的许多工程师都在场,我们共同庆祝 DGX1 的到来。这台设备显著推动了 AI 计算的发展 。”
不过,黄仁勋并没有满足于只服务于这些AI巨佬 ,黄仁勋想要让普通用户也能用得上这么强大的AI超级计算机。
“如今 , AI 已经无处不在。不仅限于研究机构和初创企业实验室,正如我一开始提到的 , AI 已经成为一种全新的计算方式和软件开发方式。每一位软件工程师、创意艺术家 ,甚至是使用电脑工具的普通用户 ,都需要一个 AI 超级计算机 。所以,我一直希望 DGX1 能够更小一些。”
老黄顺势推出了英伟达最新的 AI 超级计算机,不过他还没有想好叫什么名字 。
这款超级计算机可以运行 英伟达的完整 AI 软件栈,包括 DGX Cloud 。它既可以用作云端超级计算机,也可以作为一台高性能的工作站 ,甚至是放在桌面上的分析工作站