英伟达的反击：挟H100以令诸侯-江苏造价信息网

英伟达的反击：挟H100以令诸侯

时间:2023-10-21 15:20来源:未知作者:未知点击:

　　去年，黄仁勋向微软、谷歌和亚马逊这些云计算厂商提出了一个计划：这些厂商都有很多搭载了英伟达 GPU 的服务器，由英伟达租用这些服务器，然后让英伟达的工程师对其进行「优化」，再以英伟达的名义租给普通的 AI 企业，从中赚取差价。

　　说简单点，以前微软会直接把云服务卖给中小公司，现在由英伟达进来当中间商。当然按照英伟达官方的说法，此举是为了「向云计算厂商展示在数据中心配置 GPU 的正确方法」[1]。

　　服务器还是那个服务器，但经过英伟达「优化」后，客户就从微软优化到英伟达了。但就是这样一个匪夷所思的提议，除了亚马逊之外，各大云计算厂商居然都同意了。

　　2023 年 3 月，英伟达正式上线云计算服务 DGX Cloud。事实证明，经过英伟达工程师的优化后，DGX Cloud 在训练大模型时表现得的确更好；在此基础上，英伟达还破例允许短期租赁。仅仅半年时间，英伟达就拿下了软件公司 ServiceNow 等大客户。

　　科技公司愿意配合英伟达骚操作的真实原因，可能还是因为英伟达手中握有大模型时代最稀缺的资源——H100。

　　当下，几乎所有的企业都没有足够的算力。连 OpenAI 创始人阿尔特曼，都曾在一次听证会上无奈地表示：「如果人们减少使用 ChatGPT，我们会非常高兴，因为我们的 GPU 非常短缺 [2]。」

　　买了多少 H100，甚至可以成为决定 AI 成就的关键因素。这也让英伟达有了「挟 H100 以令诸侯」的底气。

　　通常来说，科技企业会通过购买云计算厂商的服务，来满足算力需求。从 2023 年 3 月开始，微软 Azure、亚马逊 AWS 等云计算厂商也先后上架了 HGX H100 的租赁服务，HGX H100 是由 4 个或 8 个 H100 组成的服务器。

　　然而，当下供需严重失衡，云计算厂商这点 H100 存货已经远远满足不了市场的胃口。2023 年 H1 的财报中，微软专门更新了一条风险因素：如果无法获得足够多的 AI 芯片，云计算业务可能会中断。

　　许多初创公司需要排队等待 3-12 个月，一旦友商抢在自己前面，那可能就是几十上百亿估值的损失。

　　面对《纽约时报》的采访，一位创业者将 H100 比作「稀土」。早些时候，他跑去请求美国国家科学基金会投资自己，仅仅因为基金会底下一个项目刚好有少数空置的 H100。

　　在硅谷，AI 创业者打招呼的方式，都变成了「我认识一个有 H100 的家伙」——不知道的还以为在买卖毒品 [4]。

　　对需要自己训练大模型、追求大力出奇迹的企业来说，没有个上万块 H100 都不好意思出门。由前 DeepMind 联合创始人苏莱曼创办的 Inflection AI，成立方才一年，已买了 2.2 万个 H100；至于 Meta 这样财大气粗的公司，很可能会购买 10 万个甚至更多。

　　对微软 Azure 等云计算厂商来说，每一家也都需要至少 3 万个 H100。而其余几家私有云，还将消耗总计约 10 万个 H100。

　　测算后发现，仅美国大型科技公司和少数几家明星初创公司，需求量已达到约 43 万个 [5]。如果再算上其他初创企业、研究机构、大学，乃至富裕国家的追逐、再加之黄牛、黑市等不可控因素，实际需求很可能远大于这个数字。然而据英国《金融时报》爆料，今年 H100 的出货量大约是 55 万个 [6]。

　　MPT-30B 是第一个使用 H100 训练的开源 LLM（大语言模型），实际训练只耗费了 11.6 天；相比之下，使用前一代的 A100 训练则需要 28.3 天 [7]。如若换成参数规模更庞大的 AI，例如 1800B 的 GPT-4，效率差异会更加明显。跑马圈地的时代，时间就是一切。

　　除此之外，H100 在模型推理上的效率也远高于 A100。尽管 H100 的首发价约为 3.3 万美元，如今二手市场价格更上涨至 4-5 万美元；但若将 H100 和 A100 的性能分别除以各自的价格，能发现 H100 的性价比实际也高于 A100。

　　也正因为如此，即便美国限制了 H/A100 的对华出口，国内科技公司仍在抢购阉割版的 H/A800——尽管阉割版的芯片间数据传输速度只有前者一半，意味着需要在大模型训练上花费更多时间。

　　H100 芯片需要使用 SK 海力士的 HBM 内存，以及台积电的 CoWoS 封装——两者都因过于昂贵，此前并没能大规模市场化，预备产能并不多。由于产能爬坡尚需时间，有分析师预测 H100 的短缺至少会持续至明年一季度，也有人认为要到明年年底才有可能有所缓解 [9]。

　　去年二季度，消费市场萎靡不振加上挖矿企业扎堆倒闭，英伟达交出了一份不及格的财报，「GPU 滞销，帮帮我们」的表情包一度遍地都是。一年之后，黄仁勋成功向资本市场展示了什么叫「反向暴雷」，同比营收暴涨 854%，大幅超出了最乐观分析师的预测。

　　今年 8 月，传奇工程师吉姆凯勒对媒体评论道，「我不认为 GPU 是运行 AI 的全部，世界憎恶垄断 [11]。」

　　事实上，那些购买了最多 H100 的大型科技公司，基本都不太「安分」：微软、谷歌、Meta，或多或少都尝试过自研 AI 芯片。

　　这让英伟达面临着一个异常尴尬的处境：在 AI 芯片领域，自己与「大客户」之间，未来几乎必有一战。

　　大型科技公司们选择自研 AI 芯片，最初都源于一个非常质朴的需求——省钱，其中最典型的便是谷歌。

　　早在 2014 年，谷歌已启动了自研芯片计划。彼时，OpenAI 的首席科学家伊利亚还在谷歌工作，打造出了一套颇具颠覆性的 AI 模型。该模型脱胎于伊利亚的「大力出奇迹」理念，只需要灌入足够多且正确的数据，它便能更好地完成翻译、语音识别等工作。然而待到实际应用时，谷歌却犯了难：

　　如果将 AI 服务安装至 10 亿多台安卓手机中，哪怕每个人每天只使用 3 分钟，谷歌都需要 2 倍于当前数据中心的算力。当时谷歌已经建了 15 个数据中心，每个造价上亿美金，「超级加倍」显然不切实际。

　　最终，谷歌自研出了性能更强、功耗更低的 TPU，大大提升了单个数据中心的算力供应，以一种更经济实惠的方式解决了算力难题。

　　TPU 的出现，令黄仁勋如坐针毡，开始了「爆改 GPU」，很快在性能上实现了反超，其最新成果便是 H100。不过，H100 的售价实在过于昂贵。

　　如果按重量售卖 H100，那么其每盎司售价将达到黄金的一半；即便对地球上最赚钱的科技公司而言，这笔「英伟达税」也堪称天文数字。

　　然而，H100 的实际制造成本并不高。据金融咨询公司 Raymond James 测算，H100 的成本约为 3320 美金，仅占首发价的 1/10，黄仁勋含泪赚 10 倍 [12]。

　　堆迭算力不是简单的往车里加汽油，需要考虑软件适配性、自身业务需求等一系列问题。例如 AI 所使用的深度学习框架有多个派别，谷歌是 TensorFlow，Meta 用的 PyTorch，而百度则有 PaddlePaddle，硬件需要根据不同框架做适配。

　　专门定制的 AI 芯片，可以更加紧贴自身 AI 业务的需求。所以 Meta 在今年又重启了自研芯片计划，针对 PyTorch 框架定制了全新的 MTIA 芯片。

　　对大公司来说，考量芯片的核心其实不是算力，而是「单位美元提供的算力」，也就是成本。谷歌的 TPU 和特斯拉的 Dojo 都证明了，定制服务的成本是可以接受的。

　　眼下，「反抗的星火」已经点燃。据外媒爆料，大型科技公司的云计算团队，已开始频繁劝说客户改用其自研芯片，而不是英伟达的 GPU。英伟达固然是目前为止绝对的赢家，但没人知道平衡什么时候会被打破。

　　CoreWeave 成立于 2017 年，最初是一家以太坊挖矿公司，后来转型做起了云计算业务。据 CoreWeave 创始人透露，2022 年公司收入为 3000 万美金，仅有微软 Azure 的 1/1133，在硅谷几乎没什么存在感。

　　然而到了 2023 年，CoreWeave 突然一夜成名，接连签下 Inflection AI 和 Stability AI 两个大客户，年营收预计将达到 5 亿美金，一年翻 16 倍。除此之外，微软甚至决定在未来几年花费数十亿美金购买其服务；其中仅 2024 年的订单，已有 20 亿美金。

　　今年 4 月，英伟达参与了对 CoreWeave 的投资；但比起美元，英伟达还给了它一项更稀有的资源——H100。CoreWeave 是全球第一家上线租赁服务的云计算企业，比微软 Azure 还要早一个月。

　　H100 近乎垄断的市场地位加之严重短缺的现状，让英伟达手中多了一层权力：他可以自由决定优先供货的对象。

　　相比自己跟 Big Tech 们同床异梦的塑料友谊，CoreWeave 和英伟达是实打实的革命战友。因此，英伟达削减了对大型科技公司的 H100 供应，转而将这部分产能交给了 CoreWeave 等「自家兄弟」——它们曾确保不会自研芯片。

　　例如前文提到的 Stability AI，在 2022 年底时一直将亚马逊 AWS 视作唯一云服务商；然而到了今年 3 月，困于算力不足的 Stability AI，悄悄叩开了 CoreWeave 的大门。

　　事实上，英伟达手中并非仅有 CoreWeave 一张牌。这位手握 H100 的投资人，还投资了同为云计算公司的 Lambda Labs，以及三家从事大模型、应用开发的明星初创企业。

　　在亩产十万大模型的当下，H100 是比美元还珍贵的硬通货，也为英伟达创造了一个宝贵的窗口期：尽可能让更多公司用上 H100，趁早建立起生态，「把朋友搞得多多的」。

　　英伟达的一系列「骚操作」已经引来了美国反垄断机构的注意，同时，全球疯抢 H100 的现状，很可能不会长期持续下去。

　　正如前文所述，H100 产能受限是因为台积电和 SK 海力士的预备产能不足；随着新产线陆续落地，短缺状况会逐渐得到缓解。

　　事实上，越来越多的科技公司和研究机构都选择将大模型开源。随着市场上的优质开源模型越来越多，初创企业和研究机构可以不必再自己动手训练，转而直接下载开源模型，根据自身业务需求进行开发或者推理。

　　Meta 发布开源大模型 Llama 后，斯坦福、卡内基梅隆等多所高校的研究人员就曾联合起来，以此为基础打造了开源大模型 Vicuna，很快便突破了 200 万次下载。

　　在肉眼可见的未来，算力的主要使用场景很可能会从训练转向推理——届时，H100 便不再是独孤求败了。因为不同于追求极致效率的训练场景，AI 推理其实更看重性价比。

　　另一方面，以大模型为代表的生成式 AI 如今面临的问题在于：面对高昂的算力成本，除了英伟达，大家都还没赚到钱。

　　2006 年 CUDA 平台推出时，英伟达以超脱于行业的前瞻性推动了 AI 的飞速进步。而如今，英伟达气势如虹的业绩似乎也是一种拷问：它是不是已经从 AI 的推动者，变成了 AI 前进的阻力？

(责任编辑：)

关键词:

上一篇：地铁8号线东延段拟增设龙泽路站点下一篇：杭州地铁运营线号线吴山广场站、机场快线有新进展！

随机推荐