英伟达的反击:挟H100以令诸侯
时间:2023-10-21 15:20来源:未知 作者:未知 点击:

  去年,黄仁勋向微软、谷歌和亚马逊这些云计算厂商提出了一个计划:这些厂商都有很多搭载了英伟达 GPU 的服务器,由英伟达租用这些服务器,然后让英伟达的工程师对其进行 「优化」,再以英伟达的名义租给普通的 AI 企业,从中赚取差价。

  说简单点,以前微软会直接把云服务卖给中小公司,现在由英伟达进来当中间商。当然按照英伟达官方的说法,此举是为了 「向云计算厂商展示在数据中心配置 GPU 的正确方法」[1]。

  服务器还是那个服务器,但经过英伟达 「优化」 后,客户就从微软优化到英伟达了。但就是这样一个匪夷所思的提议,除了亚马逊之外,各大云计算厂商居然都同意了。

  2023 年 3 月,英伟达正式上线云计算服务 DGX Cloud。事实证明,经过英伟达工程师的优化后,DGX Cloud 在训练大模型时表现得的确更好;在此基础上,英伟达还破例允许短期租赁。仅仅半年时间,英伟达就拿下了软件公司 ServiceNow 等大客户。

  科技公司愿意配合英伟达骚操作的真实原因,可能还是因为英伟达手中握有大模型时代最稀缺的资源——H100。

  当下,几乎所有的企业都没有足够的算力。连 OpenAI 创始人阿尔特曼,都曾在一次听证会上无奈地表示:「如果人们减少使用 ChatGPT,我们会非常高兴,因为我们的 GPU 非常短缺 [2]。」

  买了多少 H100,甚至可以成为决定 AI 成就的关键因素。这也让英伟达有了 「挟 H100 以令诸侯」 的底气。

  通常来说,科技企业会通过购买云计算厂商的服务,来满足算力需求。从 2023 年 3 月开始,微软 Azure、亚马逊 AWS 等云计算厂商也先后上架了 HGX H100 的租赁服务,HGX H100 是由 4 个或 8 个 H100 组成的服务器。

  然而,当下供需严重失衡,云计算厂商这点 H100 存货已经远远满足不了市场的胃口。2023 年 H1 的财报中,微软专门更新了一条风险因素:如果无法获得足够多的 AI 芯片,云计算业务可能会中断。

  许多初创公司需要排队等待 3-12 个月,一旦友商抢在自己前面,那可能就是几十上百亿估值的损失。

  面对《纽约时报》的采访,一位创业者将 H100 比作 「稀土」。早些时候,他跑去请求美国国家科学基金会投资自己,仅仅因为基金会底下一个项目刚好有少数空置的 H100。

  在硅谷,AI 创业者打招呼的方式,都变成了 「我认识一个有 H100 的家伙」——不知道的还以为在买卖毒品 [4]。

  对需要自己训练大模型、追求大力出奇迹的企业来说,没有个上万块 H100 都不好意思出门。由前 DeepMind 联合创始人苏莱曼创办的 Inflection AI,成立方才一年,已买了 2.2 万个 H100;至于 Meta 这样财大气粗的公司,很可能会购买 10 万个甚至更多。

  对微软 Azure 等云计算厂商来说,每一家也都需要至少 3 万个 H100。而其余几家私有云,还将消耗总计约 10 万个 H100。

  测算后发现,仅美国大型科技公司和少数几家明星初创公司,需求量已达到约 43 万个 [5]。如果再算上其他初创企业、研究机构、大学,乃至富裕国家的追逐、再加之黄牛、黑市等不可控因素,实际需求很可能远大于这个数字。然而据英国《金融时报》爆料,今年 H100 的出货量大约是 55 万个 [6]。

  MPT-30B 是第一个使用 H100 训练的开源 LLM(大语言模型),实际训练只耗费了 11.6 天;相比之下,使用前一代的 A100 训练则需要 28.3 天 [7]。如若换成参数规模更庞大的 AI,例如 1800B 的 GPT-4,效率差异会更加明显。跑马圈地的时代,时间就是一切。

  除此之外,H100 在模型推理上的效率也远高于 A100。尽管 H100 的首发价约为 3.3 万美元,如今二手市场价格更上涨至 4-5 万美元;但若将 H100 和 A100 的性能分别除以各自的价格,能发现 H100 的性价比实际也高于 A100。

  也正因为如此,即便美国限制了 H/A100 的对华出口,国内科技公司仍在抢购阉割版的 H/A800——尽管阉割版的芯片间数据传输速度只有前者一半,意味着需要在大模型训练上花费更多时间。

  H100 芯片需要使用 SK 海力士的 HBM 内存,以及台积电的 CoWoS 封装——两者都因过于昂贵,此前并没能大规模市场化,预备产能并不多。由于产能爬坡尚需时间,有分析师预测 H100 的短缺至少会持续至明年一季度,也有人认为要到明年年底才有可能有所缓解 [9]。

  去年二季度,消费市场萎靡不振加上挖矿企业扎堆倒闭,英伟达交出了一份不及格的财报,「GPU 滞销,帮帮我们」 的表情包一度遍地都是。一年之后,黄仁勋成功向资本市场展示了什么叫 「反向暴雷」,同比营收暴涨 854%,大幅超出了最乐观分析师的预测。

  今年 8 月,传奇工程师吉姆凯勒对媒体评论道,「我不认为 GPU 是运行 AI 的全部,世界憎恶垄断 [11]。」

  事实上,那些购买了最多 H100 的大型科技公司,基本都不太 「安分」:微软、谷歌、Meta,或多或少都尝试过自研 AI 芯片。

  这让英伟达面临着一个异常尴尬的处境:在 AI 芯片领域,自己与 「大客户」 之间,未来几乎必有一战。

  大型科技公司们选择自研 AI 芯片,最初都源于一个非常质朴的需求——省钱,其中最典型的便是谷歌。

  早在 2014 年,谷歌已启动了自研芯片计划。彼时,OpenAI 的首席科学家伊利亚还在谷歌工作,打造出了一套颇具颠覆性的 AI 模型。该模型脱胎于伊利亚的 「大力出奇迹」 理念,只需要灌入足够多且正确的数据,它便能更好地完成翻译、语音识别等工作。然而待到实际应用时,谷歌却犯了难:

  如果将 AI 服务安装至 10 亿多台安卓手机中,哪怕每个人每天只使用 3 分钟,谷歌都需要 2 倍于当前数据中心的算力。当时谷歌已经建了 15 个数据中心,每个造价上亿美金,「超级加倍」 显然不切实际。

  最终,谷歌自研出了性能更强、功耗更低的 TPU,大大提升了单个数据中心的算力供应,以一种更经济实惠的方式解决了算力难题。

  TPU 的出现,令黄仁勋如坐针毡,开始了 「爆改 GPU」,很快在性能上实现了反超,其最新成果便是 H100。不过,H100 的售价实在过于昂贵。

  如果按重量售卖 H100,那么其每盎司售价将达到黄金的一半;即便对地球上最赚钱的科技公司而言,这笔 「英伟达税」 也堪称天文数字。

  然而,H100 的实际制造成本并不高。据金融咨询公司 Raymond James 测算,H100 的成本约为 3320 美金,仅占首发价的 1/10,黄仁勋含泪赚 10 倍 [12]。

  堆迭算力不是简单的往车里加汽油,需要考虑软件适配性、自身业务需求等一系列问题。例如 AI 所使用的深度学习框架有多个派别,谷歌是 TensorFlow,Meta 用的 PyTorch,而百度则有 PaddlePaddle,硬件需要根据不同框架做适配。

  专门定制的 AI 芯片,可以更加紧贴自身 AI 业务的需求。所以 Meta 在今年又重启了自研芯片计划,针对 PyTorch 框架定制了全新的 MTIA 芯片。

  对大公司来说,考量芯片的核心其实不是算力,而是 「单位美元提供的算力」,也就是成本。谷歌的 TPU 和特斯拉的 Dojo 都证明了,定制服务的成本是可以接受的。

  眼下,「反抗的星火」 已经点燃。据外媒爆料,大型科技公司的云计算团队,已开始频繁劝说客户改用其自研芯片,而不是英伟达的 GPU。英伟达固然是目前为止绝对的赢家,但没人知道平衡什么时候会被打破。

  CoreWeave 成立于 2017 年,最初是一家以太坊挖矿公司,后来转型做起了云计算业务。据 CoreWeave 创始人透露,2022 年公司收入为 3000 万美金,仅有微软 Azure 的 1/1133,在硅谷几乎没什么存在感。

  然而到了 2023 年,CoreWeave 突然一夜成名,接连签下 Inflection AI 和 Stability AI 两个大客户,年营收预计将达到 5 亿美金,一年翻 16 倍。除此之外,微软甚至决定在未来几年花费数十亿美金购买其服务;其中仅 2024 年的订单,已有 20 亿美金。

  今年 4 月,英伟达参与了对 CoreWeave 的投资;但比起美元,英伟达还给了它一项更稀有的资源——H100。CoreWeave 是全球第一家上线 租赁服务的云计算企业,比微软 Azure 还要早一个月。

  H100 近乎垄断的市场地位加之严重短缺的现状,让英伟达手中多了一层权力:他可以自由决定优先供货的对象。

  相比自己跟 Big Tech 们同床异梦的塑料友谊,CoreWeave 和英伟达是实打实的革命战友。因此,英伟达削减了对大型科技公司的 H100 供应,转而将这部分产能交给了 CoreWeave 等 「自家兄弟」——它们曾确保不会自研芯片。

  例如前文提到的 Stability AI,在 2022 年底时一直将亚马逊 AWS 视作唯一云服务商;然而到了今年 3 月,困于算力不足的 Stability AI,悄悄叩开了 CoreWeave 的大门。

  事实上,英伟达手中并非仅有 CoreWeave 一张牌。这位手握 H100 的投资人,还投资了同为云计算公司的 Lambda Labs,以及三家从事大模型、应用开发的明星初创企业。

  在亩产十万大模型的当下,H100 是比美元还珍贵的硬通货,也为英伟达创造了一个宝贵的窗口期:尽可能让更多公司用上 H100,趁早建立起生态,「把朋友搞得多多的」。

  英伟达的一系列 「骚操作」 已经引来了美国反垄断机构的注意,同时,全球疯抢 H100 的现状,很可能不会长期持续下去。

  正如前文所述,H100 产能受限是因为台积电和 SK 海力士的预备产能不足;随着新产线陆续落地,短缺状况会逐渐得到缓解。

  事实上,越来越多的科技公司和研究机构都选择将大模型开源。随着市场上的优质开源模型越来越多,初创企业和研究机构可以不必再自己动手训练,转而直接下载开源模型,根据自身业务需求进行开发或者推理。

  Meta 发布开源大模型 Llama 后,斯坦福、卡内基梅隆等多所高校的研究人员就曾联合起来,以此为基础打造了开源大模型 Vicuna,很快便突破了 200 万次下载。

  在肉眼可见的未来,算力的主要使用场景很可能会从训练转向推理——届时,H100 便不再是独孤求败了。因为不同于追求极致效率的训练场景,AI 推理其实更看重性价比。

  另一方面,以大模型为代表的生成式 AI 如今面临的问题在于:面对高昂的算力成本,除了英伟达,大家都还没赚到钱。

  2006 年 CUDA 平台推出时,英伟达以超脱于行业的前瞻性推动了 AI 的飞速进步。而如今,英伟达气势如虹的业绩似乎也是一种拷问:它是不是已经从 AI 的推动者,变成了 AI 前进的阻力?

(责任编辑:)

关键词:

随机推荐

联系我们 -