NVIDIA:通过购买我们的 GPU 将 CPU 培训 LLM 的成本从 1000 万美元降至仅 400,000 美元

2023-05-29 19:22:54 来源:互联网


【资料图】

NVIDIA 在 2023 年 Computex 上对整个 CPU 行业进行了多次抨击。Jensen 在 4 年后的首次现场表演中登台,大胆(而且非常正确)宣布生成 AI 和加速计算是计算的未来。在阅读对摩尔定律传统智慧的颂词时,他宣称,在保持功率和成本不变的情况下,您可以在 5 年内获得 10 倍速度的时代已经结束。未来,大部分加速将来自生成人工智能和基于加速计算的方法。他还与观众分享了一个绝对可爱的TCO:

NVIDIA 在 Comptuex 上展示了大型语言模型 (LLM) TCO 分析:

让我们先从基线开始。需要一台基于 960 CPU 的价值 1000 万美元的服务器来训练 1 个 LLM(大型语言模型)。明确地说,NVIDIA 计算了训练单个大型语言模型所需的服务器集群的完整成本(包括网络、外壳、互连——一切),发现训练一个语言模型大约需要 1000 万美元和 11 GWh 的功耗。单一的大型语言模型。

另一方面,如果保持成本不变并购买价值 1000 万美元的 GPU 集群,则可以用相同的成本和一小部分电力成本 (3.2 GWh) 训练 44 个大型语言模型。这种情况在 TCO 分析中称为 ISO 成本(保持沉没成本不变)。

如果您改用 ISO 电源或保持功耗不变,那么您实际上可以通过以 3400 万美元的成本在 11 GWh 的相同功耗下训练 150 个 LLM 来实现 150 倍的加速。该集群的占用空间仍然明显小于 CPU 集群。

关键词

最近更新