大模型训练有多卷？揭开大模型算力之谜

图片地址：https://images.tmtpost.com/uploads/images/2023/10/0572fa8db2795cb9e0c548bce8f5c285_1697431341.png

图片来源@GPT生成使用全球40年的天气数据，用200张GPU卡进行预训练，2个月左右的时间，训练出了参数量达亿级的盘古气象大模型。这是清华大学毕业3年的毕恺峰训练大模型的故事。不过，从成本上看，按照正常情况下，一张GPU 7.8元/小时计算，毕恺峰盘古气象大模型的训练成本可能超出200万。这还是气象领域的垂直大模型，如果训练的是通用大模型，成本可能要翻百倍。有数据统计，中国当下10亿参数规模的大模型已经超百个。然而行业蜂拥而上的大模型“炼丹”却面临着高端GPU一卡难求的无解题。算力成本高企，缺算力、缺资金也成为了摆在行业面前最直观的问题。高端GPU，有多缺？“缺，当然缺，但是我们能有什么办法。”某大厂高管被问及是否缺算力问题时脱口而出。这似乎已经成了行业公认的一道无解题，顶峰时期一张英伟达A100的价格已经被炒到了二三十万人民币，单台A100服务器的月租价格也飙到了5万-7万/月

大模型训练有多卷？揭开大模型算力之谜 | 钛媒体深度