微比恩 > 信息聚合 > GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

2023-07-13 12:12:59来源: IT之家

IT之家 7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。▲ 图源 Semianalysis外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。▲ 图源 Semianalysis据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1

关注公众号