IT之家 7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。▲ 图源 Semianalysis外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。▲ 图源 Semianalysis据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
2023-07-13 12:12:59来源: IT之家
关注公众号
赞
你的鼓励是对作者的最大支持
- 蜜度CTO刘益东:AI技术发展的成果要让普通人都能理解 | 最前线2023-07-13 13:34:25
- 万物有时,在这个夏季共话生长 | 36氪未来品牌大会2023-07-13 15:44:02
- 京东推出言犀大模型,从产业端切入大模型赛道 | 最前线2023-07-13 16:21:03
- 荷兰立法严惩“人肉搜索”:违者最高面临 2 年有期徒刑或 2.2 万欧元罚款,明年正式生效2023-07-13 12:07:22
- 社区模拟休闲生活类 MMO 游戏《Palia》8 月 10 日开启公测2023-07-13 12:09:24
- 8899 元,尼康尼克尔 Z 70-180mm f / 2.8 镜头今日正式开售2023-07-13 12:10:26
- 麻省理工学院 FrameDiff 工具问世,利用 AI 设计蛋白质结构助力医疗发展2023-07-13 12:18:33
- 机械师推出曙光 16 Air 锐龙核显本:搭载 R7 7840H,4999 元2023-07-13 12:42:25
- 消息称 Meta 将发布商用版 LLaMA 大模型2023-07-13 12:43:08
- 魅族发布 PANDAER Air 真无线蓝牙耳机:25 小时续航、13mm 动圈,到手价 149 元2023-07-13 12:43:49
- 1任天堂 Switch 游戏《马力欧&路易吉 RPG 兄弟齐航!》今晚发售,429 港币
- 2阿里巴巴开源工具 EasyExcel 宣布逐步进入维护模式:不再主动新增功能
- 3Exynos 2500 芯片遇挑战,消息称三星 3nm 工艺良率低于 20%
- 4中国网络视听协会:今年微短剧市场规模有望首超内地电影票房
- 5亚马逊将向意大利数据中心业务投资13亿美元
- 6小鹏汽车明年将扩大到 60 个国家和地区市场,目标成为面向全球的 AI 汽车公司
- 7多口插拔不断连:酷态科 10 号 CP 超级闪充块单体版 105 元新低
- 8安徽高新投先进材料投资基金登记成立 出资额3亿
- 9中兴 5G AI CPE G5 Pro 开启预售:2.5G 双网口、 WAN / LAN 自适应,1999 元
- 10全球最大、国内首制!我国万吨级纯电动高端智能海船开建:总功率 1900kW,最大航速 11.5 节