北京2024年5月30日 /美通社/ -- 5月28日,浪潮信息发布"源2.0-M32"开源大模型。"源2.0-M32"在基于"源2.0"系列大模型已有工作基础上,创新性地提出和采用了"基于注意力机制的门控网络"技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中性能全面对标700亿参数的LLaMA3开源大模型。 在算法层面,源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。源2.0-M32采用源2.0-2B为基础模
浪潮信息发布 "源2.0-M32" 开源大模型,大幅提升模算效率
2024-05-30 17:52:00来源: 美通社
关注公众号
赞
你的鼓励是对作者的最大支持
- 开辟大模型更多应用场景 浪潮云洲"知业大模型"加速赋能千行百业2024-09-30 15:16:00
- 企业大模型应用开发提速 浪潮信息发布元脑企智EPAI一体机2024-09-29 21:23:00
- 软通动力出席百度云智大会,分享行业大模型的思考与实践2024-09-27 15:44:00
- 陈睿:B站已上线自研大模型 index 并应用于 AI 字幕,具备近 10 种语言实时翻译能力2024-09-26 21:59:45
- 软通动力开源驱动AI大模型与软硬一体创新发展分论坛圆满落幕2024-09-26 17:45:00
- 百度全面升级百舸 AI 异构计算平台 4.0、千帆大模型平台 3.02024-09-25 17:48:57
- 前百度研究院副院长新项目:给手机、PC做可用的大模型基础设施,前微软高管加入 | 智涌独家2024-09-24 15:55:40
- 阿里云智能集团首席技术官周靖人:大模型降价背后是效率的提升2024-09-24 08:30:15
- 华知大模型5.0发布2024-09-22 14:03:04
- 华知大模型 5.0 发布:同方知网与华为云打造,7B~135B 尺寸2024-09-22 11:11:24
- 1微软 Win10 / Win11 系统增强工具 PowerToys 0.85.0 发布:新增 New+ 模块
- 2苹果公司新专利显示未来 MacBook Air / iMac 有望使用玻璃作为外壳材质
- 3卡西欧将与韩国女团ITZY开展第二次联名合作
- 4谷歌 Earth 推出“时光机”,带你回溯伦敦、巴黎等城市 80 年沧桑巨变
- 5B 社《星空》首个大型游戏 DLC“破碎空间”反响不佳:M 站 58 分、Steam 好评率 41%“褒贬不一”
- 6丰田首款“美国制造电动汽车”生产启动时间推迟至 2026 年
- 7荣耀专利探索折叠手机新形态,十字铰链解锁无限可能
- 8日本央行审议委员野口旭:下一次加息的时机取决于数据
- 9香港恒生指数跌幅收窄至2%
- 10《死亡搁浅 2》放出临时主菜单吊足玩家胃口,游戏进度 30-40% 应是误读