微比恩 > 信息聚合 > KubeCon热点报告:AIStation调度平台实现RoCE网络下大模型的高效稳定训练

KubeCon热点报告:AIStation调度平台实现RoCE网络下大模型的高效稳定训练

2023-10-16 15:31:00来源: 美通社

北京2023年10月16日 /美通社/ -- 近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大会(简称"开源技术峰会")上,浪潮信息分享了"基于Kubernetes+RoCEv2构建大规模AI基础设施与大模型训练实践"主题报告,介绍了浪潮信息在大模型开发过程中,尤其在大规模RoCE网络的使用场景,如何通过AIStation人工智能算力调度平台满足大模型训练的稳定性和效率要求,实现高效长时间持续训练。 KubeCon + CloudNativeCon + Open Source Summit是Linux基金会、云原生计算基金会(CNCF)主办的开源和云原生领域的旗舰盛会,在业界享有极高的声誉,来自谷歌、亚马逊、英特尔、Hugging Face等知名企业的近百位全球技术专家及行业领袖齐聚本届大会,带来最前沿的云原生相关

关注公众号
标签: on AI 大模型 网络