智能云域名资讯|域名门户|域名新闻中心

新闻资讯频道
云计算领域最新资讯

标签: B300显卡服务器

互联网+

万亿至十万亿参数 MoE 模型的训练与微调实践

阅读(39 ) 评论()

万亿至十万亿参数 MoE 模型的训练与微调实践 当模型规模迈向万亿乃至十万亿参数,MoE(混合专家)架构成为唯一可行路径。但训练和微调如此庞大的模型,面临着专家负载不均、通信开销爆炸、显存墙三大难题。B300 的硬件与软件协同设计给出了系统性答案。 在训练层面,B300 集成[……]

Read more