智能云域名资讯|域名门户|域名新闻中心

新闻资讯频道
云计算领域最新资讯

【置顶推荐】 终于有人把云计算、大数据和人工智能讲明白了!

一般谈云计算的时候会提到大数据、谈人工智能的时候会提大数据、谈人工智能的时候会提云计算……感觉者之间相辅相成又不可分割。但如果是非技术的人员,就可能比较难理解这三者之间的相互关系,所以有必要解释一下。 今天跟大家讲讲云计算、大数据和人工智能。这三个词现在非常火,并且它们之间好像互相有关[……]

Read more

互联网+

H200显卡生成式AI模型的实时交互推理延迟优化

阅读(18 ) 评论()

H200显卡生成式AI模型的实时交互推理延迟优化 实时交互生成要求毫秒级响应,H200通过三项技术突破延迟瓶颈:大容量驻留、细粒度调度、推测解码加速。首先,将整个模型常驻显存,避免推理中的上下文加载延迟。H200的141GB足以容纳GPT-70B级别的FP16模型及相关KV缓存,零载入时[……]

Read more

互联网+

H200显卡GPT级别模型的FP8混合精度训练加速

阅读(17 ) 评论()

H200显卡GPT级别模型的FP8混合精度训练加速 GPT级别模型的训练受限于计算与显存带宽,H200引入的FP8混合精度支持带来双重加速。FP8将存储需求减半,使141GB显存可容纳两倍参数量或四倍序列长度。更重要的是,H200的Tensor Core原生支持FP8矩阵乘累加,吞吐达到[……]

Read more

IT访谈

H200显卡大语言模型微调与持续学习管线的驻留内存优化

阅读(21 ) 评论()

H200显卡大语言模型微调与持续学习管线的驻留内存优化 H200凭借141GB HBM3e高速显存,为大语言模型微调提供了前所未有的驻留内存优化空间。传统微调中,全参数更新与梯度、优化器状态(如AdamW的动量项)的内存占用常导致碎片化换入换出,严重拖慢效率。H200的大容量允许将完整模[……]

Read more

大数据

Llama 3 405B:H200实现BF16精度高效预训练

阅读(30 ) 评论()

Llama 3 405B:H200实现BF16精度高效预训练 Llama 3 405B作为目前最大的开源稠密大语言模型,其BF16精度预训练对显存容量和带宽提出了严苛要求。传统H100集群需要将模型分片到8卡以上才能启动训练,而H200的141GB HBM3e显存让单机内完整容纳405B[……]

Read more

大数据

万亿参数MoE模型:H200单卡完整训练成为可能

阅读(35 ) 评论()

万亿参数MoE模型:H200单卡完整训练成为可能 MoE(混合专家)架构通过激活少量参数实现模型容量的指数级增长,但训练万亿参数模型曾依赖数百甚至上千张GPU的集群通信。H200凭借141GB HBM3e高带宽显存,首次让万亿参数MoE模型的单卡完整训练成为现实。传统方案中,单个专家权重[……]

Read more