联系我们

4000 555 018
(7×24)
正睿服务器  >  新闻中心  >  评测室
新闻中心

性能提升20倍:英伟达GPU旗舰A100登场,全新7nm架构安培出炉!!!!!

间隙填充
正睿科技  发布时间:2021-08-30 13:42:34  浏览数:4298

英伟达2020514号发布的基于新架构的A100加速计算卡,根据官方宣传:自动混合精度和FP16,可以为A100带来2倍的性能提升;

而且,在不更改代码的情况下,具有TF32A100与英伟达Volta相比,性能能够高出整整20倍!

那么,A100V100相比,这两款显卡究竟有多大差距呢?一起来看看。

硬件参数对比

 英伟达A100 GPU

相比V100A100的单精度浮点计算能力,从15.7TFLOPS提升至19.5TFLOPS;而双精度浮点运算从7.8TFLOPS提升至9.7TFLOPS

在英伟达的公开信息中,列出了A100V100的参数对比:

BERT深度学习训练中,两款显卡的速度对比:

 

 

在其他训练模型下,A100是否能有同样出色的表现?

测试结果如何?

两款显卡均选择适用于NVLink的产品进行测试,在32位精度下,采用PyTorch训练。

对于A10032位是指FP32+TF32;对于V100,指的是FP32

测试分为两部分:卷积神经网络训练速度、语言模型训练速度。

卷积神经网络训练速度

我们将一块V10032位的训练速度归一化,对比了不同数量GPU的训练速度。

得到结果:

 例如:

        1A100 VS 1V100,进行32位训练:前者速度是后者的2.17倍;

       4V100 VS 1V100,进行32位训练:前者速度是后者的3.88倍;

       8A100的混合精度训练 VS 1V10032位训练:前者速度是后者的20.35倍。

语言模型训练速度

与上面的对比方法相同。

将结果在Transformer-XL baseTransformer-XL largeTacotron 2ERT-base SQuAD上取平均值。

得到结果:

例如:

1A100 VS 1V100,进行32位训练:前者速度是后者的3.39倍;

  4V100的混合精度训练 VS 1V10032位训练:前者速度是后者的7.97倍;

 8A100的混合精度训练 VS 1V10032位训练:前者速度是后者的42.60倍。

结论

   在卷积神经网络训练中:

        1A100的训练速度是1V1002.2倍;

     使用混合精度时,前者则是后者的1.6倍。 在语言模型训练中:

        1A100的训练速度是1一块V1003.4倍;

     使用混合精度时,前者则是后者的2.6倍。

  • 正睿合作伙伴
  • 社区
首页 | 注册 | 网站地图 | 通告 | 联系我们
CopyRight(C)2004-2022 Chongqing Zhengrui Technology Co.,Ltd. All rights reserved.
重庆正睿科技有限公司(C)版权所有 未经书面授权 不得转载、复制或建立镜像
渝ICP备11002339号-1  渝公网安备 50010702500475号