行业资讯

运算效能提升20倍,Nvidia新款资料中心等级GPU上阵

2020-05-29 19:26:37 qsadmin 36

自2016年4月Nvidia推出SXM形式、基于Pascal架构的Tesla P100 GPU,以及搭配8个P100的深度学习整合应用设备DGX-1,市面上,陆续开始出现多款支援GPU互连介面NVLink的伺服器。

隔年5月,Nvidia发表SXM2形式、基于Vota架构的Tesla V100,以及采用这款GPU的DGX-1,以及DGX Workstation。

到了2018年3月,Nvidia推出GPU记忆体多达32GB的Tesla V100、可支援16个GPU互连的交织网路NVSwitch,以及运算效能更强、体型也更为庞大的深度学习整合应用设备DGX- 2。

同年年底,他们发表了基于Turing架构、锁定云端服务环境使用的GPU,名为T4,接着,又于去年5月,将搭配这张GPU加速卡的EGX伺服器,与他们的单板电脑Jetson Nano 、车用电脑Drive AGX Pegasus,并列为EGX平台,主攻边缘运算。

今年5月,该公司终于推出新世代的资料中心等级GPU,名为A100,采用了他们最新发展的Ampere架构,若以采用前代Volta架构的GPU为比较基准,A100效能提升幅度上看20倍。

相较于Volta架构GPU的单精度浮点运算(FP32),若改用A100新支援的TensorFloat-32(TF32)计算模式,来进行人工智慧与高效能运算的张量处理作业,效能为156 TFLOPS ,速度可提升至10倍;若结合TF32与结构化的稀疏性处理(Sparsity),A100的效能为312 TFLOPS,增长幅度可达到20倍之高。

图片关键词

图片关键词

采用7奈米、内建记忆体容量提升到40GB

就本身的配置而言,A100的外形为SXM4,采用台积电研发的7奈米制程,由542亿颗电晶体所组成,是全世界目前最大的7奈米处理器。

图片关键词

图片关键词

记忆体的部份,它依然采用HBM2,容量增加到40GB(V100为32GB、P100为16GB),存取介面也提升到5120位元,存取频宽增加到1,555 GB/s(比起V100提升73%);L2快取大幅增加到40MB(V100为6MB、P100为4MB),可提供更强大、迅速的快取能力。

图片关键词   

除此之外,A100也加入运算资料压缩的功能,能进一步提升记忆体与L2频宽,改善幅度可达到4倍,同时还能提升L2使用容量。

图片关键词

采用第三代Tensor Core,支援TF32的运算模式

在运算单元的搭配上,A100拥有6,912颗FP32核心、6912颗INT32核心,3,456颗FP64核心,都比V100增加了35%,但Tensor Core不增反减,仅搭配432颗(V100是640颗) 。事实上,A100使用了第三代Tensor Core,可支援深度学习与高效能运算应用的资料型别,包括FP16、 BF16、TF32、FP64、INT8、 INT4、Binary,若是搭配上述的稀疏性处理功能,能将GPU的处理能力提升至2倍。

从GPU的整体元件来看,我们可看看下列两张图,分别是本次推出的A100,以及先前发表的V100的完整GPU配置。两者有何差异?A100在I/O介面上,使用了PCIe 4.0,V100则是PCIe 3.0;A100搭配了12个512位元记忆体控制器,以及6个HBM2记忆体堆叠,V100则是8个512位元记忆体控制器,以及4个HBM2记忆体堆叠;至于NVLink,A100设置了12个,V100是6个。

图片关键词 图片关键词

若从串流复合处理器(Streaming Multiprocessor,SM)的角度来看,也进一步看出前后两代GPU架构的差异。以L2快取为例,A100分成两个区块,目的为了增加记忆体存取频宽与降低延迟,Nvidia表示,A100的L2频宽是V100的2.3倍

对于Tensor Core的配置上,A100每个SM有4个Tensor Core,每个Tensor Core在一个时脉周期可执行256个FP16/FP32 FMA运算,而V100有8个Tensor Core,每个Tensor Core在一个时脉周期可执行64个FP16/FP32 FMA运算。因此,两者在这类运算力上,相差1倍。

图片关键词  图片关键词

关于A100的资料型别处理能力,又以本次新增的TF32最受瞩目,当GPU处于这样的运算模式下,可加速深度学习框架与高效能运算的FP32资料处理,,相较于V100的FP32 FMA运算,速度可加快10倍,再搭配稀疏性处理,可提升至20倍。

图片关键词

图片关键词

这一代Tensor Core也支援新的BF16与FP32的混合精度运算,性能如同FP16和FP32混合精度的运算。至于INT8、 INT4、Binary的加速处理上,Nvidia也完成对于深度学习推论的支援,以INT8为例,A100可得到V100的20倍效能。而在高效能运算领域的应用上,A100 Tensor Core提供的FP64遵循IEEE的标准,若以V100的FP64效能为准,可得到2.5倍的效能。

关于稀疏性的处理也是A100相当重要的运算特色,Nvidia导入了细致、结构化的作法,能将深层神经网路的运算吞吐量提高1倍。这种作法会以2:4的非零模式来修整训练权重,而权重也会经过压缩处理,可因此减少资料量与所需频宽,而A100也能忽略为数值为零的资料,将数学运算的吞吐量提高1倍。

图片关键词

支援第三代NVLink与多执行个体GPU,提供外部扩充与内部虚拟化

A100在提升延展性的部分,也提供两种作法,首先是支援Nvidia前几年就发展起来的GPU互连技术NVLink,能让多个A100统合成一个巨型的GPU,因应更大规模的深度学习训练处理任务,而且这里采用Nvidia最新发展的第三代技术,将GPU之间的连结速度提升至前一代技术的2倍。

基本上,第三代NVLink在单对连线上的资料传输率为50Gbps(V100是25.78 Gbps),由于每个A100可使用12条的NVLink(V100是6条),所以,总频宽可达到600 GB/s(V100是600 GB/s),而这些NVLink可连接其他GPU与交换器,以搭配这个GPU而成的整合应用设备DGX A100为例,配置了8个A100,这些GPU彼此可透过支援NVLink的NVSwitch晶片来互连,若是多台DGX A100之间,也可以透过Mellanox InfiniBand交换器及乙太网路交换器,来彼此连结。

图片关键词

另一种是A100新增的GPU分割技术,称为多执行个体GPU(Multi-instance GPU,MIG),能让GPU切割成7个独立的执行个体,以便进行深度学习的推论处理,也能改善GPU伺服器的使用率。

这种作法可支援多租户与虚拟化GPU环境,尤其是云端服务业者的需求,针对用户端或应用系统,例如虚拟机器、容器、处理程序,提供进阶的错误隔离及服务品质确保(QoS)机制。

MIG除了能让多个GPU执行个体同时在一个实体的A100执行,也能它们支援CUDA应用程式的执行,继续维持CUDA程式设计模型,而不需重新设计。

图片关键词

不过,MIG的出现也并非偶然,早先Nvidia在CUDA的API当中,就实作了多重处理服务(Multi-Process Service,MPS)的架构,能同时执行具有多个处理程序的CUDA应用程式,也被称为软体型态的MPS;到了2017年问世的Volta架构与Tesla V100 GPU,增设了硬体加速的MPS支援,能让多个应用程式同时执行在个别的串流复合处理器(Streaming Multiprocessor,SM ),可提供更大的吞吐量与更低的延迟。然而,此时的记忆体系统资源,是由所有应用程式共享,有些应用程式可能会因为记忆体频宽要求高,或对于L2快取提出过高请求,而干扰其他应用程式的执行。之所以这样,Nvidia表示,主要是因为当初设计GPU跨应用程式共享时,他们的作法是针对单一使用者的状况,而不是多使用者或多租户使用者。

图片关键词

图片关键词

到了A100,Nvidia发展出MIG的机制,可将单颗GPU分成多个GPU执行实体,每个实体的串流复合处理器,独立、隔离于整个记忆体系统之外,晶片上的交错闩连接埠、L2快取槽、记忆体控制器、DRAM位址汇流排,都是配置给个别的GPU执行个体,如此可确保个别使用者的工作负载,能够在可预期的吞吐量与延迟状态,以及相同的L2快取配置与DRAM频宽状态下执行。

图片关键词

开始采用PCIe 4.0,支援Magnum IO与Mellanox Interconnect

自从AMD在2019年推出第二代EPYC处理器平台,PCIe 4.0介面开始出现在市面上的伺服器,但Nvidia一直都没有推出支援这个介面得GPU加速卡,直到今年他们发表A100才打破了这个状况。

有了PCIe 4.0之后,A100现在可以坐拥31.5 GB/s的I/O频宽,在此之前,Nvidia GPU可能会受限于PCIe 3.0的15.75 GB/s。除此之外,A100也支援PCIe规格延伸的IO虚拟化技术SR-IOV,能让多个处理程序或虚拟机器共用单一PCIe连线。

在I/O的部份,A100也支援Nvidia在2019年11月发表的Magnum IO软体平台,以及Mellanox旗下的InfiniBand与乙太网路互连解决方案,以便加速多节点之间的网路连结。

图片关键词

Nvidia表示,Magnum IO的API整合了运算、网路、档案系统、储存,可提升多GPU运算架构、多节点加速系统的I/O效能,而且,它能连接CUDA-X程式库,可涵盖人工智慧、资料分析、图解呈现等广泛的工作负载类型,来提供I/O加速的功效。

图片关键词