AWS推出新实例以加速AI训练

  • 发布时间:2022-10-12 10:39:53 来源:
标签:
导读 AmazonWebServices(AWS)推出了EC2实例,据称专门针对深度学习训练进行了优化。新的AmazonEC2Trn1实例由AWSTrainium芯片提供支持,这是AWS在

AmazonWebServices(AWS)推出了EC2实例,据称专门针对深度学习训练进行了优化。新的AmazonEC2Trn1实例由AWSTrainium芯片提供支持,这是AWS在其AWSInferentia芯片之后设计的第二代ML芯片。

这家云巨头声称这些新实例非常适合复杂深度学习模型的大规模分布式训练,例如自然语言处理和图像识别。

Trn1实例有两种配置,由多达16个AWSTrainium芯片和128个vCPU提供支持。

这些实例显然提供高达512GB的高带宽内存,并提供高达3.4petaFLOPS的TF32/FP16/BF16计算能力,并具有芯片之间的NeuronLink互连。在跨多个Trainium芯片扩展工作负载时,NeuronLink有助于避免通信瓶颈。

此外,亚马逊表示,Trn1实例是第一个支持高达800Gbps的ElasticFabricAdapter(EFA)网络带宽以实现高吞吐量网络通信的EC2实例。Trn1实例配备高达8TB的本地NVMeSSD存储,可用于超快速访问大型数据集。

AWS还表示,其Trainium芯片包括专门为深度学习算法构建的特定标量、向量和张量引擎。

Trainium芯片的其他新功能包括支持广泛的数据类型,包括FP32、TF32、BF16、FP16和UINT8、随机舍入,以及用C++和动态张量形状编写的自定义运算符。

AWSTrainium与A​​WSInferentia共享相同的AWSNeuron开发工具包,这可以更轻松地过渡到AWSTrainium。

您现在可以在AWS美国东部(弗吉尼亚北部)和美国西部(俄勒冈)等特定区域启动Trn1实例。

这些Trn1实例可以使用AWSDeepLearningAMI进行部署,并且容器映像可通过AmazonSageMaker、AmazonElasticKubernetesService(AmazonEKS)、AmazonElasticContainerService(AmazonECS)和AWSParallelCluster等托管服务获得。

  • 免责声明:本文由用户上传,如有侵权请联系删除!