提高“用云”性价比，亚马逊云科技自研芯片为企业赋能

来源：媒介链 | 关注度:17 | 日期：2023-07-10 09:40:55

6月27日至28日，2023亚马逊云科技中国峰会于上海顺利召开。在本次峰会上，似乎找寻到了云计算领域竞争对手均日渐成熟，而亚马逊云科技却能一直保持领先地位的原因——过去的十几年里，亚马逊云科技“基于客户需求，快速进行产品更新与技术迭代”的Day one理念，一直不断地追求基础架构层面的创新。

企业亟需提高“用云”性价比

随着企业数字化转型的需求增加、市场竞争的加剧，企业需要将业务和数据迁移到云上，以实现更高效的生产和服务，以适应市场的变化。所以可以观察到越来越多的企业开始上云，然而上云的门槛并不低，需要考虑的东西非常多，比如技术能力、安全合规风险、成本费用、用户体验等，很多企业CTO表示，“想上云，但是有心而力不足”，大多企业目前提出了亟需降低云服务使用门槛、提高“用云”性价比的需求。

为了提高企业云服务使用的性价比，亚马逊云科技为用户提供全面和深入的算力支持，提供包括Intel、AMD、英伟达和自研的CPU及加速芯片产品，这其中最值得一提的就是亚马逊云科技的四个自研芯片：Nitro、Graviton、Inferentia、Trainium。

Nitro是亚马逊云科技的第一款自研芯片产品，Nitro主要有三个亮点：第一，做了高度轻量化的虚拟化；第二，实现网络层面的数据通信和存储的隔离；第三，实现了硬件级别的加密。有了Nitro之后，亚马逊云科技能够大大增强EC2整个实例应用的安全性，每个单元可以独立发展，也确保EC2所有实例运行的稳定。因为Nitro的出现，亚马逊云科技大大降低了推出一个新EC2实例工作的复杂性，使得其保持一个非常快的增长的速度，进一步降低客户成本，从而帮助企业达到降本增效的目标。最新一代Nitro V5芯片相比之前的芯片性能有大幅地提升，包括更快的转发率，包括更低的延迟，每瓦特性能提升40%。

基于ARM架构的通用处理器芯片Graviton自2018年起，亚马逊云科技陆续推出三代Graviton服务器芯片，在去年的re:lnvent全球大会上，亚马逊云科技推出了自研的、基于ARM架构的高性能计算服务器CPU芯片Graviton3E芯片。纵观Graviton系列芯片的升级历程，Graviton3计算性能提高25%，浮点性能提高2倍，加密工作负载性能加快2倍；Graviton3E特别关注向量计算的性能，跟前一代相比高35%，这个性能提升对于像HPC高性能计算这样的应用来说是非常重要的。

从具体案例来看，在HPL（线性代数的测量工具）上Graviton3E性能提升35%，在GROMACS（分子运动）上性能提升12%，在金融期权定价的工作负载上性能提升30%；同时，Graviton3E和类似的X86的EC2实例相比，Graviton3E还能节省60%的能耗。

如今Graviton系列芯片的优秀性能表现已经得到了充分验证，在2023亚马逊云科技中国峰会上，陈晓建讲到的世界一级方程式锦标赛（下文简称“F1”）案例便充分体现了亚马逊云科技在算力资源、数据存储方面的能力。F1利用Graviton3运行空气动力学模拟，可以用比以往快70%的速度开发新一代赛车，赛车压力损失可以从50%降低到15%，这使超车更容易，为车迷可以带来更多赛场的缠斗。此外，F1通过5000多次单车和多车模拟，收集了超过5.5亿个数据点，帮助他们进行下一代赛车的优化。用F1团队表示，“Graviton3让系统性能快了40%，可以晚间运行模拟，第二天早上就能得出结果。”

在机器学习技术探索赛道中，目前亚马逊云科技已经发展出三代不同的机器学习芯片。在训练方面，亚马逊云科技先后推出的加速芯片Inferentia和Trainium覆盖了训练和推理的场景，能为企业提供最佳的性价比。因此，许多领先的生成式AI初创公司，例如AI21 Labs、Hugging Face、Runway和Stability AI都选择Inferentia和Trainium作为他们整个研发和应用的平台。

在机器学习训练中，最重要的指标是训练效率和性价比。以HuggingFace BERT模型为例，基于加速芯片Trainium的Trn1实例的性能表现非常不错，从训练吞吐量角度看，其与同类型GPU实例相比，在单节点情况下，可实现1.2倍吞吐量的提升；在多节点情况下，实现1.5倍吞吐量的提升；从成本角度，单节点实现了1.8倍成本降低，集群的成本降低了2.3倍。

随着模型越来越复杂，很多时候靠一个单点的计算训练是无法满足用户的需求，在很多时候都需要一个分布式的训练，比如需要非常大规模的集群，通过Trainium便可以构建一个超大的集群，它可以有3万张的Trainium芯片，使企业可以获得云上6 ExaFlops的超算级性能。这背后涉及很多创新，比如更快的EFA网络以及PB级别的无阻塞网络互联等。

在机器学习推理中，推理往往要考虑延迟和吞吐，企业需要更高的吞吐力来带来更优的性价比，但是往往更高的吞吐率会带来更高延迟，所以开发者往往要在延迟和吞吐中权衡。Inferentia2的设计就考虑到了兼顾吞吐和延迟的优化，如果拿一个基于Inferentia2的实例做测试，以自然语言处理领域常见的BERT模型为例，在Inferentia2上可实现高达3倍的吞吐提升，8.1倍的延迟降低，4倍的成本节约，使得企业开发者二者兼而有之。

另外值得一提的是，Inferentia2在大语言模型中的表现也非常地突出。拿一个OPT模型来做测试，中等规模的OPT模型OPT-30B为例，相较于通用的EC2 GPU实例，Inferentia2可实现65%的吞吐量提升，推理成本可降低52%；660亿参数级别的OPT-66B，通用GPU实例已经显示内存不足的情况下，而在 Inferentia2上还可以实现每秒351个token数的吞吐量。

转载免责声明：凡本站注明 “来源：XXX（非寻铺街网）”的新闻稿件和图片作品，系本站转载自其它媒体，转载目的在于信息传递，并不代表本站赞同其观点和对其真实性负责。如有新闻稿件和图片作品的内容、版权以及其它问题的，请联系本站采编中心邮箱：3159226515@qq.com。

上一篇：创业开公司有哪些需要注意的地方？

下一篇：浅谈日本游戏广告的5大特点