请选择 进入手机版 | 继续访问电脑版
设为首页收藏本站

 找回密码
 立即注册
搜索
查看: 1338|回复: 0

NVIDIA GTC 2020:AI算力再创新高,云边端全面布局

[复制链接]

38

主题

45

帖子

291

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
291
发表于 2020-8-2 22:16:42 | 显示全部楼层 |阅读模式
本文内容来自如下链接:
https://www.idc.com/getdoc.jsp?containerId=CHC46603321
新的市场发展和动力
2020年3月至5月,英伟达举办了在线GTC 2020大会。5月14日,CEO黄仁勋在线发表主题演讲。在该主题演讲中,英伟达发布了在RTX、高性能计算、机器人、自动驾驶方面的最新进展;推出了安培架构的A100 GPU,以及采用A100的DGX A100服务器;也推出了Merlin、多模态交互AI框架Jarvis、NVIDIA加速的Spark 3.0等AI软件栈;面向边缘计算则推出了NVIDIA EGX A100 + MELLANOX CX6 DX的边缘AI平台。
数据中心级计算:借助Mellanox能力不断优化加速计算技术栈
英伟达一直以来对规模化优化数据中心的技术栈十分重视。在完成对Mellanox的收购之后,英伟达未来能够将Mellanox在数据中心网络、存储和安全的能力全面融入到加速计算平台。本次新品发布及公告中的众多产品也都已经融入了Mellanox的产品和技术。
Omniverse RTX 服务器:融合加速光线追踪和深度学习技术
继2018年在计算机图形图像特别兴趣小组(SIGGRAPH)上发布NVIDIA RTX、2019年在软件层面推出Omniverse,英伟达本次宣布推出针对远程协作优化的NVIDIA RTX服务器:通过Omniverse开展设计工作流程协作,支持全光线追踪全局照明的交互式生产渲染,经过设计和模拟验证的Quadro虚拟工作站。
其中,NVIDIA RTX即融合了加速光线追踪和深度学习(DL)两项技术,通过深度学习超级采样(DLSS),由神经网络预测场景产生比原生渲染更好的图像。结合了DLSS的RTX可以实现不能被预置、完全由程序生成的光照效果。例如,《我的世界》引入RTX之后,直接使用光线跟踪、不带DLSS渲染的帧速率为每秒35帧,通过DLSS可以在保持帧速率的同时提升分辨率,获得兼具光线追踪、高分辨率和高渲染速度的图像,实现实时光线追踪。
A100和DGX A100:全球架构GPU,实现算力再次突破
GTC 2020推出全新架构的A100 GPU,成为本次会上关注度最高的新发布。
NVIDIA A100 GPU
英伟达本次面向新型的数据中心规模计算推出了新的GPU架构——Ampere安培架构的A100,集AI训练和推理于一身,并实现了灵活且弹性的加速。本次发布的NVIDIA A100是首款基于Ampere架构的GPU。
A100的五大新突破:1)7nm工艺,采用CoWoS(Chip-on-Wafer-on-Substrate)封装技术,提升互操作性;2)全新的Tensor Core架构:Tensor Float32有FP32的指数范围和FP16的精度范围,使开发者无需更改代码即可大幅加快训练速度;3)针对稀疏模型提供Tensor Core加速,A100稀疏TF32的峰值计算性能是V100 FP32性能的20倍;4)在新Ampere架构下,借助MIG(Multi-Instance GPU)可将GPU分割成多个GPU实例(最多7个)来灵活使用;5)第三代NVLink互联技术使GPU之间的高速连接加倍。
目前计划或已经将A100 GPU集成到其产品中的厂商包括阿里云、AWS、Atos、百度智能云、思科、Dell Technologies、富士通、技嘉科技、Google Cloud、新华三、HPE、浪潮、联想、Microsoft Azure、甲骨文、Quanta/QCT、Supermicro和腾讯云。
NVIDIA DGX A100
英伟达同时推出采用A100的 DGX A100,是第三代NVIDIA DGX AI系统,单节点提供超过 5 PFlops 的计算能力,并且首次将整个数据中心的性能和功能集成到一个灵活的平台中。该系统内置8个由NVIDIA NVLink互联的NVIDIA A100 GPU,利用A100的多实例GPU功能,每台DGX A100可以分割为多达56个独立运行的实例,使单个服务器可以“纵向扩展”以完成如AI训练等计算密集型任务,或者“横向扩展”以进行AI部署或推理。以使用Spark进行数据分析和PageRank应用为例,NVIDIA展示了采用DGX A100相对于传统纯CPU方案在成本、性能、功耗等方面的明显优势。
NVIDIA DGX A100的早期用户包括美国能源部的阿贡国家实验室(利用该集群的AI计算能力更好地理解和对抗新型冠状病毒肺炎)、佛罗里达大学和德国人工智能研究中心。此外,Oracle也采用了该平台,并称Oracle Cloud Infrastructure平台很快将提供 A100 GPU,用于支持石油勘探和DNA测序等高性能计算工作。
HGX A100
NVIDIA A100 GPU也支持超大规模计算。HGX A100整合了NVIDIA A100 Tensor Core GPU、全新的NVIDIA NVLink与NVSwitch高速互连技术,为AI和高性能计算(HPC)提供加速扩展服务器平台。
NVIDIA AI:不断完善的AI软件栈高性能计算和分析
面向高性能计算(HPC)、数据处理和科学计算,英伟达宣布将为Apache Spark 3.0带来端到端的加速。在2019年英伟达与IDC合作的《GPU加速数据科学》研究中发现,数据科学家普遍认为数据准备在AI应用开发过程中是最为耗时的环节,而数据准备大都是在Spark上完成,在处理TB级数据时,CPU缓存是在Spark上提升数据处理速度的主要瓶颈。英伟达与Mellanox合作采用GPUDirect存储以及UCX(Unified Communication X)框架来管理存储与IO,在Spark中也增加了使用GPU的调度工具,Spark SQL查询加速器Catalyst也专为GPU做了优化。另外,英伟达数据科学平台RAPIDS也支持读取数据、创建数据框架、进行特征工程,再到Spark上调度GPU资源。NVIDIA GPU将原生支持加速Spark 3.0,实现百TB级数据的飞速数据仓库技术(ETL)和结构化查询语言(SQL)处理。
Adobe是首批在 Databricks 上运行 Spark 3.0 预览版本的公司之一,初步测试成果显示,Spark 3.0 的运算效能提升了七倍,并节约了 90% 的成本。此外,使用了加速的Spark服务或NVIDIA RAPIDS加速机器学习和数据处理流程的还有Amazon SageMaker、Azure Machine Learning、Databricks、Google Cloud AI、Google Cloud Dataproc等。随着Spark 3.0 的发布,数据科学家和机器学习工程师将能够把GPU 加速应用于普遍使用 SQL 数据库操作进行的 ETL(提取、转换和加载)数据处理工作负载中。同时,他们将可以在相同的 Spark 集群上进行AI 模型训练,在不需要修改Spark 应用程序现有代码的情况下实现加速,对整个数据科学的处理流程进行高性能数据分析。
推荐系统——NVIDIA Merlin
推荐系统在互联网行业的应用已十分广泛,未来也将应用在各传统企业。针对这一场景,英伟达宣布推出NVIDIA Merlin——一个深度学习应用程序框架,为用户提供一个全链路的方案,为推荐系统提供GPU加速的数据提取、模型训练和模型部署。Merlin简化了复杂的分布式计算,将数据处理和机器学习算法进行封装,并将其编写成易于使用的应用程序框架,进一步降低使用GPU来加速推荐系统的门槛,使打造个性化的互联网体验变得更简单。
NVIDIA Merlin包含Merlin ETL、Merlin训练和Merlin推理三类主要组件:
  • Merlin ETLNVTabular提供了GPU上的高速数据预处理和转换功能,可以处理TB级的表格数据集。
  • Merlin训练:DL推荐系统模型和训练工具的集合包括HugeCTR(为大型CTR模型训练而设计的GPU框架)和DL模型,后者包括深度学习推荐模型(DLRM)、Wide & Deep推荐框架(W&D)、神经协同过滤(NCF)和变分自编码器(VAE)。
  • Merlin推理:NVIDIA TensorRT是用于高性能DL推理的软件开发工具包(SDK),NVIDIA Triton Inference Server提供了针对NVIDIA GPU优化的云推理解决方案。
多模态对话AI服务框架——NVIDIA Jarvis
对话式AI正在企业的呼叫中心、全渠道客服中全面渗透。英伟达在本次GTC中推出GPU加速的端到端对话式AI服务应用框架NVIDIA Jarvis。NVIDIA Jarvis有四个显著优势:1)端到端的多模态对话AI框架;2)提供了预训练好的最先进的模型,如NVIDIA Megatron BERT等;3)用户可以将数据放在NeMo上进行再训练,使用TensorRT进行推理优化,并通过NGC(NVIDIA GPU优化的软件目录)上的Helm Chart在云和边缘进行部署;4)由于NVIDIA Jarvis具备连接Omniverse的能力,它可以创建交互式3D聊天机器人,通过音频输入描绘讲话时的动态面部表情实现“语音生成表情”,在几百毫秒内处理并输出对话及相应图形。在本次发布会上,英伟达展示了NVIDIA Jarvis与3D聊天机器人Misty进行交互的过程,它实时回答了一系列有关天气的复杂问题。
该对话式AI服务框架使企业能够根据自身所处行业、产品和客户的特点,使用视频和语音数据构建实时多模态的定制化对话式 AI 服务,简化对话式AI服务的创建和开发。首批采用Jarvis为客户提供对话式AI产品和服务的公司包括Voca、Kensho和Square。其中,Voca是一家为呼叫中心提供AI代理的公司,Kensho致力于为金融和商务行业提供自动语音转录服务,Square开发了虚拟预约助理。这一框架也将促进AI数字员工、AI虚拟数字人类应用场景的发展。
EGX 和 ISAAC:云边端全面布局EGX 边缘AI平台
随着越来越多的AI模型部署到生产环境开始进行推理,如何在边缘、端侧进行AI推理成为下一个有待突破的高地。英伟达将边缘AI平台作为2020年的重点战略之一,在本次GTC发布了两款EGX边缘AI 平台产品,分别为适用于较大型商业通用服务器上的 EGX A100,以及适用于微型边缘服务器的微型EGX Jetson Xavier NX。其中,EGX A100可以支持数百个摄像头,EGX Jetson Xavier NX支持两个摄像头。
NVIDIA EGX A100是第一个基于NVIDIA Ampere架构的边缘AI产品,由Ampere GPU和Mellanox ConnectX-6 Dx两个处理器实现,其中GPU还提供了启动时的安全认证以及可信赖AI的安全引擎。在处理器之上也提供了丰富完善的软件堆栈——EGX平台,特点如下:1)云原生;2)GPU首次为5G基带提供加速;3)全面优化的AI软件堆栈;4)整套软件栈在网络、存储、安全方面都做了优化。EGX A100不仅可以实时处理来自摄像头和其他物联网(IoT)传感器的大量流数据,而且融合了安全增强和延迟降低功能,可以以高达200 Gbps的速度接收数据,并将其直接发送到GPU内存以进行AI或5G信号处理。
目前,率先部署EGX的公司包括沃尔玛、三星、宝马、NTT East、宝洁等,EGX生态已经扩展到全球100多家技术公司,EGX Jetson Xavier NX生态圈内的合作伙伴已提供了超过20种解决方案。
ISAAC机器人平台
NVIDIA Isaac 机器人平台采用 DGX AI 系统(包括NVIDIA Ampere A100 GPU)和NVIDIA Quadro 光线跟踪 GPU 以精确渲染合成机器零件,从而强化对机器人的训练。本次发布会中,NVIDIA 发布了全新 Isaac SDK、Isaac Sim 与Jetson Xavier NX 开发者套件。
NVIDIA机器人技术全球生态系统涵盖配送、零售、自主移动机器人、农业、服务业、物流、制造和医疗保健。本次发布会宣布宝马集团已采用ISAAC 机器人平台对其车厂进行优化,优化了其物流工厂流程(自动运输物料的导航机器人、选择和整理零件的操控机器人等五款具有AI功能的机器人),从而更高效、更快速地生产配置汽车,并在开发完成后在宝马集团全球范围内的工厂进行部署。
自动驾驶汽车
英伟达此前已经推出了多代DRIVE AGX自动驾驶平台以及片上系统(SoC),包括DRIVE AGX Xavier、DRIVE AGX Pegasus以及Drive AGX Orin。随着Ampere 架构 GPU的推出,英伟达的自动驾驶平台NVIDIA DRIVE将集成2颗Orin SoC和2块NVIDIA Ampere GPU以进一步提升能效和性能,入门级高级驾驶辅助系统(ADAS)系统开发所需功率仅需5瓦,并为L5级别robotaxi系统提供2,000 TOPS的性能。由于算力的提高,该平台将能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。
DRIVE AGX自动驾驶平台具备良好的可扩展性,已经可以实现从入门级ADAS解决方案到L5级自动驾驶出租车系统的全方位覆盖。现在,汽车制造商仅需单一计算架构和软件堆栈,即可将AI集成到每一辆车中,省去了单独开发多个子系统(ADAS、L2+等系统)的成本。汽车制造商也可以利用一种架构来开发整个车队,并利用整个车队来进行软件开发。
在GTC Digital 期间,电动汽车和自动驾驶汽车初创公司小马智行(Pony.ai)、Canoo和法拉第未来(Faraday Future)宣布将采用DRIVE AGX计算平台开发汽车。NVIDIA DRIVE生态系统现已覆盖汽车、卡车、一级汽车供应商、下一代出行服务、初创公司、地图服务和仿真。NVIDIA将在NVIDIA DRIVE技术套件中增加用于管理整个自动驾驶车队的NVIDIA DRIVE RC。

给技术提供商的建议
英伟达在加速计算领域深耕25年,始终坚持同一个架构,不断突破加速计算能力,打造完整的加速技术堆栈,可以说在加速计算领域构筑了较高的竞争壁垒。
整体生态已经建成
到2020年的GTC,CUDA已经发布到第11代,开发者达到了180万。CUDA-X提供加速库、线性代数库、信号处理库以及图形分析库,最近新增cuDNN、TensorRT 7.1作为深度学习网络编译器和优化器。向上一层,RTX用于光线追踪、图形渲染,HPC用于高性能计算,RAPIDS用于数据分析、数据科学,AI用于深度学习、人工智能,Clara用于医疗和生命科学,Metropolis用于视频分析,DRIVE用于自动驾驶,Isaac支持机器人应用,还有Aerial 5G支持5G虚拟无线网处理。整体来看,从编译器到加速库到应用,从数据中心到边缘到端,英伟达提供了完整的工具栈。
图 2
NVIDIA CUDA软件生态

来源: IDC, 2020

加速能力再创新高
过去几年,NVIDIA GPU一直是深度学习领域最为广泛采用的加速计算方案。算法工程师在进行图像视频、语音等数据的训练时,首选GPU进行加速。在文本、对话式人工智能以及经典机器学习领域,也有越来越多的算法工程师将训练过程放到GPU上进行,并看到了显著的速度提升。本次推出的A100系列在Volta架构GPU的基础上再次实现了性能提升。英伟达在GPU加速计算技术上的不断突破,将确保在AI加速计算市场的领先地位。
AI软件栈不断完善
构建AI能力对全球企业来说越来越迫切,然而在需要做基础设施决策之时,企业通常对于如何选择硬件以及硬件之上AI基础设施堆栈感到困惑。不管是AI芯片厂商还是服务器厂商、存储厂商,都在试图为客户提供各种AI堆栈以促使从处理器到服务器、存储、网络的无缝协作。英伟达在这方面一直是领先者:为开发者提供了机器学习、深度学习开发所需要的丰富的框架、库、模型,并支持多种开发语言。
英伟达为人工智能工作负载提供专用GPU加速库:NVIDIA CUDA-X AI。CUDA-X AI 是软件加速库的集合,这些库建立在 CUDA(NVIDIA的开创性并行编程模型)之上,提供对于深度学习、机器学习和高性能计算(HPC)必不可少的优化功能。这些库包括 cuDNN(用于加速深度神经网络)、cuML(用于加速数据科学工作流程和机器学习算法)、NVIDIA TensorRT(用于优化模型的推理性能)、cuDF(用于访问 Pandas 之类的数据科学应用程序接口)、cuGraph(用于在图上执行高性能分析),以及 13 个其他的库。这些库与 NVIDIA Tensor Core GPU 无缝地配合工作,加快基于 AI 的应用程序的开发和部署速度。
图 3
NVIDIA CUDA-X AI生态

来源: 英伟达, 2019

云边端全面布局
人工智能应用正在从数据中心走向边缘、端侧。英伟达提供了从云到边缘到端侧的全面计算平台、软件堆栈,面向重点行业也推出了多套AI服务框架,如面向医疗和生命科学的Clara,面向智慧城市、零售等视觉类应用场景的Metropolis,面向HPC和数据科学的RAPIDS,面向机器人的Isaac,面向自动驾驶的DRIVE,面向边缘计算的EGX平台等等。从云到边缘再到端,NVIDIA正在全面布局加速计算一体化生态。
不可否认,人工智能市场的迅猛发展吸引众多玩家加入AI芯片领域的竞争,新入局者有巨头互联网公司、传统芯片公司、创企等等。GPU在训练、推理领域也将面临来自类神经网络处理器(NPU)、可编程处理器(FPGA)、专用处理器(ASIC)的竞争。然而,用户对于AI算力的选择需要实实在在地对速度、性能、灵活性、成本等因素进行综合考虑。英伟达在这些方面目前竞争壁垒高筑,市场份额遥遥领先,作为AI加速计算的主要力量,仍将保持较高增长潜力。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|京ICP备17047556号-1|大智能时代    

GMT+8, 2021-7-25 13:58 , Processed in 0.212990 second(s), 23 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表