英伟达的“软”实力

2019-12-23
2019年大半年的防“滑”奋战让英伟达逐渐恢复元气,软件业务遍地开花有可能让英伟达能够更快地找到自己新的业务增长曲线。

图虫创意-715713625113886726.jpg

编者按:本文转自砺石商业评论,作者高冬梅,转载请联系原作者。

与今年以来营收的沉闷低调相比,英伟达在12月18日苏州GTC China 2019的发布会上开始重显“嚣张”。这种“嚣张”不仅体现在身着多年不变的同款黑夹克来演讲的CEO黄仁勋的气势上,还体现在演讲和发布内容的包罗万象上,一场高密度的两个小时演讲+发布会,关键词包括:

人工智能、推理、云、工具、数据科学、边缘计算、汽车、自主机器、游戏、5G、设计、金融、高性能计算、医疗、生命科学、图像、虚拟化、人工智能框架、工业应用等等。

这次发布会上一个非常明显的变化是以“软”代“硬”,整场发布会发布的硬件产品只有一小颗自动驾驶SoC芯片,其它绝大部分发布的内容都集中在软件上,包括了计算机图形、高性能计算以及人工智能三大领域的多个单元,如支持更多游戏的光影效果优化的RTX技术,可支持各种类型的RNN、transformer、CNN并能够融合水平与垂直方向运算加速的Tensor RT 7以及提供模拟仿真和训练的平台ISAAC SDK和面向楼宇建筑的开放式3D设计协作平台等等,充分显示了其硬件之外是“实力。

实际上,这也不难理解,硬件就像房子,软件就是装修。房子建好了,自然而然就会去想如何让房子变得更舒适易用,英伟达软件层面的目标是如何让硬件更好用、计算速度更快、生态系统更开放。

多年以来,英伟达一直是一个锐意创新、积极进取的“宝藏”公司形象,尽管一路上多有挫折,但是它在前进途中从未让人失望,经历了过去大半年的消沉,这次发布会或许是它重回“嚣张”的终点站。

1 以“软”盖“硬”

今年的GTC现场,黄仁勋一上台就表示未来GPU加速将会成为新的高性能计算的发展方向,GPU也能面向不同的应用场景进行特别的优化,只要软件不断进化,未来GPU就会得到最为出色的处理性能。

图形技术应用方面,以游戏发家的英伟达开场便展示了《我的世界》RTX版本。通过对光影的添加,这款游戏不仅使水面变得更为真实,随着视角、天气和时间的变化,光影也呈现出不同的效果。这套实时光线追踪技术可以让开发者在添加光源之后,依靠GeForce RTX显卡中的RT Core演算出光线路径,减轻游戏开发者手动光影贴图繁琐工作的同时让画面获得更为自然的光线效果。

云游戏是英伟达另一个着重打造的方面。GTC19大会上,英伟达正式宣布将和腾讯合作,在中国将电脑游戏引入云端,英伟达显卡将为腾讯的START云游戏平台提供支持,类似其在北美和欧洲推出的GeForce NOW云游戏服务,腾讯START可以让玩家在配置不足的设备上也能玩AAA游戏。腾讯计划扩展该平台供百万玩家使用,提供与主机一致的游戏体验。

英伟达和腾讯游戏双方还将成立一个游戏联合创新实验室,共同探索AI在游戏引擎优化和新光照技术(包括光线追踪和光线烘焙)中的新应用。如此,借着START服务的势能,英伟达的云游戏技术也终于可以在国内落地应用。

要想游戏体验好,除了好技术还需好硬件。英伟达推出了搭载Max-Q显卡的轻薄笔记本,让GPU和总体系统优化于一身以获取出色的性能体验。目前中国的游戏本发货量已经超过了500万台,在5年内的数量暴涨4倍之多。

游戏以外,发布会现场还发布了面向建筑行业的大型3D图形设计平台OMNIVERSE,可以做到无论本地还是云端,主流应用都能依靠NVIDIA RTX展开建模、着色、动画、视觉效果等等。利用8路RTX 8000的RTX服务器对深圳华润大厦进行实时渲染的视频显示,以前需要485个小时才能完成的渲染场景,现在只需要40小时即可完成。

在电影、视觉特效领域,瑞云云端渲染平台也配备了NVIDIA RTX GPU。瑞云目前是全亚洲最大的云渲染平台,2019年火爆的《战狼2》《哪吒》《流浪地球》的渲染均来自瑞云,超过85%的中国电影工作室都是瑞云的客户。很快,首批5000片RTX GPU也将在2020年上线。

针对渲染工作,RTX GPU能够做到速度比CPU快12倍,价格低至原来的1/7。

高性能计算方面,黄仁勋称加速计算需要完整的堆栈工具,而出色的芯片只是起点。英伟达CUDA平台具有丰富的库、工具和应用程序,去年推出了500多个对应的SDK和库来不断改进软件栈,使得其产品在过去三年的深度学习性能提升了4倍,深度学习推理性能提升了2倍。

英伟达为CUDA增加了两个新的主流应用,一个是基因组处理,发布了一款基因组分析工具包Parabricks。英伟达与华大基因合作,通过Parabricks工具包分析整个基因序列,可以检测由遗传性疾病引起的DNA变异,借助CUDA基因测序可以提速30-50倍。另一个是5G vRAN。对于即将到来的5G,英伟达已经与爱立信展开合作,通过CUDA提升5G vRAN性能,特别是能够加速解决复杂物理空间内的信号优化问题。

从提出GPU以及CUDA平台开始,英伟达便不断向全新的计算领域发起攻势。时至今日,NVIDIA GPU计算从机器人、自动驾驶,一路扩展到云计算、医疗甚至是NASA火星登陆计划,基于多路RTX 8000专业卡的高性能计算平台为企业带来惊艳的性能,同时完成复杂且严苛的高性能计算。

在NASA 2030年将6位宇航员送向火星的计划中,着陆器将以12000千米/小时的速度进入火星大气层,而且必须精确点火减速并在6分钟内降落在火星表面。为此,NASA借助NVIDIA GPU通过FUN3D流体力学软件进行了数十万次火星着陆场景模拟,将产生的150TB数据变成了可视化,现在NVIDIA DGX-2上已经可以借助Magnum IO GPU Direct Storage技术,对数据进行可视化处理,这在以前是不敢想象的。

对于最普及的ARM,英伟达通过PCIe标准轻松与之连接。基于ARM,英伟达推出了NVIDIA HPC for ARM首个参考架构,可以使用Marvell、Ampere、富士通亦或其它ARM的HPC处理器与Volta GPU连接。更厉害的是,每个ARM CPU最多可以连接4块Volta GPU,扩展性能可谓恐怖。

在现场,黄仁勋通过VMD ON ARM和CUDA演示NAMD分子动力学模型的结果可视化处理,借助Marvell ThunderX2以及NVIDIA V100,并通过NVIDIA Optix光线追踪器来实现远程流式传输。

正如黄仁勋所说,“摩尔定律走向终结,GPU加速计算将成为未来的发展方向,GPU正在变得无所不能,也将无处不在”。据说目前英伟达已经销售了超过15亿块GPU,这些GPU由于采用了同一个架构因而均能兼容CUDA。

人工智能方面,英伟达推出了Tensor RT的最新版本Tensor RT 7,可支持各种类型的RNN、transformer、CNN,能够融合水平与垂直方向的运算,为开发者设计大量RNN配置自动生成代码,逐点融合LSTM单元,甚至可以跨多个时间步长进行融合,并尽可能做到自动低精度处理。

比如,有了Tensor RT 7的支持,在GPU上的编译器能够自动优化和加速AI语音应用所必需的递归神经网络和基于转换器的神经网络。在一套端到端的流程中,CPU推理延迟大概在3秒左右,但在T4 GPU上,整个过程只需要0.3秒。更重要的,Tensor RT 7可以把Tensor RT 5能实现的数十种不同的计算变化和优化提高到1000种以上。

而最新发布的机器人平台芯片Orin能够处理更高精度的传感器与感知数据,且拥有更强大的安全和防范能力。该芯片由170亿个晶体管组成,集成了NVIDIA新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算,几乎是英伟达上一代Xavier系统级芯片性能的7倍。

这意味着这是一个从底层架构上更新的AGX处理器,它的设计最早来自超算,拥有全新的功能安全特性,可以使CPU、GPU锁步运行而提升容错性,并且配备了全新的安全引擎保护数据不受网络攻击,以及与上一代Xavier兼容。

Orin可处理在自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,并且达到了ISO 26262 ASIL-D等系统安全标准。作为软件定义平台的DRIVE AGX Orin 能够赋能从L2级到L5级完全自动驾驶汽车开发的兼容架构平台,助力OEM开发大型复杂的软件产品系列。

会上英伟达还宣布为滴滴提供自动驾驶和云计算解决方案,通过NVIDIA DRIVE,以及数据中心的NVIDIA GPU训练机器学习算法,滴滴已经能够实现L4级别的自动驾驶推理能力。作为滴滴自动驾驶AI处理的一部分,NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器(摄像头、激光雷达、雷达等)的数据,从而实现对汽车周围环境360度全方位的理解,并规划出安全的行驶路径。

由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程,因此开发者能够在一次性投资后使用跨多代的产品。事实上NVIDIA AI已经影响到了运输、医疗、金融、零售等各行各业,英伟达致力于为每种场景打造不同的平台,例如用于深度学习训练的DGX,用于超大规模云的HGX,用于边缘计算的EGX,用于自治系统的AGX。

NVIDIA AI已经被运用到百度的推荐系统中,100多个推荐模型每周都会更新,自动学习用户潜在的兴趣。只有通过GPU加速训练,才能在百度包含了千亿维稀疏离散特征和10TB embedding词表的庞大用户潜在兴趣数据训练中加速且节省成本。

同样,阿里巴巴也接入了英伟达加速计算平台部署包括T4 GPU、cuBLAS、自定义混合精度和推理加速软件等先进AI技术,确保双十一期间2684亿人民币、每秒几十亿次的推荐请求能够顺利推进。在NVIDA AI加持下,阿里巴巴已经能巩固支持比过去复杂6倍的模型,从而使点击率提高了10%。相比于CPU,T4将最大模型的吞吐量提高了100倍。

现场,NVIDIA也给我们展示了会卖萌的Leonardo物体操纵机器人。ISAAC SDK是为其提供模拟仿真和训练的平台,包含多种预训练模型以及多种参考应用样例。使用Isaac SDK训练机器人并将所生成的软件部署到在现实世界中运行的真实机器人中,有望大大加快机器人的开发速度,从而实现综合数据的训练。而通过模拟和真实世界的学习,Leonardo学会了如何遵守物理规则,对此,黄仁勋表示,现在技术已经进入了一个机器可以实时理解人类语言的AI新时代。

在超过2小时的GTC CHINA 2019演讲中,新推出的芯片只有Orin一块。制造GPU英伟达无疑是最擅长的,但如何用好GPU则需要更多软件方面的挖掘和努力。英伟达将重心放在了软件平台和AI智能优化上,通过硬件与软件的配合,发挥CUDA给GPU带来的大规模并行处理优势,使得GPU走出游戏和渲染,找到了更广阔的应用空间。

2 摆脱低迷

过去几年,由于赶上了深度学习的东风,英伟达通用图形处理单元(GPGPU)扶摇直上,市场表现一度非常“嚣张”,其火箭般的涨势让半导体巨头英特尔坐不住了,意图通过收购突破自身限制,重塑市场版图。双方的较量在《英伟达和英特尔的AI战事》一文中有详细介绍。但是,自去年年底以来,因为GPU需求放缓,股价多次暴跌,英伟达开始陷入低谷,我们在《英伟达“防滑”奋战》一文中曾有详细报道。

一年前,GTC China 2018前一天,英伟达股价暴跌约18%,股价曾一度跌到145美元。尽管当时在发布会上黄仁勋一如既往地尽力调动现场气氛,但是会后却取消了媒体采访环节。据称当时股价下跌与加密货币热潮退散有直接关系。

2017-2018年,加密货币狂潮来袭,对算力的需求也一度暴涨,英伟达GPU的价格因此被炒高,但随着热潮消退,游戏卡的价格回落至正常水平,导致了股价的跌落。GPU被加密货币买家炒热之时,其他一些买家被挡在门外,加密货币热潮散去,这些买家却很难再回来。英伟达芯片库存积压,而“要完全解决GPU过剩问题,可能需要1-2个季度”。为此,英伟达发布业绩预警,下调2018财年第四季度营收预期,直接导致股价暴跌。

业内普遍认为,市场对芯片的需求放缓是困扰英伟达发展的一大问题。为了摆脱对加密货币以及游戏市场的依赖,专心拓展芯片业务,英伟达在今年3月以史上最大收购金额69亿美元收购以色列芯片设计公司Mellanox。但收购不会立竿见影,今年5月英伟达第一季度财报显示其2019年一季度营收为22.2亿美元,相比去年同期的30.07亿美元,下降幅度仍超过30%;而收购举动则进一步拉低了其利润,一季度3.94亿美元的净利润与去年同期的12.44亿美元相比,下降了68%。

屋漏偏逢连夜雨,英伟达还没来得及为下一季度的营收担忧时,中美贸易战开始火烧芯片业。6月18日,美国政府将5家以开发芯片和超级计算机为主的中国企业和机构列入“黑名单”,美国芯片企业股价应声集体暴跌,其中英伟达以151.76美元价格收盘。

8月英伟达第二季度财报发布:该季营收为25.79亿美元,同比减少30%,较上一财季的22.2亿美元环比增长了16%;净利润为5.52亿美元,去年同期为11.01亿美元,同比下滑50%。连续两个季度利润下滑,同时伴随着严重的股价下跌,英伟达2019年上半年成绩单不太好看。

史上曾多次经历重挫的英伟达,当然不会坐以待毙。它在看似低调收敛的同时正在展开防“滑”奋战,以芯片、数据业务发展为方向进行调整。其3月收购的Mellanox以其InfiniBand互连技术而闻名,可以将许多小型计算机连接成大型计算机,从而在数据传输方面颇有优势。

黄仁勋曾表示,对Mellanox的收购旨在解决通过智能网络结构连接大量快速计算节点,以形成巨大的数据中心规模计算引擎的整体架构。借助Mellanox英伟达能够为客户提供更高的性能、利用率和更低的运营成本。

6月,英伟达宣布与Arm合作开发超级计算机,“Arm技术能够为超级计算提供一个开放的架构”。同月,英伟达推出了全球排名第22的超级计算机DGX Super POD,“它仅用三周时间就内置了96台NVIDIA DGX-2H超级计算机和Mellanox互连技术,具有9.4 petaflops的处理能力,可以训练安全自动驾驶车辆所需的大量深度神经网络”。

11月的SC19超算大会上,英伟达正式宣布“Arm处理器可以使用来自英伟达的GPU加速技术”,如CUDA。而在11月15日英伟达发布的第三季度财报中显示,其第三季度营收为30.14亿美元,与上年同期的31.81亿美元相比仅下降5%;净利润为8.99亿美元,与上年同期的12.30亿美元相比仅下降了27%。差距正在缩小,也就是说英伟达正在恢复元气。GTC19大会或许是它实现满血复活的最后一站。

3 结语

2019年大半年的奋战让英伟达逐渐摆脱因芯片市场需求放缓和加密货币热潮散尽带来的持续业绩下滑,逐渐恢复元气。GTC China 2019上以“软”代“硬”,软件业务遍地开花让英伟达能够更快地找到自己新的业务增长曲线。

这些都能让人们相信,英伟达依然是那个激情澎湃的“宝藏”公司,它正在重回“嚣张”的路上。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。


来源:砺石商业评论