datasheet

NVIDIA 英伟达

文章数:203 被阅读:171432

账号入驻

GTC 18 | 加速数据科学,RAPIDS小课堂,开课了!

2018-11-02
    阅读数:

数据科学家的一天


过去,数据科学家每天总是要被迫拿出大量的时间“享受”咖啡。这是因为数据科学家们的工作主要集中在数据准备过程中,由于过去算力有限,数据分析往往都是漫长的等待过程。图中,左侧环形图展示的是基于CPU的数据准备和数据分析流程,其中绿色部分代表数据分析过程,数据科学家们只能在这段漫长的时间里一边无奈地喝着咖啡,一边等待结果。但是,随着NVIDIA RAPIDS开源GPU加速平台的推出,这份无奈终于可以被打破了。


RAPIDS是NVIDIA在近期发布的一款针对大规模数据分析和机器学习的开源GPU加速软件。它允许数据科学家使用GPU来加速数据分析、机器学习和数据可视化工作流,与仅支持CPU的系统相比,其运算速度提升了50倍。通过运用RAPIDS开源加速软件,数据科学家们可以显著的提高工作效率。


广阔的行业应用范围


RAPIDS具有广泛的应用范围,可以协助数据科学家解决各种业务挑战,包括预估信用卡诈骗、预测零售存货以及顾客购买行为等。如今已有多家全球顶级企业开始率先使用RAPIDS,其中就包括沃尔玛,作为一家在全球范围内拥有超过8000家门店的零售业巨头,高速准确的存货预测和顾客行为预估可以帮助其合理调配库存,确保收益的最大化。目前沃尔玛已经把RAPIDS开源软件应用到了数据分析当中,帮助其实现了复杂模式大规模地运行,同时进行更加精准的预测。沃尔玛执行副总裁兼首席技术官Jeremy King表示,“RAPIDS(在沃尔玛)的应用得益于NVIDIA和沃尔玛工程师之间的深度合作,我们准备继续推进这种合作关系。”


此外,IBM也宣布计划将RAPIDS开源软件应用到其本地、公共、混合及多云环境等关键领域当中,为客户提供更加广泛的人工智能服务。例如:在基于IBM POWER9的PowerAI中采用RAPIDS,将可以为数据科学家提供新的开源机器学习和分析库;通过运用RAPIDS,IBM Cloud用户将能够把RAPIDS中的加速机器学习和分析库应用于其云应用程序中,并挖掘机器学习的优势;借助于NVIDIA GPU的算力优势,IBM Watson Studio 和 Watson Machine Learning将能够允许数据科学家和AI开发者们在IBM Cloud在多云环境中为其AI应用程序构建、部署和运行速度更快的模型。Hybrid Cloud高级副总裁兼IBM Research董事Arvind Krishna表示,“IBM已为企业人工智能构建了全球领先的、在任何部署模式上均能运行的平台。我们期望能拓展与NVIDIA已有的成功合作,利用RAPIDS来为客户提供全新的机器学习工具。”


RAPIDS答疑小课堂


为了让各位同学更直观的了解RAPIDS是什么,我们在这里给您现场答疑:


拿好小本,做好笔记,讲解结束后还有随堂小测,有奖问答!



RAPIDS到底是什么?


RAPIDS是NVIDIA全新发布的一款开源软件,它允许数据科学家使用GPU来加速数据分析、机器学习和数据可视化工作流,与仅支持CPU的系统相比,其运算速度快50倍。



RAPIDS包括哪些部分?


RAPIDS包括以下部分:


DataFrame - cuDF - 这是基于GPU Apache Arrow、GPU加速的DataFrame操作库,旨在实现模式培训的数据整理。核加速的低阶CUDA C++内核函数的Python绑定反映了pandas API的无缝导入和转换。

 

机器学习库 - cuML - 这套GPU加速机器学习库旨在为Scikit-Learn中可获得的各种机器学习算法提供GPU版本。

 

图形分析库 - cuGRAPH - 这套图形分析库无缝接入RAPIDS数据科学软件套件。

 

深度学习库 - RAPIDS提供本地阵列界面支持。这就是说,存储在Apache Arrow中的数据可无缝融入可接受PyTorch和Chainer等阵列界面的深度学习框架之中。

 

可视化库 – 即将推出。RAPIDS将纳入基于Apache Arrow的高度整合的数据可视化库。无论数据集有多大规模,本地GPU内存数据格式均能实现高性能、高FPS的数据可视化。 



RAPIDS cuML包括了哪些机器学习库?


NVIDIA正在与INRIA开展合作,旨在利用CUDA实现Scikit-Learn机器学习库的加速。同时,NVIDIA也利用CUDA推动机器学习库的加速,其中包括但不仅限于XGBoost、K-NN、K-means、Random Forest、Gradient Boosted Decision Trees (GBDT)、General Linear Model和DBSCAN等等。



支持RAPIDS的性能基准是什么?


我们大幅优化了准确性,同时减少了培训时间和基础设施成本。最初的基准是,与仅有CPU的系统相比,在NVIDIA DGX-2 AI超级计算机上运行的RAPIDS可实现50倍加速,同时将实验迭代从数小时缩短至几分钟。



能推荐针对RAPIDS生产环境的基础设施吗?


RAPIDS得益于其最大的GPU内存。NVIDIA DGX-1、DGX-2、搭载4个或更多NVLink连接GPU的Tesla服务器以及与NVLink和NVSwitch相连的HGX-1和HGX-2服务器都是针对数据中心生产环境的理想硬件选择。



使用搭载NVIDIA® DGX-2™的RAPIDS有何好处?


作为一个巨型GPU,DGX-2整合了一些突破性特征,其中的NVIDIA NVSwitch™互联结构将16个Tesla® V100 Tensor Core GPU无缝链接起来,从而实现2千万亿次运算和512千兆字节GPU内存。由于GPU内存已足以容纳所有培训数据集,同时多线程GPU内核实现了数据导入、数据操作和机器学习算法之间的平行设置,因此DGX-2将大幅缩短复杂模式的培训时间。



RAPIDS可与其它Tesla服务器一起使用吗?


可以的,RAPIDS可与基于Pascal和Volta的Tesla服务器配合使用。为了实现最好的性能,我们推荐系统至少搭载4个与NVLink连接的Tesla GPU。这包括目前配有4个或更多NVLink连接GPU的OEM系统,HGX-1(8个与NVLink相连的Tesla GPU)平台,以及未来搭载HGX-2(16个与NVSwitch相连的Tesla GPU)的OEM系统。



哪些行业可以通过使用RAPIDS受益?


几乎所有行业。目前,在互联网、零售、金融服务和医疗保健领域已经有企业开始使用RAPIDS开源软件了。许多其他行业,如能源、公共事业、政府以及更多行业也可以将RAPIDS运用到他们的日常运作当中。



为什么数据分析和机器学习对于企业来说如此重要?


因为企业可以通过数据分析和机器学习来识别复杂的模式,感知市场和环境数据变化,并做出直接影响利润的预测。尤其那些使用数据科学和机器学习来提高它们的竞争力的大型企业,对于他们来说,几个百分点的变化就将是数十亿美元的进账。



我们什么时候可以使用RAPIDS呢?


现在就可以!通过www.rapids.ai,用户可以立即访问RAPIDS开源库,从NVIDIA GPU Could container registry上获得容器化RAPIDS版本。



NVIDIA会为RAPIDS用户提供哪些支持服务?


我们将通过由GitHub存储库提供的标准开源社区为RAPIDS用户们提供支持服务。



GTC加速数据科学技术分会精彩预告


还想了解有关RAPIDS开源软件更详尽的信息吗?


就来GTC加速数据科学技术分会吧!分会上将有全球知名行业专家、数据科学家和商业领袖汇聚一堂,探讨 AI 加速数据分析如何改变其数字业务。


现场邀请到了NVIDIA全球副总裁,Marc Hamilton。Marc将对RAPIDS开源软件进行详细介绍。Marc Hamilton是NVIDIA全球解决方案架构与工程团队的带头人,负责与NVIDIA 客户及合作伙伴展开合作,共同为人工智能与深度学习、专业可视化以及高性能计算 (HPC) 提供世界顶级的端到端解决方案。此前,Marc还曾供职于TRW,负责为美国航空航天与国防工业开发HPC应用程序。


现场还有NVIDIA技术市场专家,Robert Sohigian将向参会者一步一步的展示如何基于Python开发GPU加速的程序,并讲解Python开发的细节、优势和挑战。Robert拥有超过30年的技术经验,他撰写过多篇关于DGX-2 、NVSwitch的开发博客。他还曾经在北京通过八年时间建立并指导了一个高质量的工程团队。


此外,届时还将有更多来自各行各业的专家代表,分享RAPIDS开源平台是如何推动各自企业实现突破。欲知更多详情,请持续关注NVIDIA官方微信平台!


点击底部“阅读原文”扫描二维码,即刻注册GTC,锁定您的专属席位!


随堂小测,有奖问答


最后,该开始随堂小测了!(敲黑板)



在文章底部评论区写下您的答案,我们将给点赞最多的3位同学,每人送出NVIDIA定制保温杯一个。


活动截止日期:11月7日下午5点整。


我们的万圣节留言赢手办活动在进行中,点击链接:GTC 18 | 这个万圣节,我们一起回忆儿时的英雄,赢取英雄手办,参与活动,说出您儿时最想装扮的角色和TA的经典台词,赢取英雄手办,为生活增添一抹英雄的颜色!



推荐阅读:















About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved