CPU遇摩尔定律瓶颈 FPGA混合元件或成解决方案

2015-06-24 08:16:36来源: Digitimes
各科技大厂莫不希望能以更少的成本、在更小的空间里嵌入更多运算电晶体,有厂商开始转向开发现场可编程闸阵列(Field Programmable Gate Array;FPGA)平行架构,整合FPGA与处理器优势打造低功耗、高效能的Saturn 1伺服器,也打造出更易于作业的Carte开发环境,可望推动未来市场主流应用。

根据The Platform报导分析,近年处理器研发遇上摩尔定律(Moore's Law)瓶颈,厂商们想破头提升产品应用效能,业界与高效能运算市场也开始热烈讨论FPGA架构应用。业界与学界已有多年运用FPGA元件的经验,譬如超级电脑大厂Cray在2004年以1.15亿美元买下OctigaBay,利用其超微Opteron处理器与FPGA元件打造出Cray XD1超级电脑。

总部设在美国科罗拉多州的SRC Computers,根据商用CPU芯片设计高效能丛集(high performance cluster)时,发现以FPGA取代传统特殊应用积体电路(ASIC)效能尤佳。

SRC总裁Jon Huppenthal表示,可重组态(reconfigurable)的处理器系统有两大特点,一是优点多,二是如果没有人懂得设计,就没有人愿意使用。因此,欲研发整合CPU与FPGA的系统最耗时之处,在于打造易于使用的开发环境,而SRC已成功将C语言这样的顺序语言(sequential language)套入一个本质上是平行的执行环境。

Huppenthal近一步比较SRC的作法以及将OpenCL当作平台,从CPU传送程式码至GPU及FPGA加速器的方式。他指出,后者的问题在于,加速器挂在PCI-Express汇流排不仅速度过慢,也无法与混合式系统中的CPU共享主存储器,导致资料必须在处理器与加速器之间不断来回,且必须由CPU处理一切应用与执移动作。

而SRC推出的MAP混合处理器与Carte开发环境,不论是使用C语言还是Fortran语言的程式设计师,甚至不会感觉到正处于采用FPGA的环境中。Carte在用户端机器上运行编码与除错环境,程式码执行后,会借由负责存储器共享互连的SNAP技术,自动整合分配资料给CPU处理器与FPGA的硬体描述语言(Hardware Description Language;HDL)。

NVIDIA的Tesla GPU也采用类似的高速共享存储器互连技术NVLink,IBM也透过其协同加速处理器介面(Coherent Accelerator Processor Interface;CAPI)将这类技术应用到Power-Tesla混合处理器上。

有了核心互连技术,客户就能根据需求调整硬体设计。譬如,若需要50个浮点单元(FPU),便可以自行加入系统。此外,由于应用与其资料流皆以HDL方式运用,且基本上是以硬体方式运行,因此表现更佳。

此外,FPGA可以很快地改变应用属性(application personality),使混合式系统能在短时间内处理多重工作。FPGA实现平行处理应用,具备高处理效能、低功耗特性,适合用于资料中心中的伺服器整合,也可作为无人机上面的讯号处理、控制系统等应用。

至于已采FPGA应用多年的金融服务机构、国防部门、情报单位等客户,可透过Carte继续于MAP混合处理器上运行Verilog与HDL语言。

SRC为了进入超大规模(hyperscale)伺服器市场,决定与惠普(HP)合作,为惠普的Moonshot伺服器系统打造MAP伺服器卡匣(cartridge)。

高运算密度的商用Moonshot伺服器系统于2013年推出,不过由于该系统采用4.3U机箱、45个运算节点,因此无法支援庞大复杂的处理器,也降低了资料中心采用的意愿。SRC使用1个英特尔(Intel)Atom处理器与2个Altera Stratix IV FPGA,打造Saturn 1伺服器节点。

Moonshot伺服器的特别之处在于,其背板采用2D环绕网状网路(torus)以及每秒7.2TB的总和频宽,此互连系统能将机壳内所有的运算或储存节点相连,无需任何交换动作。而机壳内的交换器模组,让Moonshot能和外界互连。

Saturn 1伺服器卡匣采用英特尔4核心Xeon Atom处理器,FPGA方面则是2个Altera Stratix IV GX530,其中一个FPGA负责执行SNAP互连技术及用于2D环绕网状网路的多重虚拟乙太网路埠。MAP节点无需搭载作业系统,因为节点会直接处理应用程式码,不过用户若需要,可在每一个Atom处理器上启用Linux内核(kernel)。

Saturn 1伺服器卡匣每个节点要价19,950美元,其中包括Atom与Stratix处理器的开机管理程式(boot loader)码,以及Carte开发环境的使用权限。

据SRC表示,要1,276个传统高阶4核心Xeon W3565处理器机柜,也就是约5.1万个伺服器节点与40.8万个左右的处理器核心,才能等同一个搭载378个MAP混合处理器之Moonshot机柜的运算能力。与X86伺服器丛集相比,导入FPGA的应用可望达到100倍效能、1%能源消耗、1%碳足迹,并节省75%以上的成本。

最早采用Saturn 1混合伺服器的客户,是预计2015年底发表首个产品的美国广告新创公司Jingit。Jingit希望能提供端点销售系统(Point of Sales;POS)服务,在人们购买物品的当下提供客制化折价券。为此,Jingit必须有强大的后端系统,根据用户结帐物件与历史消费纪录,在等待信用卡认证这不到1秒的时间内计算出最适合该用户的折价券。

x86系统架构难以应付Jingit所需的庞大资料处理量,且花费时间过长。而若将Jingit应用架设于Saturn 1节点上,处理时间则可缩短至奈秒(nanosecond)级。

FPGA应用市场才正要起步,而有了像是Moonshot伺服器与Carte开发程式环境这类新技术,未来可望在市场上见到更多产品应用。

关键字:摩尔定律  FPGA

编辑:刘燚 引用地址:http://www.eeworld.com.cn/FPGA/2015/0624/article_3586.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。
论坛活动 E手掌握
微信扫一扫加关注
论坛活动 E手掌握
芯片资讯 锐利解读
微信扫一扫加关注
芯片资讯 锐利解读
推荐阅读
全部
摩尔定律
FPGA

小广播

独家专题更多

TTI携TE传感器样片与你相见,一起传感未来
TTI携TE传感器样片与你相见,一起传感未来
TTI携TE传感器样片与你相见,一起传感未来
富士通铁电随机存储器FRAM主题展馆
富士通铁电随机存储器FRAM主题展馆
馆内包含了 纵览FRAM、独立FRAM存储器专区、FRAM内置LSI专区三大部分内容。 
走,跟Molex一起去看《中国电子消费品趋势》!
走,跟Molex一起去看《中国电子消费品趋势》!
 

夏宇闻老师专栏

你问我答FPGA设计

北京航空航天大学教授,国内最早从事复杂数字逻辑和嵌入式系统设计的专家。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2016 EEWORLD.com.cn, Inc. All rights reserved