TMS320C6678处理器的VLFFT演示

2015-08-25 11:46:08编辑:chenyy作者: Xiaohui Li 处理器应用工程师, Ellen Blinka 处理器市场工程师 关键字:TMS320C6678  VLFFT  DSP  TI  SoC
简介
 
    本白皮书探讨了TMS320C6678处理器的VLFFT演示。通过内置8个固定和浮点DSP内核的TMS320C6678处理器来执行16K-1024K的一维单精度浮点FFT算法样本,检测其分别在采用1,2,4或8核时各自的运行时间。演示的结果证明了C66X DSP内核的优异性能,以及TMS320C6678处理器跨多核平行化执行性能与内核数量成正比的特性。本文的演示采用FFT算法,该算法在诸如医学成像、通信、军事和商业雷达以及电子战(干扰器、抗干扰器)等领域中被频繁应用。本文演示结果显示,在运行速率为1 GHz,DSP内核为8个时,用TMS320C6678处理器执行1024K的FFT算法样本只需要6.4毫秒。
 
TMS320C6678 SoC
 
    TMS320C6678处理器具有8个DSP内核,是基于TI的C66x 固定和浮点DSP内核以及 TI享有多核权利的创新型KeyStone构架创建的。它运行速度最高可达1.25GHz,在这个速度下它可以进行每秒160千兆次浮点运算,而且通常情况下消耗的电能不到10w。TMS320C6678处理器的特色是它每一个DSP内核都有512KB的 L2内存;此外,8MB的芯片内存中有4MB的共享内存,并且这两个内存都有纠错码。它的DDR3界面是64位的,有8位纠错码,运行速度可以高达每秒1600兆比特,同时支持高达8GB的外部存储器数据存取。此外,TMS320C6678的配套外设包括PCle、Serial RapidIO® 、Gigabit Ethernet以及TI的HyperLink界面,这个界面在连接到TI的其他DSP,ARM, ARM+DSP处理器以及第三方的FPGA时可以提供高达50Gbps的连接速度。
 
    在本文的VLFFT演示中,TMS320C6678处理器运行速度为1GHz,DDR3界面传输速度为1333MHz。
 
图1 TMS320C6678框图
 
VLFFT演示
 
    由于VLFFT算法要求将输入的数据存放在处理器的外部存储器当中,在本演示过程中,数据通过DSP内核存取、分配和处理,最后将结果输出到外部存储器中。同时,在整个过程中始终保持循环计数和时间测量。演示时,为TMS320C6678处理器配置不同数量的内核(1,2,4或8个)来计算当FFT大小不同时的结果,这些FFT规格包括:
16K
32K
64K
128K
156K
512K
1024K
 
    在演示过程中,通过将计算负载分布到多个核和完全充分利用C66X DSP内核高性能计算能力的方法来确保执行FFT达到最大性能。同时运用基础时间抽取算法将一维VLFFT算法用类似的二维FFT算法来表达。这种方法是在遇到非常大的数据N时,分解成N=N1*N2的形式。在本演示过程中,如果一维输入数组非常大,就采用N1行*N2列的二维数组来表示,然后通过以下步骤来计算FFT:
1.计算N2列数组在N1行数组中不同大小时的FFT;
2.乘以旋转因子;
3.存储N2 列在N1行不同大小时FFT算法的结果,形成一个N2*N1的二维数组;
4.计算N1行数组在N2列数组中不同大小时的FFT;
5.存储列方向上的数据形成N2*N1二维数组。
 
    这个算法被Takahashi称为Hitachi SR8000的高性能平行FFT算法。
 
    在执行多核算法时,第一步是计算N2列(核的数量)在N1行规格下的FFT算法,第四步是计算N1行(核的数量)在N2列规格下的FFT算法。0核是主核,负责与所有剩下的附属核同步。根据N1数组和N2数组的大小,每一个内核计算出来的FFT总数都被分成几个较小的模块以适应每个核L2 SRAM内存的空间。每一组数据都通过外部存储器中的DMA 预取到L2 SRAM内存中,然后通过DDR将数据返回到外部存储器中。每个核都运用2个DMA通道在外部存储器(DDR3)和内部存储器(L2 SRAM)中转化输入和输出的数据。
 
结果
 
    下页图表1展示了TMS320C6678评估版(TMDSEVM6678LE)分别在一个DSP周期和一个毫秒单位时间内运行FFT代码的结果。在理想状态下,当用于计算的内核数量增加一倍,循环计数就会减少一半。但在现实中,由于存在信息运行的天花板,同时受限于内存大小和信息宽度(内部存储器),这种情况很难实现。在这种情况下,当用双核取代单核时,运行FFT的时间平均减少了49.3 %,基本达到了理想的周期数的一半。当用四核替代一核时,运行FFT的时间平均减少了72.5%,而采用八核时平均运行时间则减少了81.6%。
 
表1:FFT分别在1/2/4/8DSP核时周期及毫秒的结果
 
    由此我们可以看出,无论是双核还是四核,随着FFT的大小从16k增加到256k,运行时间减少的幅度也越来越大,而采用八核时运行时间减少的幅度更加剧烈。这是因为对于较小的FFT,核数越多,并行代码相对于额外增加核数来提高性能的代价要小很多。以前256KB的FFT,在提高性能方面的效果并不太理想,在双核时只能提高2倍,四核时也只有4倍,而在八核时反而会降低其性能。这是由于八核处理数据的速度远高于外部存储器传输数据的速度,从而使其存储空间到达上限导致的。在本演示中,计算一个大小为1024k的FFT,即一百万点的FFT,在采用8 个DSP内核,运行速率为1GHz时,运行时间仅6.4毫秒。
 
图2:单核与多核在性能上的提升
 
结论
 
    综上所述,用TI的TMS320C6678处理器来执行一个百万点的FFT,在1GHz的工作频率下,8核同时运行所需时间仅需6.4毫秒。如此高速的DSP内核完全足以用来执行某些应用的实时运算,比如雷达、电子战争和医学绘图等。如果用最大速度1.25GHz来运行TMS320C6678处理器,同时采用更高带宽的DDR3和1600MTPS的话,执行运算所需时间会更短。
   

关键字:TMS320C6678  VLFFT  DSP  TI  SoC

来源: EEWORLD 引用地址:http://www.eeworld.com.cn/DSP/2015/0825/article_4205.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:德州仪器DSP中的PRU 开发详解
下一篇:Celeno高性能802.11ac Wave 2 4x4产品采用CEVA DSP

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

基于TMS320C6x11系列DSP的图像获取方案

    本设计方案旨在利用上述 的有利条件,提出一套基于TMS320C6x11系列DSP的图像获取方案,利用模拟视频信号的统一性,实现随意更换带有标准模拟视频信号输出接口的图像设备而无需在图像处理系统的硬件和软件上作修改。同时,本方案还需提供一个相对通用的数字视频接口,可以适应TMS320C6xll系列DSP的接口。本设计的主要技术要求有:  ①支持标准的模拟视频输入接口,可以对标准的模拟视频信号解码得到数字图像数据;  ②在不降低图像幅面的前提下,图像采集速度快,满足一定的实时性要求;  ③占用CPU时间少,使得图像采集过程在后台自主完成;  ④数字图像接口通用性好,可以在TMS320C6u1l系列乎台上通用
发表于 2018-01-29 20:29:45
基于TMS320C6x11系列DSP的图像获取方案

采用TMS320C54x免提开发平台的车载信号处理与音频系统

的音响失真级别会对回声事件造成直接的负面影响。  6. 结论  免提系统的使用不断普及,用户也期待着性能会不断提高。鉴于 HFK 实施存在多种可用选择,显而易见,软件算法和硬件信号处理器的集成是一项周到的举措,并得到妥善实施,这将非常有利。针对所有上述问题的 HFK 开发套件对所有有志于开发或销售上述产品的人都会带来明显的好处。具有 AEC 与 CVC-HFK 的 TI TMS320C5407 开发套件拥有所需的高性能和灵活性,可快速而廉价地将 HFK 解决方案推向市场。
发表于 2016-10-10 14:12:02
采用TMS320C54x免提开发平台的车载信号处理与音频系统

基于多核DSP的以太网通信接口设计

  摘要 针对8核DSP TMS320C6678与外部设备进行数据通信的需求,以片上集成千兆以太网交换子系统为核心,选取芯片88E1111作为PHY设备,设计了千兆以太网通信接口的硬件电路。在嵌入式操作系统SYS/BIOS和网络开发环境NDK上,完成了以太网底层驱动和TCP/IP协议的程序设计。通过DSP与上位机进行以太网通信测试,证明了以太网接口电路硬件及软件的正确性和实用性。 关键词 TMS320C6678;千兆以太网;SYS/BIOS;TCP/IP协议 随着DSP处理器在现代工业的应用越来越广泛,DSP的功能不仅只有快速运算处理,还需要与其他处理器或者设备之间进行实时数据交换,以实现资源的共享
发表于 2015-12-03 19:26:27
基于多核DSP的以太网通信接口设计

TMS320C6678 存储器访问性能(下)

cache,DSP 核应尽量连续访问。 EDMA 的ACNT 越大,效率越高。 SL2 有足够的带宽来支持所有核的同时访问。DDR 的带宽对所有核同时访问来说是不够的,DSP核的优先级对它获得的带宽有明显影响。 DDR 性能受页切换的影响很大,为了减少DDR 页切换应该尽量每次访问大块数据。 参考文献 TMS320C66x DSP CorePac User Guide (SPRUGW0)  KeyStone Architecture Multicore Shared Memory Controller (MSMC) User Guide (SPRUGW7)  KeyStone
发表于 2015-06-26 16:21:38
TMS320C6678 存储器访问性能(下)

TMS320C6678 存储器访问性能 (上)

作者:德州仪器 冯华亮 摘要     TMS320C6678 有8 个C66x 核,典型速度是1GHz,每个核有 32KB L1D SRAM,32KB L1P SRAM 和 512KB LL2 SRAM;所有 DSP 核共享 4MB SL2 SRAM。一个 64-bit 1333MTS DDR3 SDRAM 接口可以支持8GB 外部扩展存储器。     存储器访问性能对 DSP 上运行的软件是非常关键的。在 C6678  DSP 上,所有的主模块,包括多个DSP 核和多个DMA 都可以访问所有的存储器。     每个DSP 核每个时钟周期
发表于 2015-06-18 17:10:14
TMS320C6678 存储器访问性能 (上)

ADI公司的DSP为电动和混合动力汽车产生内外发动机声音

Analog Devices, Inc. (ADI)今天推出一款嵌入式系统,用于为电动(EV)和混合动力汽车(HEV)产生发动机声音。通过采用ADSP-BF706数字信号处理器和电动汽车警示音系统(EVWSS)固件,北美和全球其他地区的汽车制造商能够满足电动和混合动力汽车低速行驶时对外部发动机声音的未来安全规范要求。   ADI公司的DSP为电动和混合动力汽车产生内外发动机声音  查看EVWSS产品页面:http://www.analog.com/pr0717/evwss  在www.analog.com/cn/srf提交申请,以下载EVWSS固件。请在软件
发表于 2018-07-17 20:30:37
ADI公司的DSP为电动和混合动力汽车产生内外发动机声音

小广播

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved