datasheet

ISSCC 2019论文之引人瞩目的高速接口

2019-02-25来源: haikun01作者: 贾海昆关键字:ISSCC  高速接口

ISSCC2019论文解析目录:


1、Session 6 Ultra-High-Speed Wireline


ISSCC会议在集成电路设计的地位无容置疑。ISSCC2019刚刚结束,接下来我将在公众号开启一个新的系列,跟大家一起来读今年的ISSCC论文。今天先来看看第6个session Ultra-High-Speed Wireline都讲了些什么。




在今年的ISSCC上,高速接口(wireline)方向受到了极大的关注。除了有两个session的论文,在傍晚的现场展示环节,据我目测除了AI相关的芯片之外,最多的就是高速接口了,同时第一天的tutorial和最后一天的forum,也各有一个与高速串口相关。

 

我觉得这种火爆状态会持续好几年。预测是否能保持火爆可以看两方面:一是需求是否在持续增长。这点无容置疑,现在的5G、AI芯片、数据中心、大型交换机都需要传输大量的数据,有数据传输的地方就需要高速串口。高速接口芯片作为基本的数据接口,在一个大系统里必不可少,且不与5G、AI等热点技术构成竞争关系,反而受到这些技术发展的带动。二是现有的技术是否已经能够满足多年内的需求。目前来看,现在的高速接口芯片还没有达到这一点,在能耗和最高的数据率上还有不少提高空间。

 


 

从这个session的论文,我们可以看到几点整体发展趋势:

 

1)尽管56G的市场出货量还没有起来,但业界已经开始了单通道112G的高速接口收发机设计。这是竞争带来的结果,每个公司都尽力往前冲,不进则退,目前并没有看到谁有不可超越的技术优势,那出货时间就显得很重要了。当初我在设计56G的时候觉得,112G速度直接翻了一倍,做起来得有多难,真正做起112G时又觉得难归难,但设计出来还可以。

 

2)高速接口这个方向非常非常非常吃先进工艺。这个session八篇论文,除了最后两篇学校的论文,均采用16/14nm或者7nm的FinFET工艺。一方面,高速接口电路优化到最后,速度的天花板由工艺的极限决定,不采用先进工艺没有办法跟别人竞争。另一方面,高速接口的很多应用场景都是作为IP集成在一个更大的芯片之间,选择工艺时需要考虑主流客户会使用什么工艺,否则别人没法用你的IP。

 

3)由于太吃先进工艺,成本实在太高,学校已经很难在高速串口方面做出太多成果,主要的论文都是来自于工业界。业界玩家主要有博通、英特尔、inphi、xilinx、Nvidia等等,还有就是像我所在公司这样的初创公司。博通大概是做的最好的,但是价格也贵。xilinx和Nvidia主要给自家做,不卖IP。市场上的IP供应选择并不太多。

 

4)从技术上来说,56G的高速接口架构已经较为稳定,主流选择是:RX基于DSP,Time Interleaved ADC,一般先4到8的Track/Hold,每个Track/Hold带若干个ADC的Slice,TX采用Half Rate。均衡方面差不多都是CTLE、1-TAP DFE、若干TAP的FIR,以及TX-FFE。那56G接下来的技术挑战就是低功耗、以及更强大的Adaptive功能。对于112G的高速接口,我觉得现在大家追求的目标是先做出来再说,功耗什么的留给以后再优化,在架构选择上可以看到一些趋势,但还没有稳定下来。

 

这个Session一共八篇论文,其中三篇56G,四篇112G。下面我们来看看每篇论文具体做了些什么。

 

1) 100Gb/s 1.1pJ/b RX from IBM Zurich

 

这是我看到的第二篇超过单通道100Gb/s的RX论文,上一篇是Xilinx发在2018年的VLSI上,但这篇的能量效率比上一篇要小不少。

 

除了速度快之外,这篇最主要的亮点在于做了1-TAP Speculation的DFE。Speculation是常见的提高DFE速度的方案,对于NRZ信号来说还好,代价不算特别大。但对于PAM4,直接做Speculation的话需要12个比较器,额外的硬件代价比较大,所以PAM4 DFE speculation一直是个难点。这篇通过1+0.5D的脉冲响应,将比较器的数目从12个降低到了8个,起到节省功耗的目的。但这样做的局限在于,需要预先通过CTLE将channel的响应将将好调到1+0.5D,一般CTLE的可调范围都有限,这点在实际的使用环境下可能做不到。现场有人问这个问题,如果channel loss很小,怎么实现1+0.5D的响应。作者回答说假如channel loss很小,他们可以把DFE关掉,不用DFE。

 

 

我不确定产品中是否会喜欢这种方法。我觉得工程设计中存在这样的准则:假如一个较简单的方案已经能够达到可接受的效果,那就不要使用更复杂的方案,因为复杂本身就是成本。

 

整个接收机的系统框图如下。整体来看,采用了quad rate方案,降低时钟分布功耗。VGA直接驱动32个比较器,没有用Track/Hold,这里负载会稍微大一点,估计会成为带宽的瓶颈,因此这里加了一个电感拓展带宽。SR出来之后还是4UI(25G)的高速数据,DSP是处理不了,通过DMUX降速到32UI再给DSP处理。CTLE里没有使用电感,这点很厉害,但是论文里没有给出CTLE单独的测试结果。芯片的完成度还不太高,最终采用探针台进行测试。

 

 

2)60Gb/s DSP Based TRX from Huawei Canada

 

这是一篇来自华为加拿大研究所的文章。

 

整体采用了较为通用的结构,接收端CTLE接4-路Time Interleaved的ADC,每路Track Hold驱动8个SAR ADC(2-7b可调),这差不多是基于DSP的56Gb/s RX的标准做法了。发射端采用Half Rate,带Phase Interpolator,3个Tap的FFE,这些都是业界常用。

 

 

这篇文章的亮点在于芯片上集成了巨多的传感器(温度、工艺、阈值电压等等)、可调电路,理论上可以针对不同的channel、环境和BER要求去优化功耗。去年的ISSCC也有一篇类似的思路,通过改变Flash ADC的位数来调整Power/BER trade-off,感兴趣可以去看看。华为的这篇可调的位置更多,完成度也更高,最后给的测试结果表明通过Adaptive大约可以降低30%的功耗。

 

但我有两点疑问。一是成本问题。在模拟电路里,尤其是高速电路,每一个可调都是有成本的,晶体管开关总会引入额外的寄生电容寄生电阻,在这颗芯片里这个成本有多大?相比带来的好处值不值?论文里没有给出具体的数值,因此光看论文很难得出结论。二是Adaptive算法问题。这里面的调节点位实在太多了,而且很多是不相关的,需要处理工艺、温度、channel损耗、BER等等,怎么做Adaptive?这么大的扫描空间,如果暴力扫描,那握手时间太长了,肯定没法用。如果用一些策略,那会不会困在某个局部坏点出不来?如果不能很鲁棒的Adaptive,那实用价值就少了很多。可惜这些数据同样不可能从论文中看到。

 

 

 

还有一点,这篇的全局时钟采用单端反相器来传,应该可以省一些功耗。但似乎这样用的很少,一般都是两根线传差分时钟,理论上对电源地噪声较好,而且对Return Path要求也较低。


  

3-4)56Gb/s DSP Based TRX from eSilicon and MediaTek

 

这两篇论文较为类似,都是采用7nm的DSP Based 56Gb/s Transceiver。他们的结构也是很常用的结构,从论文上来看没有太多可说的。假如现在让我来做一个新的56G系统规划,我也会选这两种结构中的一种。但他们的功耗都做得极为出色,eSilicon的单通道功耗才243mW,MediaTek的只给出了模拟部分的功耗,才180mW,充分展示了这两个公司的设计优化能力。

 

有一点有趣的地方是:MediaTek在RX端使用了4x8(4个Track/Hold,每个驱动8个SAR ADC Slice)的结构,这种是最常见的选择。而eSilicon选择了8x5(8个Track/Hold,每个驱动5个SAR ADC Slice),这样他需要8个相位的8UI时钟,在时钟校准稍微复杂一点,一共8个Track/Hold,对前面CTLE引入的负载电容可能稍大,但每个Track/Hold的尺寸可以较小,每个Track/Hold有较长的时间来充放电。

 

 

最终哪一种结构较好?我可能倾向于4x8。但类似这种问题,似乎很难得到直接的证明。架构的比较取决于太多因素了。我们很少有机会把两种架构都做成芯片,去测他们的性能直接对比。即使一种架构的测试结果稍好,那也有可能是这一组人的优化能力较强,不能直接证明架构的优势。最终只能从架构的演化趋势看出一点端倪。

 

5)100Gb/s PAM4 TRX from Inphi

 

又是一篇超过单通道100Gb/s的TRX,而且采用了DSP Based。

 

DSP based的100Gb/s的RX难点之一是ADC怎么选。56Gb/s常用的是4x8的结构,这样一个Slice的速度差不多875MHz。到了112G,Slice本身的速度很难翻一倍,那只能采用空间换时间的策略,用更多路的time interleaved ADC来达到整体更高的速度。那么总共需要64个slice,这64个slice怎么分配呢,8x8还是16x4?这么大的寄生电容怎么来驱动?是一个超大的Buffer一起驱动这8个Track/Hold,还是分两级?去年xilinx的112G RX论文就是一个大buffer驱动4个第二级buffer,然后每一个在驱动两个Track/Hold。最终哪一种结构会胜出成为主流,现在还很难讲。因为现在能做出112G的还太少了。


 

这篇inphi的论文在RX端选择了16x4的结构,这样VGA需要推动16个Track/Hold,而且从他的图中VGA还没有用电感拓展带宽,我不知道他是怎么神奇的做出这么宽带宽的。

 

100G的RX另一个难点是CTLE,又要宽带、又要Peaking可调、又要保持线性度,设计难度很高。这篇里面没有集成CTLE。



TX方面这篇选择了Half Rate结构,这是在超过100G的TX里唯一一篇Half Rate的结构。Half Rate和Quad Rate相比,时钟的频率更高,因此更难传输。但是它简化了MUX的设计,最后一级MUX是只需要2:1即可,这是TX里速度最高的节点,2:1相比于4:1可以减小很多寄生电容。尽管大部分100G TX选择了Quad Rate,但我觉得不一定就比Half Rate有优势。毕竟时钟通路只需要单频(窄带)即可,而数据通路是宽带的。窄带电路比宽带电路容易设计多了。这样Half Rate实际上是把宽带通路上的负担转移到窄带上来,应该带来优势才对。一般说传25GHz的时钟太费电,但如果可以加电感和传输线做谐振的话,其实时钟传输网络耗电量不会特别大。可惜这篇没有给出时钟和MUX电路的具体实现。


TX里还用到了一个小技术,通过正反馈来提高反相器的速度,使上升下降沿更陡峭,其实有点类似均衡的概念。去年ISSCC有两篇采用了类似做法。我仿过这样的结构,应该是有效的,但要消耗更多功耗。

 

 

6)128Gb/s TX from IBM

 

这篇的亮点在于对4:1 MUX的优化。TX的结构和去年Intel的112G比较接近,也是采用CML的Driver。提一句,在56G采用SST作为TX Driver的居多。

 

高速串口的TX基本上就是一个Serilizer再加一个Driver。越往前速度越低,所以我们应该尽量简化后级,把负担推往前级速度比较低比较好处理的地方。这篇大致是这个思路。在MUX这一级去掉了Stack的时钟晶体管,而在前级添加一些逻辑产生1UI的脉冲信号。

 

很多时候电路的优化都是在一个个trade-off之间做取舍。宏观的指导思想就是把负担留给更容易解决的地方去解决。这篇是把负担推向前级速度较慢的电路,上一篇是把负担推向窄带的时钟路径。

 

 

7)112G TX in 40nm CMOS from Yuan Ze University

 

这是来自台湾学术界的一篇论文,用40nm做出了112G的TX,非常令人印象深刻。话说我跟此文作者之前认识,碰过几次面,还一起流过一次片。这篇论文即反映了学术界的无奈也反映了学术界应该选的方向。无奈在于拿不到/负担不起最先进的工艺,只能在落后工艺下进行竞争;方向在于学术界还是应该追求极致优化,以展现技术为主。

 

凭空想一想,假如让我在学校设计112G的TX的话:第一,FFE是必须的,否则眼睛打不开,没法展现效果;第二,不要在乎可靠性,选择金属走线宽度时只考虑性能因素,宁愿线被烧断也要减小寄生电容;第三,不要选择TX-DAC的结构,或者不要使用thermal code结构,将小cell合并成大cell,牺牲匹配换取速度;第四,适当的提高电源电压;第五,只在低速点位设置可调,如偏置电压等等,我们负担不起在高速路径上可调的成本。有了这些,应该勉强可以用落后工艺去拼一拼速度吧……

 

8)36Gb/s Adaptive CDR from University of Toronto

这篇略过……

 

写到这里,相信大家也看出来了,我之前本来是做射频毫米波的,现在对高速接口也有了不少了解。这不得不感谢我现在所在的公司——eTopus Technology Inc.,我在这里面学到了很多高速接口的电路设计经验。


关键字:ISSCC  高速接口

编辑:baixue 引用地址:http://www.eeworld.com.cn/mndz/2019/ic-news022527168.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:都说模拟电路难,看看高手是如何解答的
下一篇:三和授予儒卓力 “最佳分销商”奖项

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

技术文章—ISSCC 2019论文解析:功率放大器篇

ISSCC2019论文解析目录: 1、Session 6 Ultra-High-Speed Wireline2、Session 4 Power Amplifiers 今天来看ISSCC 2019的第四个session: 功率放大器(Power Amplifiers)。  功率放大器是每年ISSCC必有的一个传统Session,今年也不例外。 今年这个session一共有9篇论文,与上一篇文章提到的高速接口不同,这9篇论文全部来自于学术界。至少有两个原因:第一,功率放大器的设计不需要16nm或7nm FinFET这样的先进工艺,不管是射频还是毫米波频段,65nm或40nm的CMOS工艺足够
发表于 2019-03-04
技术文章—ISSCC 2019论文解析:功率放大器篇

两篇论文入选ISSCC 2019,ADI是如何做到独一无二的

今年,我国大陆地区共有9篇论文入选了ISSCC 2019,其中包括2篇ADI公司文章,另外,复旦大学ADI大学计划项目也入选了1篇。在过去的4年里,ADI共有5篇论文入选了ISSCC,而且,对于ISSCC 2019来说,中国大陆入选的9篇里,ADI是唯一一家有两篇论文入选的IC企业。除了连续4年有5篇入选ISSCC之外,该公司还有5篇VLSI论文,以及4篇CICC论文。据悉,该公司今年两篇入选ISSCC的论文都是来自于中国隔离器团队。ADI自动化与能源技术总监赵天挺表示:“取得这样的成绩主要基于两点:一是说全球隔离器的领导层很重视中国团队的发展,包括中国隔离器团队人才的培养。我跟宝兴(ADI院士陈宝兴)合作了15年,很多时候全球
发表于 2018-12-13
两篇论文入选ISSCC 2019,ADI是如何做到独一无二的

AI: ISSCC 2019 中的大明星

在AI大热的2018年,ISSCC的人工智能芯片仅仅只有一个session,然而在2019年,除了machine learning的session 7, 还带了两个半session:session 14 Machine learning & Digital LDO, 和 session 24 SRAM & Computation-in-Memory,并且一只脚迈进从来只有Intel/AMD等的超大司才能占据 最大session 2 Processor (session 1是全场报告Plenary Talk)。讲到 Plenary Talk, ISSCC 2019的第一演讲嘉宾是——Yann LeCun! 第二嘉宾
发表于 2018-12-04
AI: ISSCC 2019 中的大明星

2019 ISSCC推介会:中国入选18篇,历史新高!

日前,2019年芯片奥林匹克-IEEE国际固态电路峰会(ISSCC 2019)中国发布会暨最新IC设计技术趋势主题讲座在中国集成电路设计业2018年会上举行。由ISSCC国际技术委员会中国区代表、新任中国半导体行业协会集成电路分会副理事长、来自澳门的余成斌教授(IEEE会士)主持。推介会嘉宾合影中国半导体行业协会集成电路分会理事长魏少军教授(IEEE会士)发表了致辞,魏少军强调,“芯片发展有两个轮子,一个是资本一个是技术,现如今资本已不太稀缺,而技术非常稀缺,也正因此如果要摆脱我国目前集成电路设计业基础不牢的局面,必须掌握世界先进技术,而积极参与国际一流学术会议,通过交流与沟通,不断提升自己的技术水平。”今年是中国ISSCC入选
发表于 2018-12-03
2019 ISSCC推介会:中国入选18篇,历史新高!

复旦大学两成果亮相“集成电路设计奥林匹克”ISSCC 2018

集微网消息,美国当地时间2月11日,2018国际固态电路会议(ISSCC 2018)在旧金山举行,202篇来自学术界和产业界的前沿成果论文在这一集成电路设计领域的顶级学术会议中向全世界发布。由复旦大学微电子学院无线集成电路与系统(WiCAS)课题组和脑芯片研究中心模拟与射频集成电路设计团队研发的两项成果双双亮相,分别以论文《面向窄带物联网NBIOT应用的紧凑型双频段数字式功率放大器》(“A Compact Dual-Band Digital Doherty Power Amplifier Using Parallel-Combing Transformer for Cellular NB-IoT Applications
发表于 2018-02-22
复旦大学两成果亮相“集成电路设计奥林匹克”ISSCC 2018

受惠AMD Ryzen处理器,高速传输接口芯片厂商祥硕营收创新高

原标题:受惠AMD第二代Ryzen处理器出货高峰,高速传输接口芯片厂商祥硕营收创新高、超微(AMD)处理器发威,高速传输接口芯片厂商祥硕、受惠于AMD第二代Ryzen处理器及400系列高速传输芯片组出货放量,3月业绩已创下历史新高,市场预估第2季单月营收可望再次改写记录。处理器大厂AMD在4月推出第二代Ryzen处理器,目前华硕已抢先推出ITX X470,测试网站给予高度评价,而祥硕与AMD长久合作关系,前一代处理器其300系列芯片组便由祥硕独家提供,在市场销售创下佳绩,此次400系列高速传输芯片组仍由祥硕为AMD量身打造独家供应,性能更胜上一代。该高速传输芯片组在第2季进入出货高峰期,祥硕3月合并营收2.98亿元创下历史新高已
发表于 2018-04-13

小广播

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved