软错误与硬错误:你所不知道的电脑“杀手”

2012-08-31 10:48:17来源: 腾讯科技

腾讯科技讯(童云)北京时间8月31日消息,《连线》杂志近日刊载文章称,有时候用户电脑出了问题,要怪的不是微软,而是所谓的“软错误”和“硬错误”。文章指出,对于普通的电脑用户来说,“软错误”的世界是一个黑暗区域,下一代电脑芯片的科学家很担心这个问题,因其与功率有关;而与“软错误”相比,硬件厂商提及“硬错误”问题的频率甚至更低。

以下是这篇文章的全文:

在一年以前,斯蒂芬·杰基萨(Stephen Jakisa)遇到了一些严重的电脑问题。最初的问题是在他玩第一人称射击游戏《战地3》(Battlefield 3)时发生的,但很快甚至就连他的网络浏览器也出了问题,每30分钟左右都会自动退出一次,而他甚至都能在自己的电脑上安装这个软件。

情况变得非常糟糕,以至于杰基萨——他的专业是程序员,而不是技术菜鸟——原以为他的电脑可能是中了病毒,或者可能是电脑里有一些故障软件。但他决定让自己的朋友艾恩·斯蒂凡诺维奇(Ioan Stefanovic)帮忙看一下,后者恰好正在写一篇有关电脑可靠性的博士论文。

略微检查以后,杰基萨和斯蒂凡诺维奇找到了问题的源头:杰基萨电脑的存储芯片出了问题。由于在出现问题以前的六个月时间里,杰基萨的电脑一直都运行良好,因此在斯蒂凡诺维奇让他运行一个专用的存储分析工具以前,杰基萨从来都没有怀疑过会是硬件问题。“我真的是傻掉了。”他说道。“如果这个问题是发生在一点儿都不懂电脑的普通人身上,那么这人肯定会被彻底难倒。”杰基萨拿出了损坏的存储模块,然后他的电脑自此以后一直都运行良好。

当电脑崩溃时,通常是故障软件的问题。但在过去几年时间里,电脑科学家已经开始将审视的目光投向硬件故障。他们认识到,与许多人所知道的相比,另一种类型的电脑问题出现的频率要更高一些。没错,那就是硬件故障。

芯片厂商会在发货以前努力确保其产品经过测试,可以正常运行。但是,它们不愿谈论一个事实,那就是让芯片能随着时间的推移仍旧可以良好地运行是个难题。从二十世纪七十年代以来,这个行业就已经知道,某些晦涩难解的硬件问题会导致微处理器晶体管出故障;而随着晶体管尺寸的变小,这种问题变得更加容易出现。业内人士将此称为“软错误”(soft error)问题,也就是指由构成地球低强度背景辐射的核粒子引起的芯片内部电荷贮存状态的改变,这种改变虽然不会对芯片产生有形损坏,但将产生错误数据并造成设备的临时故障。晶体管的尺寸不断变小令每个晶体管本身对背景辐射的影响更加敏感,而芯片复杂性的大幅度提高也意味着芯片上某一部分遭受一个软错误的影响的机率大幅提高。

但是,这些所谓的“软错误”只是问题的一部分内容。在过去五年时间里,一些研究人员已经对某些非常巨大的电脑系统进行了严格的检查;他们认识到,在许多情况下,我们所使用的电脑硬件确实就是会损坏。热量或是制造缺陷会导致部件随着时间的推移而磨损,导致电子从一个晶体管渗漏到另一个晶体管,或是导致旨在传输电流的芯片出现故障。这些就是所谓的“硬错误”(hard error)。

“软错误”的力量

正在设计下一代电脑芯片的科学家很担心“软错误”的问题,这是因为一个非常重大的因素:功率。在下一代超级电脑开始上线的情况下,它们将拥有更多的芯片和更小的部件。随着晶体管变得越来越小,这些电脑将需要越来越多的能量,才能阻止粒子对其造成影响。

这个问题与基础物理学有关。当芯片厂商沿着越来越小的电线将电子传输到芯片时,电子会逃逸,就像水滴从破损的软管中喷发出来那样。电线的体型越小,逃逸的电子就会越多,让所有功能都运行正常所需要消耗的能量也就越多。

这个问题是如此棘手,以至于英特尔正在与美国能源部及其他政府机构联手合作,希望能加以解决。英特尔使用下一代的5纳米半导体制造工艺,在2020年底以前建造超级电脑的“大脑”,允许运算能力将比今天最顶级的电脑都高出1000倍。但就现在而言,看起来这些超级电脑系统的能耗也将是非常高的。

“我们拥有一条道路建造那种超级电脑,而不必担心能耗问题。”英特尔高性能计算生态系统的首席技术官马克·西格尔(Mark Seager)说道。“但如果你希望我们解决能耗的问题,那么就是远远超出我们的技术路线图了。”

对于象杰基萨那样的普通电脑用户来说,“软错误”的世界是一个黑暗区域。芯片厂商不喜欢谈论他们的产品出故障的频率——它们认为这种信息是一种自有的秘密——而普通用户也很难看到好的研究报告。经常发生的情况是,科技公司会禁止他们自己的客户谈论硬件故障率的问题。“那是业内人士积极研究的一个领域。”西格尔说道。“在外部我们不会过多地讨论这个问题,因为那是一个非常敏感的主题。”

硬错误

“软错误”是个问题,但硬件厂商提及另一个问题的频率甚至更低。据多伦多大学的一个研究人员团队称,当电脑的DRAM(动态随机存取存储器)出故障时,更有可能是硬件老化或是制造缺陷(也就是“硬错误”)的问题,而不是“软错误”的问题。

在2007年,多伦多大学教授比安卡·施罗德(Bianca Schroeder)曾到过谷歌的数据中心,在那里她收集到一批宝贵的信息,其内容与谷歌特制的Linux系统的故障频率有关。她发现的故障数量远远超出预期;而且,大约8%的谷歌存储芯片需为90%的问题负责。有些时候,每几分钟就会发生一次故障。

在进行过更加严密的检查以后,施罗德的团队发现那些故障看起来是集中在电脑存储芯片的特定区域中的,而且倾向于在年头更老的电脑中发生。他们所发现的问题是“硬错误”,而不是“软错误”;而且,这些问题的严重性要远远超出多伦多大学研究人员的预期。

施罗德及其团队在2009年发表了一篇有关他们在谷歌数据中心所发现的问题的论文,随后又在今年早些时候发表了第二篇论文,其内容是发现IBM“蓝色基因”(Blue Gene)系统和加拿大超级电脑SciNet所使用的存储芯片也存在类似的问题。

在所有这些电脑系统中,DRAM故障率基本上都是相同的,2012年论文的作者之一艾恩·斯特凡诺维奇说道。另一份由AMD的研究人员发表的论文也显示,在DRAM存储芯片中,“硬错误”出现的频率要高于“软错误”。但跟英特尔一样,AMD的研究人员也并未发布有关一般用途微处理器SRAM(静态随机存储器)的任何研究结果。

“这不是个新问题。”AMD这篇论文的作者之一、AMD可靠性架构师维拉斯·斯里德兰(Vilas Sridharan)说道。“DRAM设备中的错误首次被发现是在1979年。但是,到今天我们仍在学习。”

全球最大的DRAM厂商三星的一名发言人表示,该公司“在这个课题上没有任何能够分享的具体数据”。

施罗德和斯蒂凡诺维奇称,芯片厂商需要更严肃地对待“硬错误”的问题。当今的高端芯片会使用各种技巧——比如说是错误纠正代码等——来补救“软错误”,但在处理“硬错误”的问题上则做得不够好。

而且,这所导致的问题比大多数人所认识到的问题都更多一些。高端超级电脑可能拥有错误纠正代码来修复“软错误”,但对个人电脑来说则并非如此。“大多数移动设备和消费者级别的笔记本和台式机都没有错误纠正代码,其部分原因在于错误模型一直都是DRAM中的错误主要是由‘软错误’造成的。”斯蒂凡诺维奇说道。

由于自身具备电脑技巧的缘故,斯蒂凡诺维奇时不时地都会被邀请去诊断奇怪的电脑故障。他表示,在过去一年时间里,自己至少发现了三个与DRAM损坏有关的问题。

在两年以前,斯蒂凡诺维奇曾路过邓达斯广场——这个广场就像是纽约时代广场,只不过不那么有名——这个广场地处多伦多的中心地带,到处都遍布闪光的招牌和旅客。抬头看去,他看到有一个招牌变成了蓝光——那是电脑崩溃的确切信号。他用自己的黑莓手机对着那个招牌拍下了一张模糊不清的照片,记下了错误代码。他不是很肯定问题的源头,但从显示屏所显示出的奇偶校验误差来看,他认为可能是电脑显卡内存出了问题。

关键字:芯片

编辑:冀凯 引用地址:http://www.eeworld.com.cn/qrs/2012/0831/article_11766.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。
论坛活动 E手掌握
微信扫一扫加关注
论坛活动 E手掌握
芯片资讯 锐利解读
微信扫一扫加关注
芯片资讯 锐利解读
推荐阅读
全部
芯片

小广播

独家专题更多

富士通铁电随机存储器FRAM主题展馆
富士通铁电随机存储器FRAM主题展馆
馆内包含了 纵览FRAM、独立FRAM存储器专区、FRAM内置LSI专区三大部分内容。 
走,跟Molex一起去看《中国电子消费品趋势》!
走,跟Molex一起去看《中国电子消费品趋势》!
 
带你走进LED王国——Microchip LED应用专题
带你走进LED王国——Microchip LED应用专题
 

何立民专栏

单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2016 EEWORLD.com.cn, Inc. All rights reserved