当前,处理器的功耗和PC的节能问题,愈来愈成为人们关注的一个焦点。一方面,仅靠提高主频来改进微处理器性能遭遇到了瓶颈,而双(多)核技术的出现配合其他节能技术有望找到解决办法。
诞生始因
微处理器由大量的晶体管组成,晶体管的工作需要消耗功率; 同一个芯片上,对于同样的操作,高速运行一定比低速运行的功耗多,有功耗和发热是正常的。例如,i386DX-20MHz的 大功耗在1.3W左右,Pentium-133MHz是11W左右,Pentium Ⅲ-1.33G就需要33.9W左右,而Pentium 4-1.3GHz则需要68.8W,新型微处理器的 大功率都超过了百瓦。若功耗和发热影响到处理器的正常运行,就需要采用节能技术。
在微处理器发展的初期,由于英特尔的设计思路、微处理器架构、芯片的集成度、制造工艺、材料工艺等条件下制造的处理器所产生的功耗和热量不足以制约处理器的工作频率按照摩尔定律不断提升,才使处理器的频率顺利提高到“G”Hz级。引起处理器节能技术开发的起因是英特尔为笔记本电脑和其他便携机制造的移动版处理器、笔记本电脑的电池容量有限,体积小,无法负担台式处理器庞大的耗电量,其内部狭窄的空间使密集排列的元器件无法迅速的散发热量,英特尔才就如何减少移动处理器的功耗和热量进行研发。由于处理器功耗与供电电压的平方成正比,降低核心电压可以大大降低处理器功耗,英特尔开始采用了降低处理器的工作电压和系统控制电源的供电量的办法。
1989年英特尔推出了第一块笔记本电脑专用处理器80386SL/80386DL,是首批专门针对笔记本电脑所设计的移动版处理器,其工作电压为3.3V而不是5V,它们增加了一种新的工作方式: 系统管理方式(SMM)。当进入系统管理方式后,处理器就自动降低运行速度、控制显示屏和硬盘等其他部件暂停工作,甚至停止运行,进入休眠状态,以达到节能和延长电池工作时间的目的。
1990年英特尔又推出了80486 SL 处理器 初是为笔记本电脑和其他便携机设计的,与386SL一样,这种芯片使用3.3V电压,而且也有内部切断电路,使微处理器和其他一些可选择的部件在不工作时处于休眠状态,这样就可以减少笔记本电脑和其他便携机的能耗,延长使用时间。 此后,随着微处理器的制造工艺与主频的提高,处理器的工作电压逐步下降到3.5V/3.3V/2.8V/1.6V/1.3V。同时,英特尔还开发了一系列如SMM、APM、ACPI和SpeedStep等十余项节能技术。
历史沿革
初的SMM系统管理方式,其工作原理是: 当系统空闲或执行非中央处理器(处理器)密集型的任务时,微处理器减缓或暂停系统某些部件的工作的能力,以节能和可延长计算机元件的使用寿命。这也是一种比较简单的节能技术。
鉴于电脑的日益普及,美国环境保护署1992年提出了一个全面性的环保和节能规范“能源之星”计划,该计划有关规定几乎涉及所有耗电大的电脑设备,让这些设备在空闲时自动进入休眠状态,譬如显示器黑屏、硬盘停转、处理器停止工作或时钟频率降低等,休眠的设备只有少部分电路处于等待“唤醒”的状态,因此可以显著减少能耗。能源之星计划提出了节能要求。同一年,英特尔公司制定出名为 APM(Advanced Power Management,高级电源管理)的节能规范,APM是一个完全基于BIOS的电源管理技术,所有节能措施的实现都需依靠BIOS—电脑用户必须进入BIOS的电源管理项进行设备节能方式的设置。之后的1996年,英特尔公司又与微软等4家公司一起制定了ACPI(Advanced Configurationand Power Interface,高级配置与电源接口)规范。5家公司的结盟,使得主板、处理器、BIOS和操作系统在电源管理上联合行动,不仅主板和处理器要支持ACPI,而且显示器和硬盘等主要耗电设备也必须按照这一规范进行设计和制造。
ACPI将电源管理BIOS代码、APM应用编程接口、PNP BIOS应用编程接口、多处理器规范表格等软硬件资源有机地结合在一起,使得系统中的所有设备可以互相进行通信来了解彼此的使用情况,而且都受操作系统的控制。针对处理器、RAM、硬盘和显示器4种设备,ACPI规范定义了6种状态,使得这些设备的工作状态随节能模式的改变而变化,电脑的功耗逐步减少。
操作系统可监控系统的运行状态,并根据用户所设定的管理策略,适时对硬件设备的工作状态进行调整,达到 大限度节约能源之目的。ACPI的高明之处在于界面十分友好,容易理解、便于上手。
英特尔在1994年~1997年先后开发了VoltageReduction(自动降压)、ClockGating(自动频率调整)、QuickStart(在处理器空闲时自动进入休眠状态)等笔记本电脑处理器专用节能技术,并且在1999年开发了集以上三种技术之大成的SpeedStep技术。
SpeedStep技术是一项革命性的新技术,它能使处理器在两种工作模式之间自动切换,即接电状态时的 高性能模式和电池状态时的电池优化模式。采用SpeedStep技术的处理器为笔记本电脑带来性能的革新,无论是插电运行,还是脱机使用电池,笔记本电脑均能以近乎台式机的速度运行并达到 佳性能。当笔记本电脑连接至交流电源时,可提供几乎与台式机相同的性能; 当使用电池时,在性能与电池使用时间之间达到 佳平衡,这时的处理器功耗将降低40 % ~50 %,同时保持80 %的 高性能。
SpeedStep系统主要由自动电源识别系统和自动电压调整系统组成,其中包括系统BIOS、终端用户接口软件、切换开关控制ASIC和芯片组。当笔记本电脑运行在电池优化模式时,处理器的电压为1.35伏,频率为500MHz,此时,将笔记本电脑接到交流电源,在小于1/2000秒的时间内,自动电源识别系统和自动电压调整系统将使处理器的电压自动增加到1.6伏,频率按处理器的不同而分别提高到600MHz或650MHz。
目前SpeedStep已发展到第二代,第一代提供了两种频率变换状态: 全速状态及电池供电时的降频状态; 第二代的增强型能提供更多的频率档次。
1999年~2002年,英特尔又开发了一系列的节能技术,例如Deep Sleep、Deep Sleeper休眠模式; QuickStart技术,它能够让笔记本电脑在不工作时立刻将处理器切换到低耗能水平(0.5W以下),以达到有效管理电源以获得更长的电池寿命的目的。可以实现动态调节核心电压,按需供电。英特尔针对Prescott处理器开发了Dynamic VID(动态电压识别)技术,它可根据处理器的忙碌程度实时调整供电电压,以“见缝插针”的方式降低处理器的功耗。实现Dynamic VID无需任何驱动程序,但需要主板和BIOS支持。
英特尔还从处理器的体系结构和逻辑设计上进行改进,在不影响性能的情况下降低功耗,如: Advanced Branch Prediction: 采用多分支预报机制大幅度提高预报的准确度,缩短任务执行时间,进而降低功耗。
Micro-Op Fusion:采用操作融合技术,实现两个操作、一次执行。
Power Optimized Bus:根据需要打开或关闭处理器总线,降低功耗。
Dedicated Stack Manager: 通过设置硬件堆栈管理器,可以明显减少堆栈管理的微操作数,达到减低功耗的目的。
面对的难题
处理器到了90nm工艺以后,情况发生了很大变化,许多原来基本可以忽略不计的功耗因素现在都占据了较大的比重。例如,芯片内电路互连损耗、泄漏损耗。但英特尔依然在尝试使用其他方法来提高处理器性能。例如提高FSB速度到1066MHz,将奔腾4处理器的缓存加大到2MB等,但结果都收效甚微。随着运行电压的降低,出现大量电流渗漏现象,结果产生了很高的热量,高发热量会导致芯片运行不稳,处理器频率提升遭遇瓶颈,可以将这种现象视为一种热障。到现在,主流处理器的功耗超过百瓦,而且还一直呈现向上提升态势。
为了突破这一障碍,在新世纪之初,包括英特尔在内的一些国际著名芯片制造公司,都组织专门的队伍、斥巨资研制性能、功耗和发热平衡的低功耗微处理器技术,并且获得了突破性进展。处理器制造商开始采取一项新战略,将两个或更多完整的、独立的处理器内核安装在一个芯片上。这种多内核处理器直接插在主板上的一个插座中,操作系统将每一个执行内核视为一个可以独立控制的逻辑处理器。拥有两个独立的处理器核,可以让每个处理器核以较低的速度运行,因此降低了温度,并且在大多数情况下,还提高了计算机的总体吞吐量。
英特尔计划用双核心(甚至多核心)处理器共同运做的办法来实现性能再次提升的愿望。为了能够让双核心在一起顺利工作,引入更先进的电路来降低耗电和发热,这项技术可以在较低电压的时候把晶体管之间的漏电流减少一半甚至更多。
酷睿的创新
对半导体芯片来说,新工艺往往可以带来运算性能和电气性能双方面的改进。若用先进工艺制造往往可以带来功耗的明显降低,而低功耗同时又意味着芯片的工作频率可以继续向上提升一个等级。低功耗可以让PC更节能,对散热设计不会带来什么压力节能,安静、低噪音运行可以得到充分保障。酷睿双核处理器采用了65纳米新工艺的芯片制造,从英特尔的设计思路、微处理器架构、芯片的集成度、制造工艺、材料工艺等,也就是说从根本上创新了处理器节能的技术。
新发布的酷睿2处理器采用了专用的双核微体系结构。每块酷睿双核处理器中均包含有两个经过为移动计算优化的执行内核。这一设计可利用专用的处理器资源,在单独的内核中执行并行线程或应用。因此,在同时运行多个要求苛刻的应用时,英特尔酷睿双核处理器可以保证极为卓越的性能和更快的系统响应速度。此外,多线程应用的性能也得到了相应提升,使性能/瓦得到提高。
酷睿双核处理器有一个高性能的内核架构。该内核架构采用了微操作融合以及高级堆栈管理(Advanced Stack Management)技术,因而能够在 大限度提高性能的同时,优化能效。微操作融合技术整合了相同宏操作(macro-op)中的多个微操作。高级堆栈管理则可以在局部范围内追踪有关堆栈指针的变化,从而降低堆栈相关操作中的微操作数量。微操作数量的减少意味着,可以在能耗更低的情况下,更加有效地实施调度、“按需”提供性能。
此外,处理器采用的新型增强型应变硅技术(Strained Silicon)也为降低漏电流贡献了不小的力量。理论上讲如果能迫使硅原子的间距加大,就可减小电子通行所受到的阻碍,也就相当于减小了电阻。这样一来,发热量和能耗都会降低,加速晶体管内部电流的通过速度,而运行速度则得以提升,晶体管获得更出色的效能。
应变硅技术的原理是将硅的晶体拉伸,这样沿拉伸方向电子的迁移率就会提升,导致电阻减小。在MOS管的栅极下沟道处的硅做成拉伸的“应变硅”,当MOS管打开时电流就会更顺利地沿拉伸方向在源极和漏极之间流动,速度也能更快,向衬底分散的漏电流就会相应减少。在65纳米工艺中,英特尔采用了更先进的第2代高性能应变硅,该技术可以让晶体管的激励电流进一步提升到30%。
新型处理器节能效果的提升还与采用了新型的高K值材料技术有很大关系。与应变硅加速晶体管内电流速度相反,在不同晶体管之间则需要更好的绝缘,以避免电流泄漏的问题。在90纳米工艺之前,这个问题并不严重,因为晶体管之间有较长的距离。但转换到90纳米工艺之后,不同晶体管的间距变得非常之短,电流泄漏现象变得异常严重。英特尔决定采用高K值的氧化物材料来制造晶体管的栅极,英特尔称之为“高K门电介质”(High K gate Dielectric)。这种材料对电子泄漏的阻隔效果可以达到二氧化硅的1万倍,电子泄漏基本被阻断,这样就可以在绝缘层厚度降低到0.1纳米时还拥有良好的电子隔绝效果。
英特尔的酷睿处理器采用了多项先进的节能技术。
进入到65纳米工艺之后,英特尔实现了8层铜互联结构,每一个芯片可以容纳8个不同的逻辑电路层。层数越多,芯片占据的面积就越小,成本越低,但同时也要面对更多的技术问题。不同的电路层需要用导线连接起来,为了降低导线的电阻,采用金属铜来代替以往的金属铝。其次,两个电路层之间会产生一定的电容效应(C值),由导线电阻R和层间寄生电容C共同产生的RC延迟决定着芯片的高速性能。电路层越多,RC延迟就越高,芯片不仅难以实现高速度而且会增加能耗。使用电阻率更低的铜代替铝作为导线,可以一定程度降低RC延迟。由于寄生电容C正比于电路层隔绝介质的介电常数K,若使用低K值材料(K<3)作为不同电路层的隔绝介质,问题便迎刃而解了。英特尔为65纳米工艺准备了一种K值很低的含碳氧化物。
由于采用了增强的低能耗管理技术,英特尔酷睿双核处理器可以“按需”提供经过协调的双核性能。除支持双核协调平台更深度和增强型更深度睡眠电源管理状态转换外,英特尔动态功率调节还支持单个内核动态转换至间歇、时钟停止和深度睡眠电源管理状态。共享的电源管理逻辑可以在硬件中协调增强型英特尔SpeedStep动态节能技术和空闲电源状态(C状态)转换,从而更加高效地管理电压和频率。英特尔酷睿双核处理器可以在极低电压下运行,并采用了先进的高级技术,可 大限度地降低时钟频率和信号转换,从而降低运行状态下的能耗。由于拥有全新的低频模式电源管理状态,因此英特尔酷睿双核处理器可以更快地切入和退出这些状态,从而保证了极高的响应速度和良好的节能特性。酷睿双核处理器还具有动态总线暂停(Dynamic Bus Parking)特性,当处理器处于这些低频模式状态时,芯片组的能耗也随之降低,从而提高了平台的整体能耗。此外,酷睿处理器微架构上的改变也为进入更低功耗时代做出了很好的准备。综合来看有以下几方面:
支持动态高速缓存大小调整的增强型英特尔更深度睡眠特性。处理器的缓存单元从来都是发热大户,尤其是二级缓存占据晶体管总量的一半多、功耗极为可观。为了降低大容量缓存带来的高热量,英特尔为其65纳米SRAM芯片中引入了全新的“睡眠晶体管”功能,当SRAM内的某些区域处于闲置状态时,睡眠晶体管就会自动切断该区域的电流供应,从而令芯片的总功耗大大降低。此时,睡眠晶体管可以看作是SRAM的小型控制器,可以控制SRAM单元的晶体管进行“睡眠”。可以根据需求或在空闲期间内动态刷新系统内存。数据保存在内存中后,节能特性将随着高速缓存通道的关闭而开启。由于二级高速缓存的数据完整性决定了英特尔酷睿双核处理器更深度睡眠的 低电压限制,因此一旦动态高速缓存大小调整特性将全部二级高速缓存转移到内存中,处理器就会切换至一种新的电源管理状态。这就是所谓的增强型英特尔更深度睡眠技术,它支持处理器将电压降低至更深度睡眠 低电压以下,以增强节能性和提高效率。
英特尔智能高速缓存。酷睿双核处理器配备有一个采用高级传输高速缓存架构的共享2 MB二级高速缓存。两个执行内核间的系统总线可以实现更加智能化、更加高效的高速缓存和总线设计,能够带来更卓越的双核性能,并有效降低能耗。当另外一个执行内核处于闲置状态时,英特尔智能高速缓存可以让处于运行状态的执行内核使用全部2 MB高速缓存。两个内核之间的动态高速缓存分配可以增强性能,并降低高速缓存的未充分利用率和数据存取的未在率(miss rate)。两个内核之间的高效数据共享可以 大限度地减少前端总线流量,并降低保持高速缓存数据一致的复杂性。
处理器中增强的数据预取逻辑可以在高速缓存请求发出之前,将数据发送至二级高速缓存中,从而减少了总线周期的损失。英特尔酷睿双核处理器中配备有数据高速缓存设备流处理器(Data Cache Unit Streamer),它可以通过要求一级预取功能提前启动,来提高二级预取功能的性能。增强了数据写入次序缓冲区(Writer Order Buffer)的深度,以提高回写延迟性能; 集中式英特尔智能高速缓存控制逻辑实现了电源的优化和功率的降低。
英特尔高级散热管理器。酷睿双核处理器采用全新散热管理系统,可提供更高的准确度和更精确的噪音控制能力。每个内核上的全新数字温度传感器和热量监控器均位于热点附近,从而提高了高温下的准确度,并实现了更精确的风扇控制。此外,该款处理器还支持下一代双核优化稳压器、英特尔移动电压定位技术(英特尔MVP VI),并且还在共享区域内配备了传统的热二极管,作为故障保护机制。
节能型667 MHz系统总线。酷睿双核处理器系统总线采用了分离处理、延迟应答协议(Defferred Reply Protocol)。前端总线(FSB)采用地址与数据源同步传输(SST),在每个总线时钟中可以传输四倍的数据(4倍传输速率或AGP 4X),由此提高性能。这也就是所谓的“四倍并发”(quad-pumped)。地址总线在每个总线时钟内可以提供两倍的地址,这就是所谓的“双时钟”(double-clocked)或2倍地址总线。4倍数据总线和2倍地址总线共同运行,可提供高达5.33 GB/秒的数据总线带宽。前端总线采用高级发射接收逻辑电路(AGTL+)(Advanced Gunning Transceiver Logic)信号技术,此项技术由支持低电压增强的GTL+信号技术演变而来。
支持增强型英特尔SpeedStep技术。酷睿双核处理器可在多个电压和频率工作点上支持增强型SpeedStep技术。此项技术的特性包括: 包含从 低频率模式(LFM)到 高频率模式(HFM)的多个性能模式,可根据处理器的需求,在多个性能模式之间实时动态切换电压和频率。无需重启电脑,即可通过转换总线倍频、内核工作电压和内核处理器速度实现以上切换。通过软件控制电压和频率操作点。有极低的转换延迟以及32 KB一级指令和数据高速缓存。
总结
处理器核心的发展方向是更低的电压、更低的功耗、更先进的制造工艺、集成更多的晶体管、更小的核心面积、更先进的流水线架构和更多的指令集、更高的前端总线频率、集成更多的功能以及双核心和多核心等。处理器核心的进步对消费者而言, 有意义的就是能以更低的价格买到性能更强的处理器。