用于以三维结构在高速缓存分层结构中的层之间实现非常高的带宽的方法,以及由此得到的三维结构转让专利

申请号 : CN200780018885.6

文献号 : CN101473436B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : P·G·埃马J·U·克尼克尔伯克尔C·S·帕特尔

申请人 : 国际商业机器公司

摘要 :

一种计算机芯片,其构造为具有至少一个单层芯片、至少一个多层芯片堆叠、以及以小于100微米直径的电互连为特征的载体封装,其中单层芯片和多层芯片堆叠中的每一个电耦合到载体封装的电互连,并且单层芯片通过载体封装通信地耦合到多层芯片堆叠,使得电信号在单层芯片和多层芯片堆之间的给定距离上大体上以对于单层芯片在该给定距离上的传输速度传输。单层芯片可以是具有多个内核的处理器,而多层芯片堆叠可以是存储器高速缓存堆叠。具有至少每平方厘米2500个互连那么大的密度的互连通路将单层芯片和多层芯片堆叠电耦合到载体封装。

权利要求 :

1.一种计算机芯片结构,包括:

至少一个单层芯片,其中所述至少一个单层芯片是包括多个内核的处理器;

至少一个多层芯片堆叠;以及

以小于100微米直径的电互连为特征的载体封装,其中所述单层芯片和所述多层芯片堆叠每一个电耦合到所述载体封装的电互连,并且所述单层芯片通过所述载体封装通信地耦合到所述多层芯片堆叠,使得电信号在所述单层芯片和所述多层芯片堆叠之间的给定距离上大体上以对于单层芯片在所述给定距离上的传输速度传输。

2.如权利要求1的计算机芯片结构,其中所述至少一个多层芯片包括存储器高速缓存堆叠。

3.如权利要求1的计算机芯片结构,其中所述单层芯片和多层芯片堆叠中的至少一个通过互连通路电耦合到所述载体封装。

4.如权利要求3的计算机芯片结构,其中所述互连通路具有至少每平方厘米2500个互连那么大的密度。

5.如权利要求3的计算机芯片结构,其中所述载体封装还包含多个集成去耦电容器,每个去耦电容器物理地直接定位在与所述单层芯片和所述多层芯片堆被电耦合到其上的侧相对的载体封装的一侧上的互连通路之下。

6.如权利要求5的计算机芯片结构,其中

借助于直接定位在所述单层芯片的互连通路之下的集成去耦电容器,将功率传递给所述单层芯片;并且借助于直接定位在多层芯片堆叠的互连通路之下的集成去耦电容器,将功率传递给所述多层芯片堆叠。

7.如权利要求6的计算机芯片结构,其中借助于硅通路、电互连、热通路、热互连、和热分界面材料中的至少一个创建所述互连通路。

8.如权利要求1的计算机芯片结构,其中所述载体封装包括硅、具有累积层的有机材料、没有累积层的有机材料、具有纤维增强的有机材料、和没有纤维增强的有机材料中的至少一个。

9.如权利要求1的计算机芯片结构,其中:

所述载体封装包括第一表面平面和与第一表面平面相对的第二表面平面,并且所述单层芯片和多层芯片堆叠被物理地定位在所述载体封装的相同表面平面上。

10.如权利要求9的计算机芯片结构,还包括:

热耦合到所述单层芯片的顶侧的第一冷却结构;和

热耦合到所述多层芯片堆叠的底侧的第二冷却结构。

11.如权利要求10的计算机芯片结构,还包括至少两条独立的热路径,其中借助于电通路、电互连、热通路、热互连、和热分界面材料中的至少一个创建每个热路径。

12.如权利要求1的计算机芯片结构,其中:

所述载体封装包括第一表面平面和与第一表面平面相对的第二表面平面;并且所述单层芯片和多层芯片堆叠被物理地定位在所述载体封装的相对表面平面上,使得层内总线中的水平布线距离最小。

13.如权利要求12的计算机芯片结构,还包括:

第二载体封装,其通过互连通路电耦合到至少一个多层芯片堆叠。

14.如权利要求13的计算机芯片结构,其中所述第二载体封装还包括多个集成的耦合电容器,每个耦合电容器物理地直接定位在与所述单层芯片和所述多层芯片堆叠被电耦合到其上的侧相对的载体封装的一侧上的互连通路之下。

15.如权利要求14的计算机芯片结构,其中所述第二载体封装热耦合到所述多层芯片堆叠,以便提供第二个独立的散热路径。

16.一种计算机芯片结构,包括:

多个多层芯片堆叠;和

以小于100微米直径的电互连为特征的载体封装,其中所述多个多层芯片堆叠通过互连通路电耦合到所述载体封装,所述多层芯片堆叠每一个电耦合到所述载体封装的电互连,并且通过所述载体封装通信地耦合到至少一个其他多层芯片堆叠,使得电信号在多层芯片堆叠之间的给定距离上大体上以对于单层芯片在该给定距离上的传输速度传输。

17.一种计算机系统,包括:

计算机芯片结构,包括至少一个单层芯片、至少一个多层芯片堆叠、以及以小于100微米直径的电互连为特征的载体封装,其中所述至少一个单层芯片是包括多个内核的处理器,其中所述单层芯片和所述多层芯片堆叠每一个电耦合到所述载体封装的电互连,并且所述单层芯片通过所述载体封装通信地耦合到所述多层芯片堆叠,使得电信号在所述单层芯片和所述多层芯片堆叠之间的给定距离上大体上以对于单层芯片在所述给定距离上的传输速度传输;和电耦合到所述计算机芯片结构的巢,用于执行计算机系统的功能。

说明书 :

用于以三维结构在高速缓存分层结构中的层之间实现非常

高的带宽的方法,以及由此得到的三维结构

[0001] 与相关申请的交叉引用
[0002] 本申请是提交于2006年6月16日的题目为“用于以三维结构在高速缓存分层结构中的层(level)之间实现非常高的带宽的方法,以及由此得到的三维结构”的在先美国专利申请No.11/453,885的部分继续申请,通过引用将其整个公开结合在此。

技术领域

[0003] 本发明一般地涉及用于设计多内核处理系统的方法,并且更具体地,涉及用于组合两种新兴技术领域:系统级封装(SOP)和3D技术的方法。

背景技术

[0004] 随着电路密度根据莫尔定律攀升,单一芯片已经成长为包含越来越多的计算机系统。 二十年以前,已经揭示整个处理器可以安装在单个芯片上。 当CMOS节点达到180纳米水平时,技术已经进展为不仅处理器的Level-1高速缓存(L1)被包含在与处理器相同的芯片上,而且第一次还可以包含下一级高速缓存,L2。 大约十年以前,制造出了第一个单芯片多处理器。
[0005] 在2001年,IBM开始装载(ship)第一个双内核芯片。 当前,随着芯片处理能力向着65纳米节点发展,然后向45纳米节点发展,大多数公司倾向于在单一芯片上装载4或8内核-并且可能装载更多的内核。随着技术尺寸继续缩小,并且随着更多的内核被以多GHz状态设置在一个芯片上,发生了三个重大事件。
[0006] 首先,内核本身在物理上变得小得多,并且占据芯片上很少的面积。 第二,随着更强大的计算能力被引入芯片,需要更多的高速缓存容量以便保持数据(被计算的),从而使得该计算能力可用。因此,芯片上高速缓存正在变得更大。最后,在更高的频率下,为了使芯片快速运行,第一级(L1)高速缓存变得太小了,所以更多的层被插入高速缓存分层结构。 换言之,在这些分层结构归入共享的高速缓存层之前,现在每个内核具有私有的高速缓存分层结构。
[0007] 图1示出了上述情形。 左边是“内核”100,其包括处理器101本身以及两个附加的高速缓存级103、104。 处理器101是逻辑密集型电路。 由于L1高速缓存102的通路是处理器流水线的一部分,因此L1高速缓存102被认为是处理器101的一部分。 随着频率上升到多个GHz,L1 102已经变得太小而不能提供高命中率。 因此,已经增加了L1.5 103高速缓存级以补充L1 102。 由于L1.5 103必须合理地快以便适应L1 102的高未命中率(miss rate),L1.5103的大小也是受限的。 因此,需要L2 104。 注意被称为“内核”100的大部分实际上是存储器。 当多个内核100被聚集在单个“多内核芯片”105上时,芯片很大,但是其大部分是存储器。
[0008] 图2示出了当今多内核芯片的现有技术。 多内核芯片105安装在可以是陶瓷的或有机的双芯片模块(DCM)200上,这里其被连接到以L3 201示出的另一个芯片。实际上,作为L3 201示出的通常不仅包含另一个高速缓存层,而且还包括便于巢(nest)(未示出)的操作的其它功能(即,除了处理器、高速缓存、存储器之外的所有系统功能;诸如外部存储器、I/O控制器、布线、PC板等),以及将DCM200连接到系统内的其它设备的功能。
[0009] 为了形成16路处理器系统,如图所示,以另一层封装202(和/或其它互连装置)安装4个这种DCM200。可替换地,可将4个4内核芯片一起放置在4芯片模块(未示出)上,并且将其连接到置于模块之外的其它层高速缓存。
[0010] 存在以标准封装形成这种16路处理器系统203的许多方法。 所有方法需要若干层封装,并且最后具有相当大的覆盖面积。为了形成更大的芯片,则继续这种进程。 例如,可由4个16路系统203形成64路系统(例如,可能是一个底盘上4个板);通过将4个底盘放置在一个机架内制成256路系统;在一个空间内放置多个机架等。
[0011] 在近十年来,作为一种有前途的技术,已经出现了系统级封装(SOP),用于以使多个芯片表现为单独的单片芯片的方式,将多个芯片集成在系统“封装”内。 特别地,当封装实际上是硅晶片,并且将组成芯片连接到该封装的焊球足够小,并且具有足够小的节距(例如,小于20微米)时,则出于所有实际的目的,该聚集体(aggregation)至少电子地表现为单个芯片。
[0012] 出现这种效果是由于硅晶片上的布线,此后称为硅载体(SC),可以与组成芯片上的布线是一致的(在材料、节距和电特性方面)。由于足够密集的互连节距和足够小的焊球,在SC上传输的“芯片到芯片”电信号看上去非常类似于类似距离上的在单个较大芯片上传输任意其它电信号。实际上,由于SC纯粹是布线承载工具(wiringvehicle),并且不会有在普通芯片上遇到的障碍,因此可以非常容易地遮蔽布线,产生了更好的电特性。
[0013] 当互连节距小于20微米时,无数信号可以从典型芯片“逃逸”到该封装。 一般地,当信号“逃逸”时,需要特殊的芯片外驱动器、接收器和若干金属层,以便执行信号的空间转换。 然而,采用SC,由于SC上的布线与其包含的芯片上的布线相同,因此不需要附加的设备。 换言之,信号不受从一个芯片到另一个芯片的传输的影响。
[0014] 因此,SC技术看来似乎提供了许多优点。它允许将若干芯片连接在一起,以便作为单个较大的芯片操作。 得到的芯片系统比任意实际芯片的理论尺寸大,但是由于该芯片被划分为小块,因此有效产率更高。
[0015] 使用SC技术,可以更有效并且更密集地实现图2的系统。使其更密集的优点是可以在子系统内聚集更多的处理器和高速缓存,这允许在给定的体积中实现更大的系统(在处理器数量方面)。另外,使用这种密集集成的解决方案,与没有与芯片堆叠和硅载体集成相比,由于功率的节省,诸如电压降低、减小的RC(由于芯片堆叠内以及硅载体上的芯片之间的减小的线长度、大小)和较低的噪声,可以用低得多的功率操作。
[0016] 例如,图3示出了可以使用图1的4内核芯片105和某些L3芯片201形成16路系统301、302的两种方法。 如左上角所示,将4个这种4路芯片105一起装配在一个大SC上,以便形成16路芯片300。为了形成系统,使用如右边301所示的标准封装,组合16路SC “芯片”300和某些L3芯片201。 可替换地,在非常大的SC302上组合4个4路芯片105和L3芯片201,以便在一个步骤中实现整个系统。
[0017] 这后一种实现302需要较少层封装,元件间的布线更短(因此,功率更低-并且可能通道更宽),并且导致更小的覆盖面积。 然而,在302中SC较大,并且功率密度较高。 这些实现中的哪一个(301或302) “更好”取决于将被优化的特性。 在这个抽象层次,在整个系统被放置在一起前,不能说它们中的哪一个更差。
[0018] 更近来,新的发展已经证明了通过使得两个或更多电路平面薄至几百微米或更小,在其中蚀刻密集的通路图案,并且然后采用金属化处理使它们互连,来互连两个或更多电路平面是有生存能力的。得到的结构是由多个电路平面组成的单片“芯片”。 近来的这种发展提供了电路密度放缩的新维度,在下文中将其称为“3D”。
[0019] 因此,3D和SC似乎提供了许多相同的优点。 每种技术使得多个芯片能够被集成在较大的、单片实体内,该实体看上去是大得多的芯片。然而,应当注意在3D中,如果组成芯片上的电路可被布置为使得它们之间所需的互连中的大部分直接位于彼此之上(或之下),则与SC相比互连布线短得多。 大多数逻辑电路一般不能以这种方式布置,然而,对于存储器电路来说,这种布置可以很好地工作。例如,提交于2006年6月16日的题目为“用于以三维结构在高速缓存分层结构中的层之间实现非常高的带宽的方法,以及由此得到的三维结构”的在先美国专利申请No.11/453,885教导了一种利用3D技术构造以非常低的功率在层之间提供前所未有的带宽量的高速缓存分层结构的方法,因此通过引用将其整体结合在此。
[0020] 图4示出了如美国专利申请No.11/453,885(通过引用其被整体结合在此)中所述,仅使用3D堆叠技术构建的系统。该现有技术利用在各个高速缓存内的位按照某种方法放置的情况下3D在高速缓存分层结构的层之间提供的巨大带宽。因此,为了利用该带宽机会,该现有技术将L1.5 103和L2 104分开作为堆叠在彼此顶部的单独的芯片。
[0021] 代替4内核芯片105,去除了L2 104,并且组装覆盖与以前的4内核组件105相同面积的仅包含处理器101和L1.5 103的新芯片401。 在图4中,新芯片401包含具有其相应的L1.5 103的12个内核101。 将L2 102和L3 201的层组装到新芯片402内,新芯片402具有与新的12内核芯片401相同的覆盖面积,从而创建高速缓存分层结构。然后堆叠这些芯片401和402以便形成12内核系统403。
[0022] 这种新系统403的优点是:
[0023] 1.整个12路系统现在具有与仅是子系统的早先的4路芯片相同的覆盖面积。即,该单插座(socket)12路系统不需要任何更多的中间封装层。
[0024] 2.取决于堆叠的芯片数目,存在以下潜力,即包括比标准封装中的面积将具有的高速缓存多得多的高速缓存。
[0025] 3.高速缓存分层结构的层之间的总线可以极宽,并且极短,在低功率下提供了前所未有的带宽数量。
[0026] 然而,该系统的某些限制可能限制产品解决方案的范围:
[0027] 1.高速缓存的总容量受可被合理地堆叠在芯片内的层的数量限制。
[0028] 2.存在比可使用常规冷却散除的更大的功率密度的可能。
[0029] 3.当堆叠高时热阻增加,进一步使冷却复杂化。
[0030] 4.为了整个芯片堆叠能够发挥作用,必须对每层进行设计和构建,导致较长的开发时间和掩蔽层和集成的成本。
[0031] SC和3D解决方案都不能完全解决当试图以更大密度制造多内核处理器时所遇到的问题。 因此,需要解决如上所述的现有技术的问题。

发明内容

[0032] 根据本发明的优选实施例,一种计算机芯片结构和计算机系统具有至少一个单层芯片,至少一个多层芯片堆叠,以及载体封装,其特征在于小于100微米直径的电互连(interconnection),其中该单层芯片和多层芯片堆叠中的每一个电耦合到载体封装的电互连,并且该单层芯片通过载体封装通信地耦合到该多层芯片堆叠,从而电信号在该单层芯片和该多层芯片堆叠之间的给定距离上大体上以对于单层芯片在该给定距离上的传输速度传输。
[0033] 在一个实施例中,单层芯片是具有单个或多个内核的处理器,并且多层芯片是存储器高速缓存堆叠。
[0034] 单层芯片和多层芯片堆叠中的至少一个通过互连通路电耦合到载体封装。 该互2
连通路具有每平方厘米至少2500个互连那么大的密度(2500互连/cm)。
[0035] 在一个实施例中,载体封装还包含多个集成去耦电容器,在与所述单层芯片和多层芯片堆叠所电耦合的侧相对的载体封装的侧上,每个去耦电容器物理地直接定位在互连通路(interconnect via)之下。
[0036] 借助于直接定位在单层芯片的互连通路之下的集成去耦电容器将功率传递到单层芯片,并且借助于直接定位在多层芯片堆叠的互连通路之下的集成去耦电容器将功率传递到多层芯片堆叠。
[0037] 借助于硅通路、电互连、热通路、热互连、或热分界面材料,创建互连通路。由硅、具有累积层(build up layer)的有机材料、没有累积层的有机材料、具有纤维增强的有机材料、或没有纤维增强的有机材料制成载体封装。
[0038] 在一个实施例中,载体封装具有第一表面平面和与第一表面平面相对的第二表面平面,并且单层芯片和多层芯片堆叠被物理地定位在载体封装的相同表面平面上。 另外,该计算机芯片结构具有热耦合到单层芯片的顶侧的第一冷却结构,和热耦合到多层芯片堆叠的底侧的第二冷却结构,其提供了至少两条独立的热路径。 借助于电通路、电互连、热通路、热互连、和热分界面材料中的至少一个创建每个热路径。
[0039] 在另一个实施例中,载体封装包括第一表面平面和与第一表面平面相对的第二表面平面,并且单层芯片和多层芯片堆叠被物理地定位在载体封装的相对表面平面上,使得层内总线中的水平布线距离最小。
[0040] 在另一个实施例中,该计算机芯片结构包含第二载体封装,其通过互连通路电耦合到至少一个多层芯片堆叠。 第二载体封装被热耦合到多层芯片堆叠以便提供第二个独立的散热路径。
[0041] 在另一个实施例中,该计算机芯片结构包含多个多层芯片堆叠和以小于100微米直径的电互连为特征的载体封装,其中每个多层芯片堆叠电耦合到载体封装的电互连,并且通过载体封装通信地耦合到至少一个其他多层芯片堆叠,从而电信号在多层芯片堆叠之间的给定距离上大体上以对于单层芯片在该给定距离上的传输速度传输。

附图说明

[0042] 在附图中,在全部单独的附图中以相同的附图标记指示相同或功能相似的元件,这些附图和下面的详细说明一起被结合在本说明书中并且形成本说明书的一部分,用于进一步说明根据本发明的各种实施例,以及解释各种原理和优点。
[0043] 图1是示出了具有其高速缓存分层结构的现有技术的单核以及现有技术的多核芯片的方框图;
[0044] 图2是示出了使用图1的多核芯片的现有技术的双芯片模块以及由双芯片模块构成的16处理器系统的方框图;
[0045] 图3是示出了现有技术的硅载体(SC)上的16路多芯片和可由SC和二级封装制成或可单独由大SC制成的两个可能的现有技术系统的方框图;
[0046] 图4是示出了使用3D技术在与多内核芯片相同的覆盖面积上形成的具有高速缓存分层结构的现有技术的12路处理器系统的方框图;
[0047] 图5是示出了根据本发明的一个实施例的使用SC和3D技术的组合的示例24路单插座处理器系统的方框图;
[0048] 图6是示出了根据本发明的一个实施例的,通过对系统进行划分,具有被包含在多个垂直塔内的巨大高速缓存的示例24路处理器系统的方框图;
[0049] 图7是强调按本发明的实施例提出的方式将多处理器插入插座时示例系统板的简单性的方框图;
[0050] 图8是使用SC和3D技术的组合的根据本发明的另一个实施例的示例24路单插座处理器系统的方框图。
[0051] 图9是图5的24路单插座处理器系统的更详细的方框图,示出了根据本发明的实施例的示例冷却技术。

具体实施方式

[0052] 术语概述
[0053] 如所要求的,在此处公开了本发明的具体实施例;然而,应当理解公开的实施例仅是本发明的示例,还可以用各种形式实现本发明。 因此,此处公开的特定结构和功能的细节不应被解释为限制,而仅是权利要求的基础,并且是用于以实际和适当的详细的结构教导本领域的技术人员不同地采用本发明的有代表性的基础。 另外,此处使用的术语和短语并非旨在作为限制,而是旨在提供对本发明的可理解的描述。
[0054] 此处使用的术语“一”( “a”或“an”)定义为“一个或多于一个”。 此处使用的术语“多个”定义为“两个或多于两个”。 此处使用的术语“另一个”定义为“至少第二个或更多”。 此处使用的术语“包含”和/或“具有”定义为“包括”(即,开放式语言)。 此处使用的术语“耦合”定义为“连接”,但是这不必是直接地,并且不必是机械地。 术语“控件”、“按钮”、“旋钮”和“开关”被可互换地使用,以便指示用户用以控制一件装置、器具或设备的功能的机械装置。 此处使用的术语“程序”、“软件应用程序”等定义为“设计为用于在计算机系统上执行的指令序列”。 程序、计算机程序、或软件应用程序通常包括子例程、函数、过程、对象方法、对象实现、可执行应用程序、小应用程序(applet)、小服务程序(servlet)、源代码、目标代码、共享库/动态加载库和/或设计为在计算机上执行的其它指令序列。
[0055] 概述
[0056] 根据一个实施例,通过将组合了3D和SC技术的新系统结构定位为相互协作的技术,而不是将3D和SC技术视为互相竞争的技术,本发明克服了现有技术的问题。 利用每种技术的强项补偿另一种的弱点。 以这种方式,构造了远远超出可由任意一种技术自身实现的规模的系统。
[0057] 虽然由于3D和SC为了实现类似的目标采用不同的方法(即,将多个芯片聚集为一个),3D和SC看来是“竞争”的技术,但还是存在一些细微的不同。 三个最大的不同是:
[0058] 1.在电路被布置为所需的互连直接在彼此“之上和之下”的情况下,得到的3D总线将是毫米尺度上的(即,主要是在垂直堆叠内),因此它们可以非常快,并且功率相对低。 在SC中,相同的总线将是厘米尺度上的,并且将不是那么快或那么有效。
[0059] 2.采用SC,将被互连的所有芯片必须被布置在平面内。 因此,如果有许多芯片(诸如具有存储器系统),聚集体的覆盖面积将非常大。 这可能是对下一级封装上的空间的非常低效的使用。 另外,对于可以以成本有效的方式制造多大的SC存在限制。 因此,仅可以合理地集成数目落在该限制内的组成芯片。
[0060] 3.在3D中,当很多平面被堆积在堆叠内时,总功率密度可能变得太高,并且导致向堆叠内的功率传递和堆叠内所有芯片的冷却两方面的挑战,尤其如果使用低成本的标准冷却方法则更是如此。 同时,热阻随着堆叠的高度增加,使得这个问题更加复杂。当整个系统(包括处理器)在堆叠内时,这尤其成问题,其中通常处理器可能是高功率密度芯片,并且对于许多应用来说需要有效的冷却。
[0061] 本发明的一个实施例提供了优于现有技术的两个主要改进。 首先,将通常位于处理器之外的所有高速缓存级(即,高于L1的所有高速缓存级)移出处理器芯片。 这允许包含内核的逻辑芯片比以前所实现的更加逻辑密集。
[0062] 关于制造集成具有大量高速缓存的逻辑电路(处理器)的多芯片处理器系统一个永恒的问题来源是将低产率(low-yield)组件与存储器组合以便制作大的芯片。 该处理器内核对于存储器可能缺少简单冗余,从而导致了低产率问题。 处理器和存储器的组合增加了与产品产率相关的风险,并且因此使得系统昂贵。 通过去除所有高速缓存,整个芯片区域完全被内核消耗。 由于通过简单增加一些额外的内核,而不增加它们的高速缓存可能需要的所有面积,实现了冗余,故较低了产率损失。
[0063] 优于现有技术的第二个改进是既未增加对最热组件(处理器芯片)的功率密度也未增加其热阻。 这允许内核操作于更高功率状态,如果需要的话,通过给处理器提供区域阵列功率供给,给处理器芯片的相反侧提供区域阵列冷却,而不需要通过堆叠中的其它芯片将热从处理器芯片移到热沉,实现了更高的性能。
[0064] 在现有技术的通过使用3D技术创建的12内核系统403中,通过将内核处理器101和L1.5级存储器高速缓存103与分层结构中的较高级高速缓存分离开,显著地增加了逻辑密度。 得到的12内核芯片401被设计为与每层的高速缓存存储器102、201共享相同的覆盖面积,使得能够进行层的垂直堆叠。
[0065] 图5所示的本发明的示例实施例就是基于该概念,通过进一步从12内核芯片401中去除L1.5存储器,并且以附加的内核101填充L1.5103腾出的区域而建立的。 这得到具有与原始12内核芯片401相同面积的24内核全逻辑芯片501。接着,创建仅包含L1.5存储器103新的芯片层502。
[0066] 使用互补的3D和SC技术组装附加的L2 104和L3 201芯片。 例如,产生所有存储器高速缓存(L1.5、L2和L3)的3D堆叠503并在载体封装504上与24内核逻辑芯片501相邻地安装。 将组成芯片501、503连接到封装504的互连具有小于100微米的2
节距,意味着大于2500个互连每平方厘米(2500/cm)的互连密度。 24内核层502和高速缓存堆叠503之间的数据总线路线经过载体封装504。 这得到单插座的24路完整系统
505。
[0067] 注意在常规的理解中,与全内核芯片501相邻地放置全L1.5芯片502似乎是不利的,这是由于内核101中的某一些将位于远离它们各自的L1.5 103的位置处,需要长的路线用于数据信号传输。然而,有两个缓解因素。 首先,取决于所涉及的区域和所实现的L1.5层502的数目,可以通过增加L1.5 502的容量(这减少了它们的未命中率)减轻由于这些潜在的增加的延迟周期引起的性能损失。 其次,可将高速缓存堆叠503分为多个堆叠,并且沿着处理器芯片的所有边定位以便缩短该距离。 图6示出了定位多个高速缓存堆叠601的一种方式。 此处,24内核逻辑芯片501位于载体封装602的中心,4个高速缓存堆叠601围绕其定位。 注意在这个例子中,每个高速缓存堆叠601仅为24个处理器101中的6个服务。 如果这些高速缓存堆叠601中的每一个具有与原始芯片堆叠503可比的覆盖面积,由于芯片的覆盖面积仅需要容纳它们中的6个,则L1.5 502可以大得多。 因此,实际上,在多内核处理器和多层存储器高速缓存堆叠之间的给定距离上,电信号大体上以对于单层芯片在该给定距离上的传输速度传输。(就此而言,应当注意,如图6所示,处理器芯片501和高速缓存堆叠601不是按比例绘制的,而仅仅被强调了以便说明本发明的概念。 为了易于制造,每个高速缓存堆叠601的层实际上被变薄为使得所得到的高速缓存堆叠601的高度等同于处理器芯片501的高度。 )
[0068] 因此,对于本领域的技术人员来说,将L1.5 103从它们相应的处理器101中移出最初看来是违反直觉的,但是使用SC允许对于高速屏蔽信号的非常宽的总线,并且3D技术极大地增加了L1.5的容量。 另外,这个过程允许将更多的处理器安装在相同的逻辑芯片上。 因此,虽然将这两个组件分离可能对于本领域的技术人员来说看来是不合规律的,但是这样做在其它方面得到了更大的回报。
[0069] 虽然在上面的实施例中,高速缓存堆叠是L1之外的整个分层结构,需要某些水平布线跨过SC达到L1.5,但应当理解,这不必是划分的唯一方式。 例如,如果处理器芯片的功率密度不是难以适用的,则将L1.5层502堆叠在处理器芯片501之上,并且高速缓存塔(tower)503从L2级开始。
[0070] 图6的一种非常希望的特征是以3种方式实现附加的高速缓存容量。首先,由于有4个高速缓存塔601,而不是图5中所示的单个塔503,高速缓存容量至少变为4倍。第二,由于最热的组件(处理器101)被从塔601中去除,由于存在较小的功率密度,该堆叠可以被堆叠得更高。 因此,由于增加的堆叠高度,容量还可以增加2倍或更多。
第三,应当注意在图6中,SC 602的4角是空的。 可以在SC 602的角内放置附加的塔
601(例如,将高速缓存量加倍),或可以将其它功能,诸如I/O通道、光学收发器、或任意其它所希望的功能设置在这些角内。
[0071] 结合使用SC和3D创建的单插座系统与将SC和3D放在一起相比具有更多的处理器和更多的高速缓存存储器。 更令人惊讶地,虽然由于集成组件的数目增加,所有增加的处理器和高速缓存的总功率消耗较大,但是当以上面提出的方式划分时,功率密度小于较小容量的现有技术系统。 这是通过物理地将高功率处理器与低功率存储器组件隔离开实现的。 低功率存储器堆叠(SRAM和DRAM)于是被加倍,并且被建造为甚至高于以前可能的高度。 处理器和高速缓存塔之间的连接非常宽,使得能够实现具有合理小的覆盖面积的极其强大的插座。
[0072] 另外,更大且更强的系统处理器进一步简化了计算机系统的其余部分,并且改变了主板上的价值主张。 例如,如图7所示,24处理器6被放置在单个板700上。 注意,图6的24路系统600看上去如同是板700上的单个组件600。 板600上的仅有的其它组件是存储器系统701,其仅包括两列DIMM 701。由于板700上仅有单个组件600(除了DIMM之外),因此板布线将极其简单,并且板自身很便宜。
[0073] 图8示出了使用用于垂直3D集成的层叠封装(Package-on-Package)技术的本发明的另一个实施例。 在这个实施例中,以与图5所示相同的方式组装仅包含处理器内核101和L1存储器103的24内核逻辑芯片501。 然而,24内核逻辑芯片501然后安装在其自己的硅载体801上。使用3D技术组合存储器高速缓存503和L1.5存储器层502,并且将存储器高速缓存503夹在载有24内核逻辑芯片501的硅载体801和用于路线设计目的的附加载体802之间。 在这个层叠封装系统800中,集成去耦电容器803直接位于每个芯片或芯片堆叠之下,并且被使用互连来连接。 由于它们紧贴芯片电路,集成去耦电容器803借助于低电感路径提供去耦合,这提供了以下的优点,诸如,但不限于,减少的噪声、低电压电路操作、改进的电压分布(即,较低的电压降)、更高频率操作、以及它们的任意组合。 下部载体封装802可由各种材料制成,包括陶瓷、硅、和有机材料,诸如具有累积层的、没有累积层的、具有纤维增强的、没有纤维增强的有机封装。
[0074] 在一个实施例中,如上所述,在某些应用中通过具有集成去耦电容器803的附加益处的封装802向芯片501和芯片堆叠502、503提供功率传递。 通过保持处理器501与高速缓存芯片堆叠502、503分离,从而减少需要通过硅处理器501和高速缓存芯片堆叠502、503的功率传递连接数目,就功率传递而言本发明提供了优于现有技术的显著优点。这种附加区域以前应当被从处理器501和高速缓存芯片堆叠502、503中可使用的区域中去除掉,用于有源电路以及用于信号和电源布线。
[0075] 就冷却而言,由于现在存在分离的用于冷却处理器芯片501和高速缓存芯片堆叠502、503二者的多个独立的路径,因此本发明提供了优于现有3D技术的附加优点。由于处理器芯片501不再垂直安装在高速缓存堆叠502、503上,在处理器芯片501和高速缓存芯片堆叠502、503的顶侧和后侧提供冷却。 另外,芯片堆叠502、503的冷却被设计为利用高速缓存芯片堆叠502、503内的高速缓存芯片之间的垂直热互连805。 该热路径包括电互连、热通路、散热器和/或热互连。 在一个实施例中,热互连902受益于芯片堆叠内的芯片之间的附加金属通路,诸如铜通路和金属互连。 热互连包括对附加机械和热连接的使用,诸如增加的焊盘(pad)、焊料连接、热分界面材料(诸如填充的粘合剂)或备用装置(alternate means)。 使用广泛的装配模块选择,诸如散热器、热沉、热管、热鳍、空气冷却、液体冷却,诸如但不限于微通道冷却或模块级的工业中使用的冷却方法和结构的组合,来增强进一步的冷却。
[0076] 如图9所示的一个例子所示,有两个独立的冷却路径,诸如处理器芯片501顶侧处的冷却帽901;以及在芯片堆叠503的底部的另一个,其借助于热沉和在高速缓存堆叠503的底侧处到封装504的热连接。注意在散热器802的情况下,出于功率、电和机械完整性,散热器还作为封装802。
[0077] 如图9所示,另一个例子示出了放置在处理器层501的顶部的一个传统冷却表面901,和放置在高速缓存堆叠503的底部的第二载体封装801。 多冷却路径允许比仅使用
3D技术所能实现的更有效的冷却。
[0078] 图2和3的现有技术的子系统可能采用非常大的、复杂的板,或甚至多个板,以便实现24路系统。 在这些情况下,复杂程度可能将系统限制为最多16路系统。 通过增加集成程度,本发明使得能够实现更简单的物理系统。 新系统不仅是具有更高能力的系统(在处理器数目方面),而且由于具有短得多的总线,其是更加功率有效的;由于总线可以较宽,因此其更加性能有效;由于内核的冗余使得能够实现较低的产率损失,因此更为成本有效;并且能够具有较低的功率密度。
[0079] 虽然对本发明的特征的上述讨论强调应用SC和3D技术的组合,以便创建更大更有效的微处理器,但是应当注意,本发明的这些要素不限于微处理器设计。 本领域的技术人员应当清楚,使用SC和3D路线设计技术两者的芯片类型的任意组合(例如,单层芯片与多层芯片;或全为多层芯片)都落在本发明的范围内。
[0080] 非限制硬件和软件例子
[0081] 上述电路是集成电路芯片设计的一部分。 以图形计算机编程语言创建该芯片设计,并且将其存储在计算机存储介质内(诸如,盘、带、物理硬盘驱动器、或诸如存储访问网络内的虚拟硬盘驱动器)。如果设计者不制造芯片或不制造用于制造芯片的光刻掩模,设计者可以将得到的设计直接地或间接地通过物理装置(例如,通过提供存储该设计的存储介质的拷贝)或电子地(例如,通过Internet)传递给这种实体。 然后将存储的设计转换为用于制造光刻掩模的适当形式(例如,GDSII),其通常包括将在晶片上形成的所涉及的芯片设计的多个拷贝。 利用光刻掩模定义将被蚀刻或另外处理的晶片的区域(和/或其上的层)。
[0082] 上述方法用于集成电路芯片制造。 可由制造者以原晶片形式(即,作为具有多个未封装芯片的单个晶片)作为裸芯片、或以封装形式来分发所得到的集成电路芯片。在后者情况下,芯片被安装在单个芯片封装内(诸如塑料载体,其具有被固定到主板或另一更高层载体的导线),或安装在多芯片封装内(诸如,具有表面互连和隐埋互连之一或两者的陶瓷载体)。 在任意情况下,该芯片然后与其它芯片、分立电路元件、和/或其它信号处理设备集成作为(a)诸如主板的中间产品,或(b)终端产品的一部分。 该终端产品可以是包括集成电路芯片的任意产品,其范围从玩具和其它低端应用到具有显示器、键盘或其它输入设备、以及中央处理器的高级计算机产品。
[0083] 计算机系统可以包括,尤其是,一个或多个计算机和至少一个计算机可读介质,允许计算机系统从计算机可读介质读取数据、指令、消息或消息包、和其它计算机可读信息。该计算机可读介质可以包括非易失存储器,诸如ROM、闪存、盘驱动器存储器、CD-ROM和其它永久存储设备。 另外,该计算机可读介质可以包括例如易失存储设备,诸如RAM、缓冲器、高速缓存存储器和网络电路。另外,该计算机可读介质可以包括诸如网络链路和/或网络接口的瞬态介质中的计算机可读信息,包括允许计算机系统读取这种计算机可读信息的有线网络或无线网络。
[0084] 虽然已经公开了特定实施例,但是本领域的普通技术人员将会理解,可以改变这些特定实施例而不脱离本发明的精神和范围。 因此本发明的范围不限于这些特定实施例,并且希望以所附的权利要求覆盖本发明范围内的任意和所有这些应用、修改和实施例。