会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利库 / 电脑零配件 / 协处理器 / 在片上系统内的阵列处理器的模块化集成

在片上系统内的阵列处理器的模块化集成

阅读:752发布:2021-02-28

IPRDB可以提供在片上系统内的阵列处理器的模块化集成专利检索,专利查询,专利分析的服务。并且以与存在和新出现的SoC技术共存的形式,将一种脉动阵列处理器集成在芯片上的系统(SoC)内。可执行脉动阵列处理器,作为通用的数字信号处理器的协处理器或作为超长指令字(VLIW)处理器的功能单元。,下面是在片上系统内的阵列处理器的模块化集成专利的具体信息内容。

1.一种对于主处理器(20)的协处理器(30),具有比所述主处理 器更大的执行速度,该协处理器包括处理单元(112)的二维阵列(108), 且通过具有机构的接口模块(40)与所述主处理器通信地连接,该机构 用于在接口模块和阵列外围上的各个处理单元之间重新配置多个信息路 径(122、124),该协处理器进行数学运算,该数学运算的时序以沿着多 个信息路径(122、124)的输入操作数流为基础,其中不同处理单元(112) 执行不同数学运算。

2.如权利要求1的协处理器,其中该阵列包括脉动处理阵列。

3.如权利要求1的协处理器,其中该信息路径与所述各个处理单元 (112)一对一地连接。

4.如权利要求1的协处理器,其中在阵列内的单元间连接是这样的, 使得阵列的每个处理单元仅连接到其列相同且其行直接邻接的处理单元 上,并且仅连接到其行相同且其列直接邻接的处理单元上。

5.如权利要求1的协处理器,包括阵列处理器(106),该阵列处理 器包括所述二维阵列。

6.如权利要求1的协处理器,其中所述阵列(108)是矩形的,并 且所述外围包括位于所述阵列的第一行、最后一行、第一列和最后一列 至少之一中的所述处理单元(112)。

7.如权利要求1的协处理器,其中所述主处理器(20)包括数字信 号处理器。

8.如权利要求1的协处理器,其中所述主处理器(20)包括通用处 理器。

9.一种协处理系统,包括协处理器(30)、接口模块(40)和主处 理器(20),协处理器(30)通过接口模块(40)与主处理器(20)通信 地连接,该协处理器进行数学运算,该数学运算的时序以沿着多个信息 路径(122、124)的输入操作数流为基础,其中不同处理单元(112)执 行不同数学运算。

10.一种集成电路(102),包括权利要求1的协处理器。

11.一种接收器(100),包括权利要求10的集成电路。

12.一种具有处理单元(112)的二维阵列(108)且用作主处理器 组件的功能单元(322),该单元具有一个机构,用于将到阵列的多个处 理器内信息路径(122、124)重新配置到阵列外围上的各个处理单元 (112),该单元进行数学运算,该数学运算的时序以沿着多个信息路径 (122、124)的输入操作数流为基础,其中不同处理单元(112)执行不 同数学运算。

13.如权利要求12的单元,其中所述的主处理器包括超长指令字处 理器。

14.如权利要求12的单元,其中在阵列(108)内的单元间连接是 这样的,使得阵列的每个处理单元(112)仅连接到其列相同且其行直接 邻接的处理单元上,并且仅连接到其行相同且其列直接邻接的处理单元 上。

15.如权利要求12的单元,进一步包括用于将多个阵列程序传输到 所述处理单元(112)的相应预定子集(115)的装置。

16.一种系统,包括权利要求15的处理器,和用于生成待传输的阵 列程序的阵列程序生成器(310),且当需要时,更新程序,传输该更新 的程序,且当需要时,同时将重配置信号传输到所述机构,以便相应地 更新所述信息路径的当前稳态连接模式。

17.如权利要求16的系统,进一步包括编译器(312),其配置为用 于响应于所述程序更新,接收代表用于所述单元输入和输出时序的数据, 并进一步配置为用于基于所述数据编译指令。

18.一种包括权利要求12的功能单元的集成电路(306)。

19.一种将协处理器(30)接口到主处理器(20)的方法,包括步 骤:

配置协处理器以包括处理单元(112)的二维阵列(108),且具有比 所述主处理器更大的执行速度;以及通过具有机构(110)的接口模块(40)将协处理器通信地连接到所 述的主处理器上,该机构(110)用于在接口模块和阵列外围上的各个处 理单元之间重新配置多个信息路径(122、124),该协处理器进行数学运 算,该数学运算的时序以沿着多个信息路径(122、124)的输入操作数 流为基础,其中不同处理单元(112)执行不同数学运算。

说明书全文

技术领域

本发明涉及包括阵列处理器作为功能单元或协处理器的集成电 路上的处理系统,且尤其涉及包括可重新配置的阵列处理器的集成系 统.

背景技术

嵌入式系统是为了整个系统内的特别目的或应用而专门设计的 硬件和软件的某些组合,且可固定容量或可编程.例如,移动电话可 具有节省功率的集成电路(IC)或“芯片”,其仅通过其各自类型的 电话操作且专用于控制显示器和其它元件以保存功率.
相同的移动电话通常包括数字信号处理集成电路,其实现无线电 通信数字部分上的功能.为了适合于输入信号的差别和/或改变无线 电广播格式,希望是可编程的无线电通信.然而,数字无线电处理功 能需要高数据采样率和高计算负载,其在可编程硬件上通常不能实 现。
适应可编程硬件容量内的计算负载的典型方法是设计硬件加速 模块,专用于高数据速率的有效计算和/或计算速率算法.可利用大 量技术使加速器与可编程的处理器接口,其每个都允许可编程的处理 器控制加速器的操作,以及正确地确定与加速器交换数据的时间.例 如,通用的DSP或其它主机可具有在指令组处理器内可变化的一组内 部寄存器地址,但绘制协处理器接口的输入和输出端口.加速器的输 入和输出可连接到该接口上,且在可编程处理器的控制之下处理数 据.以该方式,通过通用的器件可编程正确的数据交换。
在另一方法中,通用的可编程主机或DSP允许新的、高速的功能 单元插入它的数据路径中.功能单元响应由分级控制器提供的指令操 作码,并与根据由分级控制器指定的数据路径结构的内部寄存器文件 和其它单元交换数据。
虽然这些方法完成了从可编程的处理器清除多余的计算负载,但 它们依赖限制的加速器或不可编程,以完成密集的计算任务.以该方 式,失去了重要元件的可编程。

发明内容

本发明涉及阵列处理器的集成,作为主机或主处理器重新配置的 加速器,阵列处理器大大地超过了主机处理器的执行处理容量。协处 理器包括处理单元的二维阵列。协处理器通过具有机构的接口模块与 主机处理器通信地连接,该机构用于在接口模块和阵列外围上的各个 单元之间重新配置信息路径。
另一方面,该发明涉及一种主机或主机处理器的功能单元,优选 主机处理器是超长指令字(VLIW)处理器,且功能单元优选具体化 为具有接口的处理单元的二维阵列,通过该接口可以重新配置经由阵 列外围上的各单元到阵列的信息路径。
根据本发明的一个方面,提供了一种对于主处理器的协处理器, 具有比所述主处理器更大的执行速度,该协处理器包括处理单元的二 维阵列,且通过具有机构的接口模块与所述主处理器通信地连接,该 机构用于在接口模块和阵列外围上的各个处理单元之间重新配置多个 信息路径,该协处理器进行数学运算,该数学运算的时序以沿着多个 信息路径的输入操作数流为基础,其中不同处理单元执行所述不同数 学运算。
优选地,该阵列包括脉动处理阵列。
优选地,该信息路径与所述各个处理单元一对一地连接。
优选地,在阵列内的单元间连接是这样的,使得阵列的每个处理 单元仅连接到其列相同且其行直接邻接的处理单元上,并且仅连接到 其行相同且其列直接邻接的处理单元上。
优选地,该协处理器包括阵列处理器,该阵列处理器包括所述二 维阵列。
优选地,所述阵列是矩形的,并且所述外围包括位于所述阵列的 第一行、最后一行、第一列和最后一列至少之一中的所述处理单元。
优选地,所述主处理器包括数字信号处理器。
优选地,所述主处理器包括通用处理器。
根据本发明的另一方面,提供了一种协处理系统,包括协处理器、 接口模块和主处理器,与接口模块和主处理器连接以提供主处理器到 协处理器连接,该协处理器进行数学运算,该数学运算的时序以沿着 多个信息路径的输入操作数流为基础,其中不同处理单元执行所述不 同数学运算。
根据本发明的另一方面,提供了一种集成电路,包括上述的协处 理器。
根据本发明的另一方面,提供了一种接收器,包括上述的集成电 路。
根据本发明的另一方面,提供了一种具有处理单元的二维阵列且 用作主处理器组件的功能单元,该单元具有一个机构,用于将到阵列 的多个处理器内信息路径重新配置到阵列外围上的各个处理单元,该 单元进行数学运算,该数学运算的时序以沿着多个信息路径的输入操 作数流为基础,其中不同处理单元执行所述不同数学运算。
优选地,所述的主处理器包括超长指令字处理器。
优选地,在阵列内的单元间连接是这样的,使得阵列的每个处理 单元仅连接到其列相同且其行直接邻接的处理单元上,并且仅连接到 其行相同且其列直接邻接的处理单元上。
优选地,上述单元进一步包括用于将多个阵列程序传输到所述处 理单元的相应预定子集的装置。
根据本发明的另一方面,提供了一种系统,包括权利要求上述的 处理器,和用于生成待传输的阵列程序的阵列程序生成器,且当需要 时,更新程序,传输该更新的程序,且当需要时,同时将重配置信号 传输到所述机构,以便相应地更新所述信息路径的当前稳态连接模式。
优选地,所述系统进一步包括编译器,其配置为用于响应于所述 程序更新,接收代表用于所述单元输入和输出时序的数据,并进一步 配置为用于基于所述数据编译指令。
根据本发明的另一方面,提供了一种包括权利要求上述的功能单 元的集成电路。
根据本发明的另一方面,提供了一种将协处理器接口到主处理器 的方法,包括步骤:
配置协处理器以包括处理单元的二维阵列,且具有比所述主处理 器更大的执行速度;以及
通过具有机构的接口模块将协处理器通信地连接到所述的主处理 器上,该机构用于在接口模块和阵列外围上的各个处理单元之间重新 配置多个信息路径,该协处理器进行数学运算,该数学运算的时序以 沿着多个信息路径的输入操作数流为基础,其中不同处理单元执行所 述不同数学运算。
以下,将借助于以下列出的附图描述在此公开的本发明的详细说 明,其中在几个视图中相同或相似的组件由相同的附图标记表示:

附图说明

图1是阐明根据本发明的处理器/协处理器结构的方块图;
图2是示出具有根据本发明的嵌入式阵列处理器的器件实例的示 意图;
图3是实现图2的阵列处理器作为VLIW处理器内的功能单元的 方块图;以及
图4是一组流程图,描述了在初始化和更新程序以在图3的阵列 处理器上执行时处理的示范性流程。

具体实施方式

图1描述了在通用的数字信号处理器(DSP)或微控制器20和 其紧密耦合的协处理器30之间的连接设置10,实现为二维阵列的实 例。协处理器30在执行某些类型操作时辅助DSP 20。常以每秒百万 指令(MIPS)表示的协处理器30的执行速度比DSP 20的更快。因 此,在划分处理器之间的功能性时,协处理器将具体化为高MIPS的 信号链。协处理器30通过接口模块40与DSP 20通信地连接。DSP 20 利用存储器系统50。在一个实例中,DSP 20和其协处理器30借助接 口模块40直接通信.在另一实施例中,接口模块40与存储器系统 50通信地连接,以由此提供DSP 20和协处理器30之间的通信路径 或另外的通信路径.在后一实施例中,优选在模块20、30、50的一 个或多个中实现处理器同步.
图2示出了设备的示范性实施例,该设备可配置为以结合图1示 出的设置10.接收器100,诸如在广播或有线电视接收器中的接收 器、局域网络无线接收器或移动电话接收器,包含IC 102.IC 102 包括嵌入式阵列处理器106.阵列处理器是能够执行对可由阵列构成 的输入进行操作的指令的处理器.嵌入式阵列处理器106具有在图2 中示出的二维矩形阵列108和机构或接口110,以在所有四个边界上 围绕阵列108.二维阵列108由处理单元112组成.
例如,可根据图1中的设置10配置IC 102,其中阵列108实现 为阵列30且接口110对应于接口模块40.如以下所讨论的,对于实 现IC 102构思了其它另外的备选方案.
优选地,在阵列108内的单元间连接是这样的,每个单元112仅 连接到其列相同且其行直接相邻的单元112上,以及仅连接到其行相 同和其列直接相邻的单元112上,以实现“最近的邻居(nearest neighbor)”连接体系结构,如2001年10月1日申请的美国专利公 开No.2003/0065904(下文为`904申请)的图2所示,其全部公开 引入这里作为参考.由于单元间连接完全是最近的邻居,所以阵列提 供了可扩展的灵活性.
在一个实施例中,接口110具有边界单元114,其连接到阵列108 外围上的每个各自的处理单元112上,每个边界单元114都具有缓冲 器116。优选该外围由位于阵列边缘上即在第一行、最后一行、第一 列和最后一列中至少一个中的处理单元112组成.由于在最近的邻居 方案下,单元到单元的内部阵列连接对于每个拐角单元112来说留下 两个邻居缺失,且对于阵列边缘上的每个其它单元112来说留下一个 邻居缺失,因此为相应的边界单元114制作每一个缺失的连接.
而且包括在接口110中的是输入/输出(I/O)焊盘118,一个用 于每个边界单元114和交错网络120,用于将每个I/O焊盘118一对 一地重新配置连接到相应的边界单元114上.对于每个这种连接,形 成了信息路径。图2示出了包括I/O焊盘118、交错网络120和边界 单元114的信息路径122.重新配置路径使该路径横穿不同的边界单 元114、不同的I/O焊盘118或者二者.路径124是路径112的重新 配置,以横穿不同的边界单元114.经由每个边界单元中的局部选择 机制而不是由交错网络,可替换地完成可重新配置的路由.
在优选的实施例中,阵列处理器106是脉动(systolic)的处理 阵列,可以与用于输入操作数的装配线相象的专用系统,虽然通常操 作没有在严格的直线方向上进行而在变化的方向上进行.在处理单元 的二维阵列中,通过不同单元对数据进行不同的数学运算,而数据以 有序地前后紧接的行进从一个单元前进到另一个单元.脉动阵列的一 个实例是使矩阵相乘的阵列.一行条目乘以相应的一列条目,且乘积 求和以产生有序的列之和.通过平行地设置要进行的操作,获得了效 率,使得在最少的时钟周期中得到了结果.`904申请提供了脉动处 理阵列的另一实例,实现32-拍实时有限脉冲响应(FIR)滤波器. 通过将其它级、二维的或其他连接到初始二维阵列来增强滤波器,边 界单元与每级外围上的处理单元相连.通过边界单元114连接的这种 增强的阵列也在本发明所指的范围之内.
在一个实施例中,边界单元114不仅提供到阵列108的输入.它 们还提供了到I/O焊盘118的阵列处理的结果.通过从生成结果的处 理单元112的邻居与邻居的传递,使边界单元114接收这些结果.任 选地,边界单元114可使该结果有效,并将数据有效信号输出到外部 的处理,如DSP 20.
在优选的实施例中,IC 102包括存储器,如在存储器系统50中, 借助总线113将阵列程序从该存储器下载到相应的处理单元112上。 优选存储器是随机存取存储器(RAM)或其它的可写存储器件,使得 如通过接收器100外部的阵列生成器可以提供更新的阵列程序.
可以是外部处理器的系统控制器将阵列程序传递给结构总线之 上的嵌入式阵列处理器106的主单元126,如`904申请的图16中示 出的随机存取结构总线.如未决的以飞利浦公开703366为基础,专 利申请标题为“DATAFLOW-SYNCHRONIZED EMBEDDED FIELD PROGRAMMABLE PROCESSOR ARRAY”,下文为“EFPPA申请”中所述, 其全部公开并入这里作为参考,在系统初始化或一旦重新配置时,主 单元126就将阵列程序发送给适当的处理单元112,例如对于处理阵 列106执行新的算法.由于在脉动处理时固有的并行性,一些处理单 元112可接收同样的程序.例如,可以将同样的程序下载到处理单元 112的子集,如图2中示出的子集115.EFPPA申请进一步论述了由 边缘和主单元的处理和利用卡恩(Kahn)处理网络的优选实现.
阵列处理器106进行数学运算,其时序以沿着提供操作数给阵列 108的路径的输入操作数流为基础.
可利用图形用户界面(GUI)准备阵列程序,图形用户界面可以 编辑和显示将要下载到IC 102上、且然后下载到每个编程单元112 的RAM的代码.
在图2的嵌入式阵列处理器106的可选示范性实现300中,图3 描述了主VLIW处理器302作为“电路中”可编程类型的EFPPA 304 的组件.在接收器308内包含的IC306上实现EFPPA 304.主VLIW 处理器302连接到芯片开发平台309上,且尤其连接到平台309内的 阵列程序生成器310和编译器312上.阵列程序生成器310进一步连 接到平台309的图形用户界面314上.
VLIW处理器302包括指令存储器316和指令发出寄存器318、共 享的多端口寄存器文件320。而且包括在处理器302内且连接到相应 的发布槽(issue slot)处的文件320和寄存器318的是多个功能 单元。在1999年10月26日申请的美国专利No.5,974,537(以下为 `537专利)中提供了该VLIW体系结构的详细资料,其全部公开并入 这里作为参考.例如,可以实现功能单元322,作为本申请中图2的 嵌入式阵列处理器106,具有对应于IC 102的IC 306和具有对应于 接收器100的接收器308.在`537专利中,虽然没有将单元322限定 为任意具体类型的处理,但功能单元322执行浮点指令。例如,在`904 申请中公开了二维阵列,以执行对信道译码和其它应用有用的有限脉 冲响应(FIR)滤波和快速傅里叶变换(FFT′s).
图4说明了初始化和更新将在图3的阵列处理器322上执行的程 序的示范性流程.在系统初始化时,将由阵列程序产生器310生成的 对于每个处理单元112的阵列程序(步骤402)下载到IC 306上的 RAM 324上(步骤404).系统控制器(未示出)将阵列程序顺序地 下载到主单元126上,主单元126将它们分发到对应的阵列单元112 上。因此主单元126将多个阵列程序传输到处理单元112的对应预定 的子集上,在一个或多个单元的每个子集中的单元接收同样的阵列程 序。
当如由芯片开发平台309的用户经由GUI 314的交互式利用和借 助阵列程序生成器310来更新阵列程序时(步骤406、408),程序 中的变化会影响功能单元322输入和/或输出的时序.在形成VLIW 指令时,编译器312需要知道用于调度目的的该时序变化.因此阵列 程序生成器310更新该I/O时序数据,并将其传输给编译器312(步 骤410).如上所述关于系统初始化,下载更新的阵列程序(步骤 412).阵列程序生成器310确定程序变化是否影响接口110的稳态 连接模式.例如,稳态模式限定了,I/O焊盘118连接到在数学运算 阶段的边界单元114,即,在运算的多个阶段数学运算会在阵列外围 处接收输入操作数.如果程序更新改变了稳态模式(步骤414),则 阵列程序生成器310将重新配置信号发送给功能单元322(步骤 416).优选地,由主单元126接收信号,其然后影响了在纵横开关 (crossbar switch)120中需要的连接时序.
虽然已在图3的VLIW处理器302的上下文中描述了阵列程序功 能性,但除了时序数据协议之外,相同的功能性也应用到图1的协处 理器设置10上.事实上,如果执行协处理器实现为VLIW处理器,则 甚至应用时序数据协议.
虽然已示出和描述了认为是本发明的优选实施例,当然将理解的 是,在不脱离本发明的精神的条件下,可以容易地进行形式或细节上 的各种修改和改变.例如,可选执行地,系统控制器104和RAM可代 替地位于嵌入式阵列处理器106内.因此指的是本发明不局限于描述 和说明的准确形式,但应当 构建为覆盖可落入附加的权利要求书范围 之内的所有修改.
高效检索全球专利

IPRDB是专利检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,专利查询、专利分析

电话:13651749426

侵权分析

IPRDB的侵权分析产品是IPRDB结合多位一线专利维权律师和专利侵权分析师的智慧,开发出来的一款特色产品,也是市面上唯一一款帮助企业研发人员、科研工作者、专利律师、专利分析师快速定位侵权分析的产品,极大的减少了用户重复工作量,提升工作效率,降低无效或侵权分析的准入门槛。

立即试用