在片上系统内的阵列处理器的模块化集成专利检索-协处理器电脑零配件专利检索查询-专利查询网

积极推动地理标志专门立法

2022-03-10 地理标志，立法，知识产权
保护知识产权是对创新最大的激励

2022-03-10 保护知识产权，创新，激励
谢商华：加快制定知识产权基本法

2022-03-10 知识产权基本法
擦亮“双奥之城”品牌

2022-03-10 双奥，知识产权
让冰雪运动“热”力全开

2022-03-10 冰雪运动，知识产权
携手共奋进　走好强国路

2022-03-10 强国，知识产权
坚持创新引领　方能稳中求进

2022-03-10 创新，稳中求进，知识产权
答好“两张卷” 奋进新征程

2022-03-10 知识产权
专家解读政府工作报告中的创新和知识产权相关部署

2022-03-10 政府工作报告，创新，知识产权
今年政府工作报告指出：加强知识产权保护和运用

2022-03-10 政府工作报告，知识产权保护

在片上系统内的阵列处理器的模块化集成

阅读：752发布：2021-02-28

IPRDB可以提供在片上系统内的阵列处理器的模块化集成专利检索，专利查询，专利分析的服务。并且以与存在和新出现的SoC技术共存的形式，将一种脉动阵列处理器集成在芯片上的系统(SoC)内。可执行脉动阵列处理器，作为通用的数字信号处理器的协处理器或作为超长指令字(VLIW)处理器的功能单元。，下面是在片上系统内的阵列处理器的模块化集成专利的具体信息内容。

权利要求

1.一种对于主处理器(20)的协处理器(30)，具有比所述主处理器更大的执行速度，该协处理器包括处理单元(112)的二维阵列(108)，且通过具有机构的接口模块(40)与所述主处理器通信地连接，该机构用于在接口模块和阵列外围上的各个处理单元之间重新配置多个信息路径(122、124)，该协处理器进行数学运算，该数学运算的时序以沿着多个信息路径(122、124)的输入操作数流为基础，其中不同处理单元(112) 执行不同数学运算。

2.如权利要求1的协处理器，其中该阵列包括脉动处理阵列。

3.如权利要求1的协处理器，其中该信息路径与所述各个处理单元 (112)一对一地连接。

4.如权利要求1的协处理器，其中在阵列内的单元间连接是这样的，使得阵列的每个处理单元仅连接到其列相同且其行直接邻接的处理单元上，并且仅连接到其行相同且其列直接邻接的处理单元上。

5.如权利要求1的协处理器，包括阵列处理器(106)，该阵列处理器包括所述二维阵列。

6.如权利要求1的协处理器，其中所述阵列(108)是矩形的，并且所述外围包括位于所述阵列的第一行、最后一行、第一列和最后一列至少之一中的所述处理单元(112)。

7.如权利要求1的协处理器，其中所述主处理器(20)包括数字信号处理器。

8.如权利要求1的协处理器，其中所述主处理器(20)包括通用处理器。

9.一种协处理系统，包括协处理器(30)、接口模块(40)和主处理器(20)，协处理器(30)通过接口模块(40)与主处理器(20)通信地连接，该协处理器进行数学运算，该数学运算的时序以沿着多个信息路径(122、124)的输入操作数流为基础，其中不同处理单元(112)执行不同数学运算。

10.一种集成电路(102)，包括权利要求1的协处理器。

11.一种接收器(100)，包括权利要求10的集成电路。

12.一种具有处理单元(112)的二维阵列(108)且用作主处理器组件的功能单元(322)，该单元具有一个机构，用于将到阵列的多个处理器内信息路径(122、124)重新配置到阵列外围上的各个处理单元 (112)，该单元进行数学运算，该数学运算的时序以沿着多个信息路径 (122、124)的输入操作数流为基础，其中不同处理单元(112)执行不同数学运算。

13.如权利要求12的单元，其中所述的主处理器包括超长指令字处理器。

14.如权利要求12的单元，其中在阵列(108)内的单元间连接是这样的，使得阵列的每个处理单元(112)仅连接到其列相同且其行直接邻接的处理单元上，并且仅连接到其行相同且其列直接邻接的处理单元上。

15.如权利要求12的单元，进一步包括用于将多个阵列程序传输到所述处理单元(112)的相应预定子集(115)的装置。

16.一种系统，包括权利要求15的处理器，和用于生成待传输的阵列程序的阵列程序生成器(310)，且当需要时，更新程序，传输该更新的程序，且当需要时，同时将重配置信号传输到所述机构，以便相应地更新所述信息路径的当前稳态连接模式。

17.如权利要求16的系统，进一步包括编译器(312)，其配置为用于响应于所述程序更新，接收代表用于所述单元输入和输出时序的数据，并进一步配置为用于基于所述数据编译指令。

18.一种包括权利要求12的功能单元的集成电路(306)。

19.一种将协处理器(30)接口到主处理器(20)的方法，包括步骤：

配置协处理器以包括处理单元(112)的二维阵列(108)，且具有比所述主处理器更大的执行速度；以及通过具有机构(110)的接口模块(40)将协处理器通信地连接到所述的主处理器上，该机构(110)用于在接口模块和阵列外围上的各个处理单元之间重新配置多个信息路径(122、124)，该协处理器进行数学运算，该数学运算的时序以沿着多个信息路径(122、124)的输入操作数流为基础，其中不同处理单元(112)执行不同数学运算。

说明书全文

技术领域

本发明涉及包括阵列处理器作为功能单元或协处理器的集成电路上的处理系统，且尤其涉及包括可重新配置的阵列处理器的集成系统.

背景技术

嵌入式系统是为了整个系统内的特别目的或应用而专门设计的硬件和软件的某些组合，且可固定容量或可编程.例如，移动电话可具有节省功率的集成电路(IC)或“芯片”，其仅通过其各自类型的电话操作且专用于控制显示器和其它元件以保存功率.
相同的移动电话通常包括数字信号处理集成电路，其实现无线电通信数字部分上的功能.为了适合于输入信号的差别和/或改变无线电广播格式，希望是可编程的无线电通信.然而，数字无线电处理功能需要高数据采样率和高计算负载，其在可编程硬件上通常不能实现。
适应可编程硬件容量内的计算负载的典型方法是设计硬件加速模块，专用于高数据速率的有效计算和/或计算速率算法.可利用大量技术使加速器与可编程的处理器接口，其每个都允许可编程的处理器控制加速器的操作，以及正确地确定与加速器交换数据的时间.例如，通用的DSP或其它主机可具有在指令组处理器内可变化的一组内部寄存器地址，但绘制协处理器接口的输入和输出端口.加速器的输入和输出可连接到该接口上，且在可编程处理器的控制之下处理数据.以该方式，通过通用的器件可编程正确的数据交换。
在另一方法中，通用的可编程主机或DSP允许新的、高速的功能单元插入它的数据路径中.功能单元响应由分级控制器提供的指令操作码，并与根据由分级控制器指定的数据路径结构的内部寄存器文件和其它单元交换数据。
虽然这些方法完成了从可编程的处理器清除多余的计算负载，但它们依赖限制的加速器或不可编程，以完成密集的计算任务.以该方式，失去了重要元件的可编程。

发明内容

本发明涉及阵列处理器的集成，作为主机或主处理器重新配置的加速器，阵列处理器大大地超过了主机处理器的执行处理容量。协处理器包括处理单元的二维阵列。协处理器通过具有机构的接口模块与主机处理器通信地连接，该机构用于在接口模块和阵列外围上的各个单元之间重新配置信息路径。
另一方面，该发明涉及一种主机或主机处理器的功能单元，优选主机处理器是超长指令字(VLIW)处理器，且功能单元优选具体化为具有接口的处理单元的二维阵列，通过该接口可以重新配置经由阵列外围上的各单元到阵列的信息路径。
根据本发明的一个方面，提供了一种对于主处理器的协处理器，具有比所述主处理器更大的执行速度，该协处理器包括处理单元的二维阵列，且通过具有机构的接口模块与所述主处理器通信地连接，该机构用于在接口模块和阵列外围上的各个处理单元之间重新配置多个信息路径，该协处理器进行数学运算，该数学运算的时序以沿着多个信息路径的输入操作数流为基础，其中不同处理单元执行所述不同数学运算。
优选地，该阵列包括脉动处理阵列。
优选地，该信息路径与所述各个处理单元一对一地连接。
优选地，在阵列内的单元间连接是这样的，使得阵列的每个处理单元仅连接到其列相同且其行直接邻接的处理单元上，并且仅连接到其行相同且其列直接邻接的处理单元上。
优选地，该协处理器包括阵列处理器，该阵列处理器包括所述二维阵列。
优选地，所述阵列是矩形的，并且所述外围包括位于所述阵列的第一行、最后一行、第一列和最后一列至少之一中的所述处理单元。
优选地，所述主处理器包括数字信号处理器。
优选地，所述主处理器包括通用处理器。
根据本发明的另一方面，提供了一种协处理系统，包括协处理器、接口模块和主处理器，与接口模块和主处理器连接以提供主处理器到协处理器连接，该协处理器进行数学运算，该数学运算的时序以沿着多个信息路径的输入操作数流为基础，其中不同处理单元执行所述不同数学运算。
根据本发明的另一方面，提供了一种集成电路，包括上述的协处理器。
根据本发明的另一方面，提供了一种接收器，包括上述的集成电路。
根据本发明的另一方面，提供了一种具有处理单元的二维阵列且用作主处理器组件的功能单元，该单元具有一个机构，用于将到阵列的多个处理器内信息路径重新配置到阵列外围上的各个处理单元，该单元进行数学运算，该数学运算的时序以沿着多个信息路径的输入操作数流为基础，其中不同处理单元执行所述不同数学运算。
优选地，所述的主处理器包括超长指令字处理器。
优选地，在阵列内的单元间连接是这样的，使得阵列的每个处理单元仅连接到其列相同且其行直接邻接的处理单元上，并且仅连接到其行相同且其列直接邻接的处理单元上。
优选地，上述单元进一步包括用于将多个阵列程序传输到所述处理单元的相应预定子集的装置。
根据本发明的另一方面，提供了一种系统，包括权利要求上述的处理器，和用于生成待传输的阵列程序的阵列程序生成器，且当需要时，更新程序，传输该更新的程序，且当需要时，同时将重配置信号传输到所述机构，以便相应地更新所述信息路径的当前稳态连接模式。
优选地，所述系统进一步包括编译器，其配置为用于响应于所述程序更新，接收代表用于所述单元输入和输出时序的数据，并进一步配置为用于基于所述数据编译指令。
根据本发明的另一方面，提供了一种包括权利要求上述的功能单元的集成电路。
根据本发明的另一方面，提供了一种将协处理器接口到主处理器的方法，包括步骤：
配置协处理器以包括处理单元的二维阵列，且具有比所述主处理器更大的执行速度；以及
通过具有机构的接口模块将协处理器通信地连接到所述的主处理器上，该机构用于在接口模块和阵列外围上的各个处理单元之间重新配置多个信息路径，该协处理器进行数学运算，该数学运算的时序以沿着多个信息路径的输入操作数流为基础，其中不同处理单元执行所述不同数学运算。
以下，将借助于以下列出的附图描述在此公开的本发明的详细说明，其中在几个视图中相同或相似的组件由相同的附图标记表示：

附图说明

图1是阐明根据本发明的处理器/协处理器结构的方块图；
图2是示出具有根据本发明的嵌入式阵列处理器的器件实例的示意图；
图3是实现图2的阵列处理器作为VLIW处理器内的功能单元的方块图；以及
图4是一组流程图，描述了在初始化和更新程序以在图3的阵列处理器上执行时处理的示范性流程。

具体实施方式

图1描述了在通用的数字信号处理器(DSP)或微控制器20和其紧密耦合的协处理器30之间的连接设置10，实现为二维阵列的实例。协处理器30在执行某些类型操作时辅助DSP 20。常以每秒百万指令(MIPS)表示的协处理器30的执行速度比DSP 20的更快。因此，在划分处理器之间的功能性时，协处理器将具体化为高MIPS的信号链。协处理器30通过接口模块40与DSP 20通信地连接。DSP 20 利用存储器系统50。在一个实例中，DSP 20和其协处理器30借助接口模块40直接通信.在另一实施例中，接口模块40与存储器系统 50通信地连接，以由此提供DSP 20和协处理器30之间的通信路径或另外的通信路径.在后一实施例中，优选在模块20、30、50的一个或多个中实现处理器同步.
图2示出了设备的示范性实施例，该设备可配置为以结合图1示出的设置10.接收器100，诸如在广播或有线电视接收器中的接收器、局域网络无线接收器或移动电话接收器，包含IC 102.IC 102 包括嵌入式阵列处理器106.阵列处理器是能够执行对可由阵列构成的输入进行操作的指令的处理器.嵌入式阵列处理器106具有在图2 中示出的二维矩形阵列108和机构或接口110，以在所有四个边界上围绕阵列108.二维阵列108由处理单元112组成.
例如，可根据图1中的设置10配置IC 102，其中阵列108实现为阵列30且接口110对应于接口模块40.如以下所讨论的，对于实现IC 102构思了其它另外的备选方案.
优选地，在阵列108内的单元间连接是这样的，每个单元112仅连接到其列相同且其行直接相邻的单元112上，以及仅连接到其行相同和其列直接相邻的单元112上，以实现“最近的邻居(nearest neighbor)”连接体系结构，如2001年10月1日申请的美国专利公开No.2003/0065904(下文为｀904申请)的图2所示，其全部公开引入这里作为参考.由于单元间连接完全是最近的邻居，所以阵列提供了可扩展的灵活性.
在一个实施例中，接口110具有边界单元114，其连接到阵列108 外围上的每个各自的处理单元112上，每个边界单元114都具有缓冲器116。优选该外围由位于阵列边缘上即在第一行、最后一行、第一列和最后一列中至少一个中的处理单元112组成.由于在最近的邻居方案下，单元到单元的内部阵列连接对于每个拐角单元112来说留下两个邻居缺失，且对于阵列边缘上的每个其它单元112来说留下一个邻居缺失，因此为相应的边界单元114制作每一个缺失的连接.
而且包括在接口110中的是输入/输出(I/O)焊盘118，一个用于每个边界单元114和交错网络120，用于将每个I/O焊盘118一对一地重新配置连接到相应的边界单元114上.对于每个这种连接，形成了信息路径。图2示出了包括I/O焊盘118、交错网络120和边界单元114的信息路径122.重新配置路径使该路径横穿不同的边界单元114、不同的I/O焊盘118或者二者.路径124是路径112的重新配置，以横穿不同的边界单元114.经由每个边界单元中的局部选择机制而不是由交错网络，可替换地完成可重新配置的路由.
在优选的实施例中，阵列处理器106是脉动(systolic)的处理阵列，可以与用于输入操作数的装配线相象的专用系统，虽然通常操作没有在严格的直线方向上进行而在变化的方向上进行.在处理单元的二维阵列中，通过不同单元对数据进行不同的数学运算，而数据以有序地前后紧接的行进从一个单元前进到另一个单元.脉动阵列的一个实例是使矩阵相乘的阵列.一行条目乘以相应的一列条目，且乘积求和以产生有序的列之和.通过平行地设置要进行的操作，获得了效率，使得在最少的时钟周期中得到了结果.｀904申请提供了脉动处理阵列的另一实例，实现32-拍实时有限脉冲响应(FIR)滤波器. 通过将其它级、二维的或其他连接到初始二维阵列来增强滤波器，边界单元与每级外围上的处理单元相连.通过边界单元114连接的这种增强的阵列也在本发明所指的范围之内.
在一个实施例中，边界单元114不仅提供到阵列108的输入.它们还提供了到I/O焊盘118的阵列处理的结果.通过从生成结果的处理单元112的邻居与邻居的传递，使边界单元114接收这些结果.任选地，边界单元114可使该结果有效，并将数据有效信号输出到外部的处理，如DSP 20.
在优选的实施例中，IC 102包括存储器，如在存储器系统50中，借助总线113将阵列程序从该存储器下载到相应的处理单元112上。优选存储器是随机存取存储器(RAM)或其它的可写存储器件，使得如通过接收器100外部的阵列生成器可以提供更新的阵列程序.
可以是外部处理器的系统控制器将阵列程序传递给结构总线之上的嵌入式阵列处理器106的主单元126，如｀904申请的图16中示出的随机存取结构总线.如未决的以飞利浦公开703366为基础，专利申请标题为“DATAFLOW-SYNCHRONIZED EMBEDDED FIELD PROGRAMMABLE PROCESSOR ARRAY”，下文为“EFPPA申请”中所述，其全部公开并入这里作为参考，在系统初始化或一旦重新配置时，主单元126就将阵列程序发送给适当的处理单元112，例如对于处理阵列106执行新的算法.由于在脉动处理时固有的并行性，一些处理单元112可接收同样的程序.例如，可以将同样的程序下载到处理单元 112的子集，如图2中示出的子集115.EFPPA申请进一步论述了由边缘和主单元的处理和利用卡恩(Kahn)处理网络的优选实现.
阵列处理器106进行数学运算，其时序以沿着提供操作数给阵列 108的路径的输入操作数流为基础.
可利用图形用户界面(GUI)准备阵列程序，图形用户界面可以编辑和显示将要下载到IC 102上、且然后下载到每个编程单元112 的RAM的代码.
在图2的嵌入式阵列处理器106的可选示范性实现300中，图3 描述了主VLIW处理器302作为“电路中”可编程类型的EFPPA 304 的组件.在接收器308内包含的IC306上实现EFPPA 304.主VLIW 处理器302连接到芯片开发平台309上，且尤其连接到平台309内的阵列程序生成器310和编译器312上.阵列程序生成器310进一步连接到平台309的图形用户界面314上.
VLIW处理器302包括指令存储器316和指令发出寄存器318、共享的多端口寄存器文件320。而且包括在处理器302内且连接到相应的发布槽(issue slot)处的文件320和寄存器318的是多个功能单元。在1999年10月26日申请的美国专利No.5,974,537(以下为｀537专利)中提供了该VLIW体系结构的详细资料，其全部公开并入这里作为参考.例如，可以实现功能单元322，作为本申请中图2的嵌入式阵列处理器106，具有对应于IC 102的IC 306和具有对应于接收器100的接收器308.在｀537专利中，虽然没有将单元322限定为任意具体类型的处理，但功能单元322执行浮点指令。例如，在｀904 申请中公开了二维阵列，以执行对信道译码和其它应用有用的有限脉冲响应(FIR)滤波和快速傅里叶变换(FFT′s).
图4说明了初始化和更新将在图3的阵列处理器322上执行的程序的示范性流程.在系统初始化时，将由阵列程序产生器310生成的对于每个处理单元112的阵列程序(步骤402)下载到IC 306上的 RAM 324上(步骤404).系统控制器(未示出)将阵列程序顺序地下载到主单元126上，主单元126将它们分发到对应的阵列单元112 上。因此主单元126将多个阵列程序传输到处理单元112的对应预定的子集上，在一个或多个单元的每个子集中的单元接收同样的阵列程序。
当如由芯片开发平台309的用户经由GUI 314的交互式利用和借助阵列程序生成器310来更新阵列程序时(步骤406、408)，程序中的变化会影响功能单元322输入和/或输出的时序.在形成VLIW 指令时，编译器312需要知道用于调度目的的该时序变化.因此阵列程序生成器310更新该I/O时序数据，并将其传输给编译器312(步骤410).如上所述关于系统初始化，下载更新的阵列程序(步骤 412).阵列程序生成器310确定程序变化是否影响接口110的稳态连接模式.例如，稳态模式限定了，I/O焊盘118连接到在数学运算阶段的边界单元114，即，在运算的多个阶段数学运算会在阵列外围处接收输入操作数.如果程序更新改变了稳态模式(步骤414)，则阵列程序生成器310将重新配置信号发送给功能单元322(步骤 416).优选地，由主单元126接收信号，其然后影响了在纵横开关 (crossbar switch)120中需要的连接时序.
虽然已在图3的VLIW处理器302的上下文中描述了阵列程序功能性，但除了时序数据协议之外，相同的功能性也应用到图1的协处理器设置10上.事实上，如果执行协处理器实现为VLIW处理器，则甚至应用时序数据协议.
虽然已示出和描述了认为是本发明的优选实施例，当然将理解的是，在不脱离本发明的精神的条件下，可以容易地进行形式或细节上的各种修改和改变.例如，可选执行地，系统控制器104和RAM可代替地位于嵌入式阵列处理器106内.因此指的是本发明不局限于描述和说明的准确形式，但应当构建为覆盖可落入附加的权利要求书范围之内的所有修改.

标题	发布/更新时间	阅读量
协处理器-专利编号CN105930132A	2020-05-11	176
一种协处理器-专利编号CN102750127B	2020-05-12	407
ECC协处理器-专利编号CN102609239A	2020-05-11	383
ECC协处理器-专利编号CN102279725A	2020-05-11	427
一种协处理器-专利编号CN100489765C	2020-05-12	968
一种协处理器-专利编号CN102750127A	2020-05-13	602
一种协处理器-专利编号CN101082859A	2020-05-13	489
协处理器-专利编号CN105930132B	2020-05-11	524
滤波协处理器-专利编号CN1205133A	2020-05-12	398
模拟协处理器-专利编号CN108780492A	2020-05-13	912

在片上系统内的阵列处理器的模块化集成

技术领域

背景技术

发明内容

附图说明

具体实施方式

IPRDB

热门服务

关于我们

友情链接

联系方式