系统级芯片non-Cacheable数据的访问方法、装置及电子设备转让专利

申请号 : CN202310055479.8

文献号 : CN115794673B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 姜莹王海洋

申请人 : 北京象帝先计算技术有限公司

摘要 :

本公开提供一种系统级芯片non‑Cacheable数据的访问方法、装置及电子设备,所述系统级芯片包括多个IP模块以及片上缓存,所述多个IP模块共享所述片上缓存;所述方法包括:获取任一IP模块发送的non‑Cacheable写访问;所述non‑Cacheable写访问用于将目标数据写入内存的目标地址;确定所述non‑Cacheable写访问所针对的目标地址;在片上缓存中查找目标缓存行;其中,目标缓存行为待写回内存的缓存行,且对应的内存地址与所述目标地址位于同一内存页;将目标缓存行中的数据和所述目标数据连续写入内存。

权利要求 :

1.一种系统级芯片non‑Cacheable数据的访问方法,其特征在于,所述系统级芯片包括多个IP模块以及片上缓存,所述多个IP模块共享所述片上缓存;所述方法包括:获取任一IP模块发送的non‑Cacheable写访问;所述non‑Cacheable写访问用于将目标数据写入内存的目标地址;

确定所述non‑Cacheable写访问所针对的目标地址;

在片上缓存中查找目标缓存行;其中,目标缓存行为待写回内存的缓存行,且对应的内存地址与所述目标地址位于同一内存页;将目标缓存行中的数据和所述目标数据连续写入内存;

若片上缓存中不存在目标缓存行,且片上缓存有空闲缓存行,则将所述目标数据写入任一空闲缓存行;若片上缓存中不存在目标缓存行,且片上缓存没有空闲缓存行,则遍历片上缓存,查找被标记有预定义标识的缓存行为替换缓存行,将替换缓存行中的数据写回至内存,并将所述目标数据写入至该替换缓存行;其中,被标记有预定义标识的缓存行为:存储有non‑Cacheable写访问对应的目标数据的缓存行。

2.根据权利要求1所述的方法,其特征在于,所述将替换缓存行中的数据写回至内存包括:查找内存地址与所述替换缓存行对应的内存地址,位于同一内存页的其他待写回内存的缓存行;将替换缓存行和所确定的其他待写回内存的缓存行中的数据连续写回至内存。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

在片上缓存中查找内存地址与所述目标地址位于同一内存页的待写回内存的缓存行;

在接收到刷新指令或者在内存带宽空闲时,将查找到的待写回内存的缓存行中的数据以及目标数据连续写入至内存。

4.一种系统级芯片non‑Cacheable数据的访问装置,其特征在于,所述系统级芯片包括多个IP模块以及片上缓存,所述多个IP模块共享所述片上缓存;所述装置包括:获取模块,用于获取任一IP模块发送的non‑Cacheable写访问;所述non‑Cacheable写访问用于将目标数据写入内存的目标地址;

确定模块,用于确定所述non‑Cacheable写访问所针对的目标地址;

查找模块,用于在片上缓存中查找目标缓存行;其中,目标缓存行为待写回内存的缓存行,且对应的内存地址与所述目标地址位于同一内存页;

写入模块,用于将目标缓存行中的数据和所述目标数据连续写入内存;若片上缓存中不存在目标缓存行,且片上缓存有空闲缓存行,则将所述目标数据写入任一空闲缓存行;若片上缓存中不存在目标缓存行,且片上缓存没有空闲缓存行,则遍历片上缓存,查找被标记有预定义标识的缓存行为替换缓存行,将替换缓存行中的数据写回至内存,并将所述目标数据写入至该替换缓存行;其中,被标记有预定义标识的缓存行为:存储有non‑Cacheable写访问对应的目标数据的缓存行。

5.根据权利要求4所述的装置,其特征在于,

所述写入模块,具体用于查找内存地址与所述替换缓存行对应的内存地址,位于同一内存页的其他待写回内存的缓存行;将替换缓存行和所确定的其他待写回内存的缓存行中的数据连续写回至内存。

6.根据权利要求4所述的装置,其特征在于,

所述写入模块,还用于在片上缓存中查找内存地址与所述目标地址位于同一内存页的待写回内存的缓存行;

在接收到刷新指令或者在内存带宽空闲时,将查找到的待写回内存的缓存行中的数据以及目标数据连续写入至内存。

7.一种图形处理系统,其特征在于,包括上述权利要求4‑6任一项所述的系统级芯片non‑Cacheable数据的访问装置。

8.一种电子组件,其特征在于,包括权利要求7所述的图形处理系统。

9.一种电子设备,其特征在于,包括权利要求8所述的电子组件。

说明书 :

系统级芯片non‑Cacheable数据的访问方法、装置及电子设备

技术领域

[0001] 本公开涉及计算机技术领域,尤其涉及一种系统级芯片non‑Cacheable数据的访问方法、装置、及电子设备。

背景技术

[0002] 系统级芯片上往往部署有多个IP模块,各个IP模块通常都有访问片外内存的访问需求。实际应用中,各个IP模块的访问通常被分为Cacheable和non‑Cacheable两类访问。其中,Cacheable访问是指利用缓存即Cache对访问数据进行存储的访问,non‑Cacheable访问是指直接访问内存,而不使用缓存对访问数据进行存储的访问。
[0003] 系统级芯片上的多个模块,会发起较多的non‑Cacheable访问,而不同的non‑Cacheable访问通常会访问内存的不同位置,其中多个针对内存不同位置的non‑Cacheable写访问,需要在内存中不断的切换访问地址然后写入数据,这种处理non‑Cacheable写访问的方式无法充分利用内存的带宽。

发明内容

[0004] 本公开的目的是提供一种系统级芯片non‑Cacheable数据的访问方法、装置、以及电子设备。
[0005] 根据本公开的第一个方面,提供一种系统级芯片non‑Cacheable数据的访问方法,[0006] 所述系统级芯片包括多个IP模块以及片上缓存,所述多个IP模块共享所述片上缓存;所述方法包括:
[0007] 获取任一IP模块发送的non‑Cacheable写访问;所述non‑Cacheable写访问用于将目标数据写入内存的目标地址;
[0008] 确定所述non‑Cacheable写访问所针对的目标地址;
[0009] 在片上缓存中查找目标缓存行;其中,目标缓存行为待写回内存的缓存行,且对应的内存地址与所述目标地址位于同一内存页;
[0010] 将目标缓存行中的数据和所述目标数据连续写入内存。
[0011] 在一种实施方式中,方法还包括:
[0012] 若片上缓存中不存在目标缓存行,且片上缓存有空闲缓存行,则将所述目标数据写入任一空闲缓存行。
[0013] 在一种实施方式中,方法还包括:
[0014] 若片上缓存没有空闲缓存行,则利用预设的替换算法确定当前片上缓存中的任一缓存行为替换缓存行,将替换缓存行中的数据写回至内存,并将所述目标数据写入至该替换缓存行。
[0015] 在一种实施方式中,所述预设的替换算法,包括:
[0016] 遍历片上缓存,查找被标记有预定义标识的缓存行为替换缓存行;其中,被标记有预定义标识的缓存行为:存储有non‑Cacheable写访问对应的目标数据的缓存行。
[0017] 在一种实施方式中,所述将替换缓存行中的数据写回至内存包括:
[0018] 查找内存地址与所述替换缓存行对应的内存地址,位于同一内存页的其他待写回内存的缓存行;将替换缓存行和所确定的其他待写回内存的缓存行中的数据连续写回至内存。
[0019] 在一种实施方式中,所述方法还包括:
[0020] 在片上缓存中查找内存地址与所述目标地址位于同一内存页的待写回内存的缓存行;
[0021] 在接收到刷新指令或者在内存带宽空闲时,将查找到的待写回内存的缓存行中的数据以及目标数据连续写入至内存。
[0022] 根据本公开的第二个方面,提供一种系统级芯片non‑Cacheable数据的访问装置,所述系统级芯片包括多个IP模块以及片上缓存,所述多个IP模块共享所述片上缓存;所述装置包括:
[0023] 获取模块,用于获取任一IP模块发送的non‑Cacheable写访问;所述non‑Cacheable写访问用于将目标数据写入内存的目标地址;
[0024] 确定模块,用于确定所述non‑Cacheable写访问所针对的目标地址;
[0025] 查找模块,用于在片上缓存中查找目标缓存行;其中,目标缓存行为待写回内存的缓存行,且对应的内存地址与所述目标地址位于同一内存页;
[0026] 写入模块,用于将目标缓存行中的数据和所述目标数据连续写入内存。
[0027] 在一种实施方式中,所述写入模块,还用于在片上缓存中不存在目标缓存行,且片上缓存有空闲缓存行的情况下,将所述目标数据写入任一空闲缓存行。
[0028] 在一种实施方式中,所述写入模块,还用于在片上缓存没有空闲缓存行的情况下,利用预设的替换算法确定当前片上缓存中的任一缓存行为替换缓存行,将替换缓存行中的数据写回至内存,并将所述目标数据写入至该替换缓存行。
[0029] 在一种实施方式中,所述预设的替换算法,包括:
[0030] 遍历片上缓存,查找被标记有预定义标识的缓存行为替换缓存行;其中,被标记有预定义标识的缓存行为:存储有non‑Cacheable写访问对应的目标数据的缓存行。
[0031] 在一种实施方式中,所述写入模块,具体用于查找内存地址与所述替换缓存行对应的内存地址,位于同一内存页的其他待写回内存的缓存行;将替换缓存行和所确定的其他待写回内存的缓存行中的数据连续写回至内存。
[0032] 在一种实施方式中,所述写入模块,还用于在片上缓存中查找内存地址与所述目标地址位于同一内存页的待写回内存的缓存行;
[0033] 在接收到刷新指令或者在内存带宽空闲时,将查找到的待写回内存的缓存行中的数据以及目标数据连续写入至内存。
[0034] 根据本公开的第三个方面,提供一种图形处理系统,包括上述第二方面所述的系统级芯片的内存访问装置。
[0035] 根据本公开的第四个方面,提供一种电子组件,包括上述第三个方面所述的图形处理系统。
[0036] 根据本公开的第五个方面,提供一种电子设备,包括上述第四个方面所述的电子组件。
[0037] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

[0038] 图1为本公开一个实施例提供的系统级芯片中的结构示意图;
[0039] 图2为本公开一个实施例提供的内存和缓存直接映射的结构示意图;
[0040] 图3为本公开一个实施例提供的内存和缓存组相联映射的结构示意图;
[0041] 图4为本公开一个实施例提供的内存和缓存全相联映射的结构示意图;
[0042] 图5为本公开一个实施例提供的缓存行地址的结构示意图;
[0043] 图6为本公开一个实施例提供的缓存中缓存行的结构示意图;
[0044] 图7为本公开一个实施例提供的一种系统级芯片non‑Cacheable数据的访问方法的流程示意图;
[0045] 图8为本公开一个实施例提供的另一种系统级芯片non‑Cacheable数据的访问方法的流程示意图;
[0046] 图9为本公开一个实施例提供的一种系统级芯片non‑Cacheable数据的访问装置的结构示意图;
[0047] 图10为本公开一个实施例提供的一种图形处理系统的结构示意图。实施方式
[0048] 在介绍本公开实施例之前,应当说明的是:
[0049] 本公开部分实施例被描述为处理流程,虽然流程的各个操作步骤可能被冠以顺序的步骤编号,但是其中的操作步骤可以被并行地、并发地或者同时实施。
[0050] 本公开实施例中可能使用了术语“第一”、“第二”等等来描述各个特征,但是这些特征不应当受这些术语限制。使用这些术语仅仅是为了将一个特征与另一个特征进行区分。
[0051] 本公开实施例中可能使用了术语“和/或”,“和/或”包括其中一个或更多所列出的相关联特征的任意和所有组合。
[0052] 应当理解的是,当描述两个部件的连接关系或通信关系时,除非明确指明两个部件之间直接连接或直接通信,否则,两个部件的连接或通信可以理解为直接连接或通信,也可以理解为通过中间部件间接连接或通信。
[0053] 为了使本公开实施例中的技术方案及优点更加清楚明白,以下结合附图对本公开的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本公开的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0054] 系统级芯片即SOC(System on Chip),也称片上系统,是信息系统核心的芯片集成,是将系统关键部件集成在一块芯片上,各个关键部件在本公开中称为IP模块。如图1所示,为本公开提出的一种系统级芯片的结构示意图,多个IP模块可以通过片上网络进行互联,同时该系统级芯片还有片上缓存即图中示出的系统级Cache,多个IP模块可以共享该片上缓存,图中的缓存控制器用于对该缓存进行读写,内存控制器用于对内存进行读写。
[0055] 由于IP模块访问内存的效率要远低于访问Cache即片上缓存的效率,因此各个IP模块可以将一些复用性较高的数据存储在片上缓存中,以提升访问这类数据的效率,业界将这一类数据称为Cacheable的访问数据。对应的,对于一些复用性不高的数据,各个IP模块通常是通过直接访问内存的方式进行访问,业界将这一类数据称为non‑Cacheable的访问数据。
[0056] 将内存中的Cacheable的访问数据存储到Cache中,需要采用一定的映射算法,映射算法把内存和Cache分割成一定大小的块,这个块在内存中称为数据块data block,需要将内存中的data block映射到Cache中的缓存行即Cacheline中,常见的映射方式包括直接映射、组相联映射以及全相联映射。
[0057] 直接映射采用取模的方式进行一对一映射,容易出现Cache不命中的情况。组相联中每一组(set)中可以存储更多的信息,因此相对于直接映射的方式,增加了Cache命中的几率。全相联是极端的组相联,即Cache只有一个set,实现较为复杂,目前业界最常用的映射方法为组相联。
[0058] 如图2所示,为直接映射的示意图,在直接映射的方式中,如果Cache中共有8个缓存行,那么内存中的0、8、16、24...号数据块会被映射到缓存行0中,同理1、9、17....号数据块会被映射到缓存行1中。当主机的读取顺序是数据块0‑数据块8‑数据块0‑数据块8的情况下,由于缓存行0只能同时缓存一个数据块,因此,在读取数据块8以及第二次读取数据块0时,会发生Cache不命中的情况,即在Cache中无法找到数据块需要去内存中查找数据块。因此,直接映射的方式中Cache命中的几率并不高,进而整体的读写效率也不高。
[0059] 在组相联的方式中包括N个路(way),每个way中包括M组(set)。每一组即每一set中包括N个缓存行。如图3所示,存在两个way,即way0和way1,每一way有8行,对应8组,每组中有2个缓存行,即way0的Cache line0和way1的Cache line0为一组。
[0060] 这样内存中数据块0、8、16、24…中任意两个数据块可以同时存储在缓存中的两个Cache line0中,进而组相联映射的方式相对于直接映射增加了Cache命中的概率提升了整体的读写效率。
[0061] 如图4所示,为全相联的示意图,全相联是极端的组相联,即cache只有一个组。每一个数据块都可以存进任何一个缓存行。全相联方式中Cache命中的概率也较高,但是实现较为复杂,工作延时也较高。
[0062] 如图5所示,在直接映射和组相联的映射方式中,Cache中的地址被划分为3段,包括Tag、Index、Line offset。其中line offset(偏移位)用来表示该地址在缓存行中的偏移,Index(行标记)表示该地址位于哪一个组(set)中(组相联映射的方式中)或哪一行中(直接映射的方式中),Tag(标记位)用于确定是否命中数据块。其中,每个缓存行如图6所示,缓存行中包括有效标记V、标记位Tag和数据位Data block。Cache根据接收地址的Tag和标记位Tag进行对比就能判断出该地址在Cache中是否命中,有效标记V用于标记该缓存行是否有效,即是否可用。
[0063] 而在全相联的场景中不存在组的概念,因此处理器发来的地址只包括块号Tag和Line offset。
[0064] 本公开中的内存可以是DDR SDRAM,即双倍速率同步动态随机存储器,内存地址通常由column(列)地址、bank地址、row(行)组成。
[0065]
[0066] 表1
[0067] 例如,如表1所示,DDR颗粒地址由12bit的column(列)地址,4bit的bank地址和14bit的row(行)地址组成。另外,在一些场景中,内存地址中可能并不包含bank,仅由row和column组成。其中,一个row也为内存的一个内存页,如果需要从内存中读写数据,则需要先定位和开启内存页,进一步在内存页中的相应位置读写数据。
[0068] 另外,如前文介绍,在直接映射和组相联映射的方式中,在缓存中Cache line的地址被分为了Tag、Index以及Line offset,因此内存中的row、bank、column在映射到缓存中时,会被映射为Tag、Index以及Line offset。
[0069] 在实际应用中,在直接映射和组相联的方式中,可以将内存地址中的row地址和bank地址映射为Tag。 例如,如表2所示出的映射关系:
[0070] 表2
[0071] 此外,row地址也可以被映射为Tag;row地址和bank地址还可能被映射为包含于Tag,例如Tag中包括row地址、bank地址以及column中的部分地址,在全相联的映射方式中,由于不存在Index的概念,因此row地址和bank地址通常被映射为包含于Tag。具体的映射方式往往和Cache中cache line即缓存行的数量以及缓存行中包含的数据量的大小相关,具体方式可以参照相关技术,本公开对此不进行详述。
[0072] 当发生Cache命中,需要对Cache中的数据进行写操作时,会涉及到Cache更新策略,Cache更新策略分成两种:写直通和回写。
[0073] 写直通又称为写穿,当地址在Cache命中时,既更新Cache中的数据,也更新内存的数据,因此,写直通策略并没有减少设备对内存的写访问量。
[0074] 写回策略是指当写地址在Cache命中时,只更新Cache中的数据,而不更新内存里的数据,从而能有效降低一个设备对内存的写访问量。但是写回策略由于只更新Cache中的数据,因此Cache和内存的数据可能不一致,因此在每个缓存行中会有一个比特位记录数据是否被修改过,称之为dirty bit,本文中也称为脏数据标记,在适当的时机,可以将dirty bit置位的缓存行一起刷新至内存,或者独立的写回至内存,以保证缓存中的数据与内存中的数据一致。
[0075] 为了减少设备对内存的写访问量,实际应用中通常使用写回策略。
[0076] 另外,在Cache中没有命中时,需要将被访问的数据块从内存中读取并写入Cache中以使IP模块可以在Cache中对该数据块进行读写,而当Cache被存满时,需要将Cache中已有的缓存行进行替换,即将Cache中已有的某个缓存行中的数据写至内存,并将内存当前需要被访问的数据块写入该缓存行的存储位置。目前的替换策略包括:随机算法,即从已有的缓存行中,随机确定一个缓存行作为待替换缓存行进行替换;先进先出算法:从已有的缓存行中选择最先写入的缓存行作为待替换缓存行进行替换;近期最少使用算法:通过计数器来确定每个缓存行未被访问的时间,将未被访问时间最长的缓存行作为待替换缓存行进行替换;最近不常使用算法:通过计数器来记录每个缓存行被访问的次数,将被访问次数最少的缓存行作为待替换缓存行进行替换。
[0077] 采用上述方式,可以将一些IP模块复用性较高的Cacheable的访问数据存储在Cache,以提升IP模块访问这类数据的效率。采用Cache将Cacheable的访问数据进行存储和写回内存,可以充分利用内存的带宽。但是对于non‑Cacheable的访问数据,则需要每次访问都到内存中的相应位置进行读写,如上文所述,目前的内存通常是DDR SDRAM,针对non‑Cacheable写访问,当需要访问DDR SDRAM时,通常是先要定位和启动内存页,进一步在内存页中的相应位置写数据。
[0078] 而系统级芯片中存在多个IP模块,也就会产生较多的non‑Cacheable写访问,不同的写访问通常会访问内存中的不同位置,因此在执行不同的non‑Cacheable写访问时,需要切换内存页,也就需要反复执行启动内存页的操作,在启动某个内存页后只写回一段数据,内存带宽的利用率不高。
[0079] 例如,IP模块1发送的non‑Cacheable写访问,需要将目标数据写入至内存页1中,IP模块2发送的non‑Cacheable写访问,需要将目标数据写入至内存页2中,IP模块3发送的non‑Cacheable写访问,需要将目标数据写入至内存页3中。针对这样的访问需求,需要先启动内存页1,将IP模块1的数据写入,然后启动内存页2,将IP模块2的目标数据写入,最后启动内存页3,将IP模块3的目标数据写入。可见,每次启动内存页后,只将很少的数据写入内存,无法充分利用内存的带宽,同时,每写入一个数据需要执行一次启动内存页的操作,效率也较低。
[0080] 针对上述问题,本公开提出,获取各个IP模块发送的non‑Cacheable写访问,各个写访问用于将目标数据写入至内存中的目标地址,从缓存中查找与目标地址位于同一内存页的待写回内存的目标缓存行,然后将目标缓存行中的数据和目标数据一起连续的写入至内存中,这样,可以在启动内存页后,写入更多的数据,提升内存带宽的利用率。
[0081] 具体的,如图7所示,为本公开提出的一种系统级芯片non‑Cacheable数据的访问方法,该方法可以应用于缓存控制器,也可以应用于单独设计的系统级芯片的内存访问装置,以下均以缓存控制器为例进行说明,该方法包括:
[0082] S701,获取任一IP模块发送的non‑Cacheable写访问; non‑Cacheable写访问用于将目标数据写入内存的目标地址;
[0083] 系统级芯片上存在多个IP模块,各个模块都具有访问内存的需求,即都有发送non‑Cacheable写访问的需求,各个IP通常会将non‑Cacheable写访问的需求发送到内存控制器,以对内存进行访问,因此,本步骤中可以从内存控制器获取各个IP模块发送的non‑Cacheable写访问。另外,在本公开中,各个IP模块也可以直接将non‑Cacheable写访问发送给缓存控制器,即本步骤中可以是直接从各个IP模块获取non‑Cacheable写访问。
[0084] S702,确定所述non‑Cacheable写访问所针对的目标地址;
[0085] 缓存控制器在获取了non‑Cacheable写访问后,可以对该写访问进行解析,获取目标数据以及目标地址。
[0086] S703,在片上缓存中查找目标缓存行;其中,目标缓存行为待写回内存的缓存行,且对应的内存地址与所述目标地址位于同一内存页;
[0087] 本步骤中,缓存控制器,在得到了目标地址后,可以对片上缓存进行遍历,查找目标缓存行。
[0088] 可以是先遍历全部缓存行的脏数据标记和有效标记确定待写回到内存的多个缓存行,具体的,可以是确定有效标记和脏数据标记都置位的缓存行为待写回内存的缓存行,即确定当前有效且为脏数据的缓存行为待写回内存的缓存行。
[0089] 然后,查找各个缓存行的Tag标记来确定各个缓存行对应的内存页。如上所述,如果row地址和bank地址被映射为Tag标记,则直接基于Tag标记就可以确定各个缓存行的内存页,如果row地址和bank地址被映射为包含于Tag,则从Tag中可以查找出内存页,即查找出row地址和bank地址。
[0090] 进而可以将查找到的对应的内存地址与目标地址位于同一内存页的待写回缓存行作为目标缓存行。
[0091] S704,将目标缓存行中的数据和目标数据连续写入内存。
[0092] 在查找到目标缓存行后,可以将目标缓存行中的数据,和non‑Cacheable写访问携带的目标数据连续的写入到内存中。这样,在针对目标数据启动内存的某个内存页后,就可以将更多的数据写入至该内存页,提升了内存带宽的利用率,同时,由于Cache中已有待写回内存的缓存行,通常在特定时机也需要被写回至内存,例如在某个特定时间,通过刷新的方式将全部待写回缓存行中的数据整体的写回至内存,采用本公开的方式可以缩短每次缓存刷新的时间,另外,缓存中的待写回缓存行也会独立的被写回至内存,例如在认为某个待写回缓存行中的数据复用性不强时,会单独的触发该缓存行中的数据写回至内存,因此采用本公开的方案,也可以减少缓存中数据的写回次数。
[0093] 考虑到在片上缓存中有可能没有目标缓存行,即缓存中没有待写回且内存地址与目标地址位于同一页的缓存行,因此,如果片上缓存中不存在目标缓存行,并且片上缓存有空闲缓存行,则将目标数据写入任一空闲缓存行。即可以利用空闲缓存行对non‑Cacheable携带的目标数据进行缓存,以使后续可以将目标数据和其他与目标数据位于同一内存页的数据一起写入至内存。
[0094] 另外,如果片上缓存没有空闲缓存行,则利用预设的替换算法确定当前片上缓存中的任一缓存行为替换缓存行,将替换缓存行中的数据写回至内存,并将所述目标数据写入至该替换缓存行。
[0095] 在一种实施方式中,预设的替换算法可以是随机算法、先进先出算法、近期最少使用算法、最近不常使用算法等算法中的一种。即可以采用任一种算法,确定替换缓存行,并将non‑Cacheable携带的目标数据缓存到该替换缓存行中。
[0096] 考虑到如果有较多的non‑Cacheable的数据对Cache进行占用,会抢占Cacheable的数据对Cache的使用,因此,在另一种实施方式中,预设的替换算法,可以是优先对Cache中的non‑Cacheable数据进行替换。
[0097] 一种具体的方式可以是:在将non‑Cacheable数据写入到某个缓存行中后,利用预定义标识对该缓存行进行标记,以标识该缓存行存储有non‑cacheble写访问对应的目标数据。
[0098] 这样在需要替换时,可以遍历片上缓存,查找被标记有预定义标识的缓存行为替换缓存行,然后进行替换。
[0099] 另一种具体的方式可以是:在采用随机算法、先进先出算法、近期最少使用算法、最近不常使用算法等算法时,可以根据使用的算法将片上缓存中存储有non‑Cacheable数据的缓存行优先确定为替换缓存行。例如,对于先进先出算法,往往需要根据缓存行被使用的先后顺序生成一个链表,最早被使用的缓存行在链表头,其会被优先作为替换缓存行进行替换,那么在这种算法中,可以将存储有non‑Cacheble数据的缓存行默认作为链表头,这样就可以将存储有non‑Cacheble数据的缓存行优先进行替换。在其他算法中也类似,本公开进行详述。
[0100] 可以理解的是,除了为non‑Cacheble数据查找替换缓存行可以采用上述方式,在为Cacheble数据查找替换缓存行时也可以采用上述方式。
[0101] 为了能够进一步利用内存的带宽,本公开还提出,在将替换缓存行中的数据写回至内存中时,还可以查找内存地址与替换缓存行对应的内存地址,位于同一内存页的其他待写回内存的缓存行;将替换缓存行和所确定的其他待写回内存的缓存行中的数据连续写回至内存。
[0102] 以图3示出的组相联映射的Cache为例,如果当前利用预设的替换算法确定way0的Cacheline0为替换缓存行,根据其Tag标记确定其对应的内存页为内存页0,并且通过遍历发现Cache中还存在way0的Cacheline2和way1的Cacheline4为待写回内存的缓存行,且对应的内存地址的内存页也为内存页0,则可以将way0的Cacheline0、way0的Cacheline2以及way1的Cacheline4中的数据一起连续的写回到内存,这样在启动内存页0后,可以一次性写入更多的数据,而非只写回替换缓存行中的数据,有效提升了内存的带宽利用率。
[0103] 在一种实施方式中,缓存控制器,还可以在片上缓存中查找内存地址与目标地址位于同一内存页的待写回内存的缓存行,并在接收到刷新指令时,将查找到的待写回内存的缓存行中的数据以及目标数据连续写入至内存。
[0104] 仍以图3示出的组相联的映射方式为例进行说明,如果当前缓存中,way0的Cacheline0中的数据为non‑Cacheable数据即目标数据,并且way0的Cacheline2和way1的Cacheline4为待写回缓存行,且对应的内存地址和目标数据的目标地址位于同一内存页。
[0105] 则在接收到刷新指令时,可以将目标数据、way0的Cacheline2和way1的Cacheline4中的数据连续的写入至内存,以便在刷新时,对non‑Cacheable数据写回到内存,同时有效提升了内存带宽的利用率。
[0106] 另外,本公开还提出,为了进一步提升内存带宽的利用率,缓存控制器还可以在特定时机,将多个内存地址位于同一页的缓存行一起连续的写入至内存,而非现有方式中,针对每个缓存行分别写回至内存。具体的,可以在片上缓存中查找内存地址与目标地址位于同一内存页的待写回内存的缓存行,然后在特定时机,将查找到的待写回内存的缓存行中的数据以及目标数据连续写入至内存。其中,特定时机可以是在检测到内存带宽空闲时,即内存和系统级芯片当前交互不频繁时执行,也可以是在检测到目标地址位于同一内存页的待写回内存的缓存行达到预设数量时执行,以便可以在启动某个内存页后写入较多的数据,提升内存带宽的利用率。
[0107] 如图8所示,为公开提供的一种具体的系统级芯片non‑Cacheable数据的访问方法,该方法包括:
[0108] S801,判断是否是non‑Cacheablede 写访问,如果不是,则执行S802,判断是否是non‑Cacheablede 读访问,如果是,则执行S803,直接读内存;如果否,则是Cacheable访问,因此执行S805。在S801中,如果是non‑Cacheablede 写访问,则执行S804,判断缓存中是否有目标缓存行,如有则执行S806,即将目标数据和目标缓存行中的数据连续写入内存;如没有,则执行S805,判断是否有空的缓存行,如果有则执行S807,分配缓存行;如果没有空的缓存行则执行S808,判断缓存中是否有与替换缓存行位于同一内存页的其他缓存行,如果没有则执行S809,将替换缓存行中的数据写入内存;如果没有则执行S810,将替换缓存行和其他缓存行中的数据连续写入内存。
[0109] 如图9所示,与上述一种系统级芯片non‑Cacheable数据的访问方法相对应,本公开还提出一种系统级芯片non‑Cacheable数据的访问装置,所述系统级芯片包括多个IP模块以及片上缓存,所述多个IP模块共享所述片上缓存;所述装置包括:
[0110] 获取模块910,用于获取任一IP模块发送的non‑Cacheable写访问;所述non‑Cacheable写访问用于将目标数据写入内存的目标地址;
[0111] 确定模块920,用于确定所述non‑Cacheable写访问所针对的目标地址;
[0112] 查找模块930,用于在片上缓存中查找目标缓存行;其中,目标缓存行为待写回内存的缓存行,且对应的内存地址与所述目标地址位于同一内存页;
[0113] 写入模块940,用于将目标缓存行中的数据和所述目标数据连续写入内存。
[0114] 在一种实施方式中,所述写入模块940,还用于在片上缓存中不存在目标缓存行,且片上缓存有空闲缓存行的情况下,将所述目标数据写入任一空闲缓存行。
[0115] 在一种实施方式中,所述写入模块940,还用于在片上缓存没有空闲缓存行的情况下,利用预设的替换算法确定当前片上缓存中的任一缓存行为替换缓存行,将替换缓存行中的数据写回至内存,并将所述目标数据写入至该替换缓存行。
[0116] 在一种实施方式中,所述预设的替换算法,包括:
[0117] 遍历片上缓存,查找被标记有预定义标识的缓存行为替换缓存行;其中,被标记有预定义标识的缓存行为:存储有non‑Cacheable写访问对应的目标数据的缓存行。
[0118] 在一种实施方式中,所述写入模块940,具体用于查找内存地址与所述替换缓存行对应的内存地址,位于同一内存页的其他待写回内存的缓存行;将替换缓存行和所确定的其他待写回内存的缓存行中的数据连续写回至内存。
[0119] 在一种实施方式中,所述写入模块940,还用于在片上缓存中查找内存地址与所述目标地址位于同一内存页的待写回内存的缓存行;
[0120] 在接收到刷新指令或者在内存带宽空闲时,将查找到的待写回内存的缓存行中的数据以及目标数据连续写入至内存。
[0121] 基于相同的发明构思,本公开还提出一种图形处理系统,如图10所示,其至少包括:
[0122] GPU core,用来处理命令,例如处理画图的命令,根据画图命令,执行图像渲染的Pipeline。其中,GPU core里面主要包含了计算单元,用于执行shader编译后的指令,属于可编程模块,由大量的ALU组成;Cache(存储器),用于缓存GPU core的数据,以减少对内存的访问;控制器(图中未示出)另外,GPU core 还具有多种功能模块,例如光栅化(3D渲染管线的一个固定的阶段)、Tilling(TBR和TBDR GPU架构中对一帧进行划片处理)、裁剪(3D渲染管线的一个固定的阶段,裁剪掉观察范围外,或者背面不显示的图元)、后处理(对画完的图进行缩放,裁剪,旋转等操作)等。
[0123] 通用DMA,用于执行主机内存到GPU显卡内存之间的数据搬移,例如,用于3D画图的vertex数据,通用DMA将vertex数据从主机内存搬到GPU显卡内存;
[0124] 片上网络,用于SOC上各个master和salve之间的数据交换;
[0125] 应用处理器,用于SOC上各个模块任务的调度,例如GPU渲染完一帧图后通知应用处理器,应用处理器再启动显示控制器将GPU画完的图显示到屏幕上;
[0126] PCIe控制器,用于和主机通信的接口,实现PCIe协议,使GPU显卡通过PCIe接口连接到主机上。主机上运行了图形API,以及显卡的驱动等程序;
[0127] 内存控制器,用于连接内存设备,用于保存SOC上的数据;
[0128] non‑Cacheable数据访问装置,用于执行上文中所描述的系统级芯片non‑Cacheable数据访问方法;
[0129] 显示控制器,用于控制将内存里的frame buffer以显示接口(HDMI, DP等)输出到显示器上;
[0130] 视频解码器,用于将主机硬盘上的编码的视频解码成能显示的画面。
[0131] 视频编码器,用于将主机硬盘上原始的视频码流编码成指定的格式返回给主机。
[0132] 基于相同的发明构思,本公开实施例还提供一种电子组件,该电子组件包括上述任一实施例中所述的图形处理系统。在一些使用场景下,该电子组件的产品形式体现为显卡;在另一些使用场景下,该电子装置的产品形式体现为CPU主板。
[0133] 本公开实施例还提供一种电子设备,该电子设备包括上述的电子组件。在一些使用场景下,该电子设备的产品形式是便携式电子设备,例如智能手机、平板电脑、VR设备等;在一些使用场景下,该电子设备的产品形式是个人电脑、游戏主机等。
[0134] 以上尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改,本领域的技术人员在不脱离本公开的精神和范围的前提下,做出的变更和修改也应视为本公开实施例的保护范围。