一种基于异构多核系统的雷达信号并行处理方法及系统转让专利

申请号 : CN201510260891.9

文献号 : CN104849698B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 察豪周沫秦华宋伟刘爱国崔玉娟

申请人 : 中国人民解放军海军工程大学

摘要 :

本发明公开了一种基于异构多核系统的雷达信号并行处理方法和系统,方法包括步骤:S1、初始化设备端参数,开辟任务执行线程,划分数据处理的线程网格和线程块的维度;S2、开辟信号处理所需的显存和内存空间;S3、采集单次信号处理所需的数据传输和计算时间,调用遗传任务调度算法获得任务调度方式;S4、采集雷达采样数据并按时序分段存储在内存空间中,按任务调度方式发送至CPU和GPU,根据线程网格和线程块维度将采样点映射到各线程上并发执行,调用滤波器系数对采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测。实施本发明提高了通用处理器执行信号处理的速度,满足雷达信号处理的实时性要求。

权利要求 :

1.一种基于异构多核系统的雷达信号并行处理方法,其特征在于,所述方法包括步骤:

S1、初始化计算平台上异构多核处理单元CPU和GPU设备端参数,包括CPU和GPU设备端的数量、型号和ID号,并根据CPU和GPU设备端参数开辟任务执行线程以调用所述设备端,根据GPU的初始化设备参数划分数据处理的线程网格和线程块的维度;

S2、在所述异构多核处理单元主机端开辟雷达信号处理所需的显存空间和内存空间,所述内存空间用于存储低通滤波器系数和匹配滤波器系数,所述显存空间用于存放GPU计算时调用的所述低通滤波器系数和匹配滤波器系数;

S3、采集异构多核处理单元完成单次信号处理的数据传输时间Ttran和数据计算时间Tproc,基于所述Ttran和Tproc调用遗传任务调度算法,获得任务调度方式,使得每个任务的最大计算时间最小;

S4、采集雷达采样数据并按时序分段存储在所述内存空间中,以数据流的方式,将每段脉冲重复周期内的采样数据按照所述任务调度方式发送至CPU和GPU,根据所述线程网格和线程块的维度将采样点映射到各线程上并发执行,调用所述低通滤波器系数和匹配滤波器系数,对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测。

2.如权利要求1所述的雷达信号并行处理方法,其特征在于,所述步骤S4中,雷达采样数据按照所述任务调度方式,按采样周期传输至配置的CPU、GPU上计算,利用多核CPU和GPU对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测,具体包括以下子步骤:S41、对雷达采样信号进行正交相位解调,将中频雷达采样信号转换成零中频的I、Q两路正交信号:每个线程按合并访问条件并发执行,完成雷达采样信号与正交混频信号、低通滤波器系数的复数点乘、内插的循环,得到零中频的I、Q两路正交信号,所述低通滤波器的系数以权库的形式保存在纹理存储器的高速片上缓存,以供计算时读取;

S42、进行脉冲压缩以提高雷达检测目标的距离分辨力:先利用针对众核优化的FFT/IFFT并行库函数实现时域信号到频域信号的变换,再由并发线程执行采样点与匹配滤波器系数的复数点乘,得到经过匹配滤波器的窄脉冲信号,当雷达发射信号波形改变时,主机端重新计算匹配滤波器系数,并储存在内存和GPU的全局存储器中;

S43、进行动目标显示和动目标检测以滤除慢速运动杂波:先将多个距离维上信号处理的结果在数据域上重组,然后划分至各并行处理单元上计算;动目标显示中,利用每个线程分别维护采样值经延迟线加权与相同距离分辨单元采样点隔周期相加;动目标检测中,将相邻重复周期的数据存储为数组,采用棋盘划分的方式实现矩阵转置,对相同距离单元数据进行FFT运算;

S44、进行脉冲积累以提高采样数据中的信噪比:利用共享存储器做中间数据的访存和线程通信,将积累的数据矩阵中对应列数据从显存拷贝至线程块中的共享存储器,采用并行归约的方式求和;

S45、进行恒虚警检测以进一步抑制雷达回波信号中的杂波:将每个距离单元两侧参考单元点的数据,从全局存储器分段拷贝至线程块内的共享存储器,每个线程块并行完成序列中一段连续区域的均值运算,其结果作为门限值与检测点作比较,得到抑制各类杂波的回波信号。

3.如权利要求1所述的雷达信号并行处理方法,其特征在于,所述步骤S3中,基于所述Ttran和Tproc调用遗传任务调度算法,获得任务调度方式,具体实现方式为:S31、初始化种群大小popsize、终止进化代数gen、交叉概率Pc和变异概率Pm;

S32、根据所述数据传输时间Ttran和数据计算时间Tproc计算第i个任务分配至第j个并行处理单元上的期望执行时间eij,其中i=1,2,...,m,j=1,2,...,n;m为计算任务的总数,n为设备端的总数;

S33、根据Max-min算法和随机产生方式,生成popsize个解作为初始种群,每一个解对应一条染色体;

S34、根据所述期望执行时间eij计算初始种群中第X条染色体的适应度函数值其中X=1,2,...,popsize,为分配方案di,j的染色体编号;di,j为二进制变量,当第i个任务分配至第j个并行处理单元上时,di,j=1;否则为di,j=0;

S35、计算初始种群中第X条染色体的选择概率

S36、生成随机数与所述选择概率ps(X)作比较,保留适应度函数值高的染色体编码,剔除适应度函数值低的染色体编码,再根据交叉概率Pc和变异概率Pm完成交叉和变异操作以生成新种群;

S37、若所述新种群的进化代数小于终止代数gen,则返回步骤S34,对所述新种群重新计算每条染色体对应的选择概率,继续执行选择、交叉和变异操作,直到新种群的进化代数大于等于终止代数gen;若所述进化代数大于等于终止代数gen时,则输出种群中最优适应度值对应的染色体,根据该染色体确定任务调度方式。

4.一种基于异构多核系统的雷达信号并行处理系统,其特征在于,所述雷达信号并行处理系统包括:

预处理模块,用于初始化计算平台上异构多核处理单元CPU和GPU设备端参数,包括CPU和GPU设备端的数量、型号和ID号,并根据CPU和GPU设备端参数开辟任务执行线程以调用所述设备端,根据GPU的初始化设备参数划分数据处理的线程网格和线程块的维度;在所述异构多核处理单元主机端开辟雷达信号处理所需的内存空间和显存空间,所述内存空间用于存储低通滤波系数和匹配滤波器系数,所述显存空间用于GPU计算时调用的所述低通滤波器系数和匹配滤波器系数;

动态调度模块,用于以异构多核处理单元数据传输时间Ttran和数据计算时间Tproc为基础,调用基遗传任务调度算法以获得任务调度方式,使得每个任务的最大计算时间最小;

信号处理模块,用于采集雷达采样数据并按时序分段存储在所述内存空间中,以数据流的方式,将每段脉冲重复周期内的采样数据按照所述任务调度方式发送至CPU和GPU,根据所述线程网格和线程块的维度将采样点映射到各线程上并发执行,调用所述低通滤波器系数和匹配滤波器系数,对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测;信号处理模块还用于采集异构多核处理单元完成单次信号处理的数据传输时间Ttran和数据计算时间Tproc,并实时反馈至动态调度模块。

5.如权利要求4所述的雷达信号并行处理系统,其特征在于,所述信号处理模块包括:

正交相位解调子模块,用于对雷达采样信号进行正交相位解调,将中频雷达采样信号转换成零中频的I、Q两路正交信号:每个线程按合并访问条件并发执行,完成雷达采样信号与正交混频信号、低通滤波器系数的复数点乘、内插的循环,得到零中频的I、Q两路正交信号,所述低通滤波器的系数以权库的形式保存在纹理存储器的高速片上缓存,以供计算时读取;

脉冲压缩子模块,用于进行脉冲压缩以提高雷达检测目标的距离分辨力:先利用针对众核优化的FFT/IFFT并行库函数实现时域信号到频域信号的变换,再由并发线程执行采样点与匹配滤波器系数的复数点乘,得到经过匹配滤波器的窄脉冲信号,当雷达发射信号波形改变时,主机端重新计算匹配滤波器系数,并储存在内存和GPU的全局存储器中;

动目标显示/动目标检测子模块,用于进行动目标显示和动目标检测以滤除慢速运动杂波:先将多个距离维上信号处理的结果在数据域上重组,然后划分至各并行处理单元上计算;动目标显示中,利用每个线程分别维护采样值经延迟线加权与相同距离分辨单元采样点隔周期相加;动目标检测中,将相邻重复周期的数据存储为数组,采用棋盘划分的方式实现矩阵转置,对相同距离单元数据进行FFT运算;

脉冲积累子模块,用于进行脉冲积累以提高采样数据中的信噪比:利用共享存储器做中间数据的访存和线程通信,将积累的数据矩阵中对应列数据从显存拷贝至线程块中的共享存储器,采用并行归约的方式求和;

恒虚警检测子模块,用于进行恒虚警检测以进一步抑制雷达回波信号中的杂波:将每个距离单元两侧参考单元点的数据,从全局存储器分段拷贝至线程块内的共享存储器,每个线程块并行完成序列中一段连续区域的均值运算,其结果作为门限值与检测点作比较,得到抑制各类杂波的回波信号。

6.如权利要求4所述的雷达信号并行处理系统,其特征在于,所述动态调度模块包括:

第一子模块,用于初始化种群大小popsize、终止进化代数gen、交叉概率Pc和变异概率Pm;

第二子模块,用于根据所述数据传输时间Ttran和数据计算时间Tproc计算第i个任务分配至第j个并行处理单元上的期望执行时间eij,其中i=1,2,...,m,j=1,2,...,n;m为计算任务的总数,n为设备端的总数;

第三子模块,用于根据Max-min算法和随机产生方式,生成popsize个解作为初始种群,每一个解对应一条染色体;

第四子模块,用于根据所述的期望执行时间eij计算初始种群中第X条染色体的适应度函数值 其中X=1,2,...,popsize,为分配方案di,j的染色体编号;di,j为二进制变量,当第i个任务分配至第j个并行处理单元上时,di,j=1;否则为di,j=

0;

第五子模块,用于计算初始种群中第X条染色体的选择概率

第六子模块,用于生成随机数与所述选择概率ps(X)作比较,保留适应度函数值高的染色体编码,剔除适应度函数值低的染色体编码,再根据交叉概率Pc和变异概率Pm完成交叉和变异操作以生成新种群;

第七子模块,用于在种群的进化代数小于终止进化代数gen时,利用第四子模块对所述新种群重新计算每条染色体对应的选择概率,继续执行选择、交叉和变异操作;在所述进化代数大于等于终止代数gen时,输出种群中最优适应度值及其对应的染色体,根据该染色体确定任务调度方式。

说明书 :

一种基于异构多核系统的雷达信号并行处理方法及系统

技术领域

[0001] 本发明属于雷达信号处理技术领域,具体涉及到一种基于异构多核系统的雷达信号并行处理方法及系统。

背景技术

[0002] 雷达信号处理是雷达系统中的重要组成部分,很大程度上决定了上述各种体制雷达的性能,它是通过各种算法处理雷达接收的回波信号,在各种噪声、杂波和干扰环境下检测目标,提取目标的距离、方位、仰角、速度,乃至图像、类别等有用信息。
[0003] 目前,雷达系统或信号处理模块设计采用模拟电路和数字器件来实现系统的信号处理和其它功能,主流设计方案一般都采用数字信号处理芯片(DSP)或现场可编程门阵列(FPGA)芯片紧耦合的方式实现。数字化雷达由于采用软件和硬件耦合紧密的数字器件,当改变或增加雷达的功能、甚至是对某些雷达系统的参数进行调整,整个DSP或FPGA板需要重新进行软件和硬件的设计,在一定程度上影响到装备研制、升级的周期和装备的可靠性。同时,数字化雷达基于硬件的集中式设计方法,接口都是针对特定雷达的,导致其不可能在其它系统中复用,这给雷达装备的研制、生产、使用和维护带来了许多困难。
[0004] 随着软件无线电技术的设计思想逐渐应用于雷达领域,软件雷达采用开放式、标准化、通用化的通用硬件平台,模块化的软件来实现雷达功能。采用数字器件设计的雷达和软件雷达的主要区别在于,数字化雷达的主要功能由数字电路实现,而软件雷达的各种功能由软件定义,硬件采用通用计算机。雷达接收信号在变频组件内经下变频转换为中频信号,送到高速A/D采样器件,转换为数字信号送中心处理计算机进行信号处理。雷达的信号处理部分不同于后端的数据处理,信号处理的方法相对固定,但信号处理的实时性要求很高。雷达中频信号的采样频率高,实时信号处理设备的运算量几乎与信号带宽成正比,传统算法和计算资源均难以满足信号处理的实时性要求。

发明内容

[0005] 针对现有技术的缺陷和技术需求,本发明提供了一种基于异构多核系统的雷达信号并行处理方法及系统,可提高通用处理器执行信号处理的计算速度,满足雷达信号处理的实时性要求,且降低了雷达系统开发和维护成本,缩短了研制周期,克服了传统硬件雷达设计技术中体制单一、功能固定以及雷达信号处理实时性不足的缺陷。
[0006] 为实现上述目的,按照本发明,提供了一种基于异构多核系统的雷达信号并行处理方法,所述方法包括步骤:
[0007] S1、初始化计算平台上异构多核处理单元CPU和GPU设备端参数,包括设备端的数量、型号和ID号,并根据设备端参数开辟任务执行线程以调用所述设备端,根据GPU的初始化设备参数划分数据处理的线程网格和线程块的维度;
[0008] S2、在所述异构多核处理单元主机端开辟雷达信号处理所需的显存空间和内存空间,所述内存空间用于存储低通滤波器系数和匹配滤波器系数,所述显存空间用于存放GPU计算时调用的所述低通滤波器系数和匹配滤波器系数;
[0009] S3、采集异构多核处理单元完成单次信号处理的数据传输时间Ttran和数据计算时间Tproc,基于所述Ttran和Tproc调用遗传任务调度算法,获得任务调度方式,使得每个任务的最大计算时间最小;
[0010] S4、采集雷达采样数据并按时序分段存储在所述内存空间中,以数据流的方式,将每段脉冲重复周期内的采样数据按照所述任务调度方式发送至CPU和GPU,根据所述线程网格和线程块的维度将采样点映射到各线程上并发执行,调用所述低通滤波器系数和匹配滤波器系数,对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测。
[0011] 作为进一步优选地,所述步骤S4中,雷达采样数据按照所述任务调度方式,按采样周期传输至配置的CPU、GPU上计算,利用多核CPU和GPU对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测,具体包括以下子步骤:
[0012] S41、对雷达采样信号进行正交相位解调,将中频雷达采样信号转换成零中频的I、Q两路正交信号:每个线程按合并访问条件并发执行,完成雷达采样信号与正交混频信号、低通滤波器系数的复数点乘、内插的循环,得到零中频的I、Q两路正交信号,所述低通滤波器的系数以权库的形式保存在纹理存储器的高速片上缓存,以供计算时读取;
[0013] S42、进行脉冲压缩以提高雷达检测目标的距离分辨力:先利用针对众核优化的FFT/IFFT并行库函数实现时域信号到频域信号的变换,再由并发线程执行采样点与匹配滤波器系数的复数点乘,得到经过匹配滤波器的窄脉冲信号,当雷达发射信号波形改变时,主机端重新计算匹配滤波器系数,并储存在内存和GPU的全局存储器中;
[0014] S43、进行动目标显示和动目标检测以滤除慢速运动杂波:先将多个距离维上信号处理的结果在数据域上重组,然后划分至各并行处理单元上计算;动目标显示中,利用每个线程分别维护采样值经延迟线加权与相同距离分辨单元采样点隔周期相加;动目标检测中,将相邻重复周期的数据存储为数组,采用棋盘划分的方式实现矩阵转置,对相同距离单元数据进行FFT运算;
[0015] S44、进行脉冲积累以提高采样数据中的信噪比:利用共享存储器做中间数据的访存和线程通信,将积累的数据矩阵中对应列数据从显存拷贝至线程块中的共享存储器,采用并行归约的方式求和;
[0016] S45、进行恒虚警检测以进一步抑制雷达回波信号中的杂波:将每个距离单元两侧参考单元点的数据,从全局存储器分段拷贝至线程块内的共享存储器,每个线程块并行完成序列中一段连续区域的均值运算,其结果作为门限值与检测点作比较,得到抑制各类杂波的回波信号。
[0017] 作为进一步优选地,所述步骤S3中,基于所述Ttran和Tproc调用遗传任务调度算法,获得任务调度方式,具体实现方式为:
[0018] S31、初始化种群大小popsize、终止进化代数gen、交叉概率Pc和变异概率Pm;
[0019] S32、根据所述数据传输时间Ttran和数据计算时间Tproc计算第i个任务分配至第j个并行处理单元上的期望执行时间eij,其中i=1,2,...,m,j=1,2,...,n;m为计算任务的总数,n为设备端的总数;
[0020] S33、根据Max-min算法和随机产生方式,生成popsize个解作为初始种群,每一个解对应一条染色体;
[0021] S34、根据所述期望执行时间eij计算初始种群中第X条染色体的适应度函数值其中X=1,2,...,popsize,为分配方案di,j的染色体编号;di,j为二进制变量,当第i个任务分配至第j个并行处理单元上时,di,j=1;否则为di,j=0;
[0022] S35、计算初始种群中第X条染色体的选择概率
[0023] S36、生成随机数与所述选择概率ps(X)作比较,保留适应度函数值高的染色体编码,剔除适应度函数值低的染色体编码,再根据交叉概率Pc和变异概率Pm完成交叉和变异操作以生成新种群;
[0024] S37、若所述新种群的进化代数小于终止代数gen,则返回步骤S34,对所述新种群重新计算每条染色体对应的选择概率,继续执行选择、交叉和变异操作,直到新种群的进化代数大于等于终止代数gen;若所述进化代数大于等于终止代数gen时,则输出种群中最优适应度值对应的染色体,根据该染色体确定任务调度方式。
[0025] 相应地,本发明还提供一种基于异构多核系统的雷达信号并行处理系统,所述雷达信号并行处理系统包括:
[0026] 预处理模块,用于初始化计算平台上异构多核处理单元CPU和GPU设备端参数,包括设备端的数量、型号和ID号,并根据设备端参数开辟任务执行线程以调用所述设备端,根据GPU的初始化设备参数划分数据处理的线程网格和线程块的维度;在所述异构多核处理单元主机端开辟雷达信号处理所需的内存空间和显存空间,所述内存空间用于存储低通滤波系数和匹配滤波器系数,所述显存空间用于GPU计算时调用的所述低通滤波器系数和匹配滤波器系数;
[0027] 动态调度模块,用于以异构多核处理单元数据传输时间Ttran和数据计算时间Tproc为基础,调用基遗传任务调度算法以获得任务调度方式,使得每个任务的最大计算时间最小;
[0028] 信号处理模块,用于采集雷达采样数据并按时序分段存储在所述内存空间中,以数据流的方式,将每段脉冲重复周期内的采样数据按照所述任务调度方式发送至CPU和GPU,根据所述线程网格和线程块的维度将采样点映射到各线程上并发执行,调用所述低通滤波器系数和匹配滤波器系数,对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测;信号处理模块还用于采集异构多核处理单元完成单次信号处理的数据传输时间Ttran和数据计算时间Tproc,并实时反馈至动态调度模块。
[0029] 作为进一步优选地,所述信号处理模块包括:
[0030] 正交相位解调子模块,用于对雷达采样信号进行正交相位解调,将中频雷达采样信号转换成零中频的I、Q两路正交信号:每个线程按合并访问条件并发执行,完成雷达采样信号与正交混频信号、低通滤波器系数的复数点乘、内插的循环,得到零中频的I、Q两路正交信号,所述低通滤波器的系数以权库的形式保存在纹理存储器的高速片上缓存,以供计算时读取;
[0031] 脉冲压缩子模块,用于进行脉冲压缩以提高雷达检测目标的距离分辨力:先利用针对众核优化的FFT/IFFT并行库函数实现时域信号到频域信号的变换,再由并发线程执行采样点与匹配滤波器系数的复数点乘,得到经过匹配滤波器的窄脉冲信号,当雷达发射信号波形改变时,主机端重新计算匹配滤波器系数,并储存在内存和GPU的全局存储器中;
[0032] 动目标显示/动目标检测子模块,用于进行动目标显示和动目标检测以滤除慢速运动杂波:先将多个距离维上信号处理的结果在数据域上重组,然后划分至各并行处理单元上计算;动目标显示中,利用每个线程分别维护采样值经延迟线加权与相同距离分辨单元采样点隔周期相加;动目标检测中,将相邻重复周期的数据存储为数组,采用棋盘划分的方式实现矩阵转置,对相同距离单元数据进行FFT运算;
[0033] 脉冲积累子模块,用于进行脉冲积累以提高采样数据中的信噪比:利用共享存储器做中间数据的访存和线程通信,将积累的数据矩阵中对应列数据从显存拷贝至线程块中的共享存储器,采用并行归约的方式求和;
[0034] 恒虚警检测子模块,用于进行恒虚警检测以进一步抑制雷达回波信号中的杂波:将每个距离单元两侧参考单元点的数据,从全局存储器分段拷贝至线程块内的共享存储器,每个线程块并行完成序列中一段连续区域的均值运算,其结果作为门限值与检测点作比较,得到抑制各类杂波的回波信号。
[0035] 作为进一步优选地,所述动态调度模块包括:
[0036] 第一子模块,用于初始化种群大小popsize、终止进化代数gen、交叉概率Pc和变异概率Pm;
[0037] 第二子模块,用于根据所述数据传输时间Ttran和数据计算时间Tproc计算第i个任务分配至第j个并行处理单元上的期望执行时间eij,其中i=1,2,...,m,j=1,2,...,n;m为计算任务的总数,n为设备端的总数;
[0038] 第三子模块,用于根据Max-min算法和随机产生方式,生成popsize个解作为初始种群,每一个解对应一条染色体;
[0039] 第四子模块,用于根据所述的期望执行时间eij计算初始种群中第X条染色体的适应度函数值 其中X=1,2,...,popsize,为分配方案di,j的染色体编号;di,j为二进制变量,当第i个任务分配至第j个并行处理单元上时,di,j=1;否则为di,j=0;
[0040] 第五子模块,用于计算初始种群中第X条染色体的选择概率
[0041] 第六子模块,用于生成随机数与所述选择概率ps(X)作比较,保留适应度函数值高的染色体编码,剔除适应度函数值低的染色体编码,再根据交叉概率Pc和变异概率Pm完成交叉和变异操作以生成新种群;
[0042] 第七子模块,用于在种群的进化代数小于终止进化代数gen时,利用第四子模块对所述新种群重新计算每条染色体对应的选择概率,继续执行选择、交叉和变异操作;在所述进化代数大于等于终止代数gen时,输出种群中最优适应度值及其对应的染色体,根据该染色体确定任务调度方式。
[0043] 总体而言,通过本发明所构思的以上技术方案与现有技术相比,主要具备以下的技术优点:本发明根据异构处理单元的数据传输时间和数据计算时间,对多个异构处理单元做出优化选择,并在此基础上再对任务优化配置,使得本发明系统具备良好的通用性和扩展性。本发明将多核CPU和GPU作为软件雷达信号处理的硬件加速设备,将信号处理串行算法并行化为基于多核CPU的并行算法,并针对GPU的物理架构来设计并行线程的组织和访问机制,将信号处理模型映射到GPU的多线程并行计算,可满足信号处理的功能,且运算速度达到实时性要求。本发明硬件设备易获取、兼容性好,并可随着现代通用高性能计算平台的技术发展而更新换代,减轻了研制经费和器件生产周期,降低了雷达从设计生产到维修升级等环节的费用。

附图说明

[0044] 图1为本发明基于异构多核系统的雷达信号并行处理方法流程图;
[0045] 图2为本发明雷达信号并行处理过程中的数据域划分示意图;
[0046] 图3为本发明一个实施例中16点并行归约求和示意图;
[0047] 图4为本发明线程网格的任务分布示意图;
[0048] 图5为本发明异构处理单元协同计算时间示意图;
[0049] 图6(a)为本发明一个实施例中信号处理任务I在CPU/GPU上的任务调度甘特图;
[0050] 图6(b)为本发明一个实施例中信号处理任务II在CPU/GPU上的任务调度甘特图;
[0051] 图7为本发明多个GPU在不同采样点的执行时间对比图;
[0052] 图8(a)为雷达信号处理前P显效果示意图;
[0053] 图8(b)为雷达信号处理后P显效果示意图。

具体实施方式

[0054] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0055] 本发明的目的是实现一种基于异构多核系统的并行模型雷达信号处理方法。如图1所示,本发明方法包括以下步骤:
[0056] S1、初始化计算平台上异构多核处理单元CPU和GPU设备端参数,包括设备端的数量、型号和ID号,并根据设备端参数开辟任务执行线程以调用所述设备端,根据GPU的初始化设备参数划分数据处理的线程网格和线程块的维度;
[0057] S2、预先在异构多核处理单元主机端开辟信号处理所需的显存空间和内存空间;所述内存空间中存储低通滤波系数和匹配滤波器系数,所述显存空间用于存放GPU计算时调用的上述滤波器系数;
[0058] S3、采集异构多核处理单元完成单次信号处理的数据传输时间Ttran和数据计算时间Tproc;以异构多核处理单元数据传输时间Ttran和数据计算时间Tproc为基础,调用基于异构计算平台上的遗传任务调度算法获得任务调度方式;
[0059] S4、定时接收雷达采样数据后,按时序分段存储在所述内存空间中,以数据流的方式,将每段脉冲重复周期内的采样数据按照步骤S3中的任务调度发送至CPU和GPU,根据所述线程网格和线程块的维度将采样点映射到海量轻量级线程上并发执行,调用上述滤波器系数,根CPU和GPU的多核并行架构和雷达信号处理的机理,对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测。
[0060] 上述步骤S2中,通过预先仿真获得正交相位解调所需的低通滤波系数、以及脉冲压缩所需的抑制副瓣的窗函数系数,并存储到预先开辟的内存空间中。同时,主机根据雷达中频信号的频率和波形,计算本振信号和匹配滤波器系数,储存在预先开辟的内存空间中,脉冲压缩时调用到所述显存空间。匹配滤波器系数由匹配滤波器函数与窗函数频域相乘得到,当雷达发射的信号频率和波形发生改变时,需重新计算本振信号和匹配滤波系数。
[0061] 上述步骤S3中,采用主机CPU获得异构计算平台处理单元完成单个脉冲采样点的时间反馈,即获取数据传输时间Ttran和数据计算时间Tproc。并以异构多核处理单元数据传输时间Ttran和数据计算时间Tproc为基础,根据已有的支撑平台处理器资源(GPU和CPU设备),利用遗传算法划分任务并进行分配。
[0062] 上述步骤S4中,利用多核CPU和GPU对采样点进行信号处理,包括进行数字化正交相位检波、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测。在本发明一个优选实施例中,多核CPU调用OpenMP+IntelMKL编译指导语句和变量显式地指导硬件加速,GPU调用CUDA执行SIMT方式实现线程并行化。
[0063] 其中,利用多核CPU和GPU对雷达采样数据进行正交相位解调、脉冲压缩、动目标显示、动目标检测、脉冲积累和恒虚警检测,具体包括以下子步骤:
[0064] S41、对雷达采样数据进行正交相位解调,将中频信号转换成零中频的I、Q两路正交信号。算法中内核函数的每个线程按合并访问条件并发执行,完成采样信号与正交混频信号、滤波器系数的复数点乘、内插的循环,得到零中频的I、Q两路正交信号。数字低通滤波器的系数以权库的形式保存在纹理存储器的高速片上缓存,以供计算时读取;
[0065] S42、进行脉冲压缩以提高雷达检测目标的距离分辨力,先利用针对众核优化的FFT/IFFT并行库函数实现时域信号到频域信号的变换,再由并发线程执行采样点与匹配滤波器系数的复数点乘,得到经过匹配滤波器的窄脉冲信号。当雷达发射信号波形改变时,主机端重新计算匹配滤波器系数,并储存在内存和GPU的全局存储器中;
[0066] S43、进行动目标显示和动目标检测以滤除慢速运动杂波,先将多个距离维上信号处理的结果在数据域上重组,然后划分至各并行处理单元上计算。动目标显示中,利用每个线程分别维护采样值经延迟线加权与相同距离分辨单元采样点隔周期相加。动目标检测中,将相邻重复周期的数据存储为数组,采用棋盘划分的方式实现矩阵转置,对相同距离单元数据进行FFT运算;
[0067] S44、进行脉冲积累以提高采样数据中的信噪比,利用共享存储器做中间数据的访存和线程通信,将积累的数据矩阵中对应列数据从显存拷贝至线程块中的共享存储器,采用并行归约的方式求和;
[0068] S45、进行恒虚警检测以进一步抑制雷达回波信号中的杂波。将每个距离单元两侧参考单元点的数据,从全局存储器分段拷贝至线程块内的共享存储器,每个线程块并行完成序列中一段连续区域的均值运算,其结果作为门限值与检测点作比较,得到抑制各类杂波的回波信号。
[0069] 以下结合一个具体实施例对本发明方案作进一步说明。
[0070] 在发明一个优选实施例中,基于异构多核系统的雷达信号并行处理系统包括预处理模块、动态调度模块和信号处理模块,具体如下:
[0071] (1)主机端预处理模块完成信号并行处理预计算:
[0072] 根据本发明基于异构多核系统并行模型的雷达信号处理流程,进行CPU、GPU密集型计算前,先将预处理、逻辑控制和部分预计算分配在CPU上。CPU端预处理模块完成的主要内容包括以下部分:
[0073] ①初始化计算平台上异构多核处理单元的数量、型号和设备ID号,并根据计算平台设备端数量开辟任务执行线程,以调用GPU和CPU设备端。
[0074] 任务执行线程在程序中是数据计算队列的使用者,任务执行线程根据计算资源可利用OpenMP动态创建。
[0075] ②载入信号处理中所需的低通滤波器系数和抑制副瓣的窗函数系数。
[0076] 考虑到雷达接收机参数不会发生剧烈变化,则低通滤波器和窗函数的系数可以通过仿真得到,并以权库的形式存储在主机开辟的内存空间中。
[0077] ③主机端根据雷达中频信号的频率和波形,计算本振信号和匹配滤波器的系数,并传输到GPU的全局存储器。匹配滤波器系数由匹配滤波器函数与窗函数频域相乘得到,当雷达发射的信号频率和波形发生改变时,重新计算本振信号和匹配滤波器系数。
[0078] ④预先在主机中开辟每个信号处理子模块所需的显存空间和内存空间,并载入所述匹配滤波器系数;根据①中GPU的初始化设备参数划分数据处理的线程网格和线程块的维度。
[0079] (2)动态调度模块调用遗传任务调度算法以获得任务调度方式
[0080] 动态调度模块首先创建采样数据的计算任务队列,初始化可用设备资源。任务队列中存放脉冲重复周期数据信息,并按雷达回波数据的时间顺序封装设计成为先进先出(FIFO)队列。动态调度模块用于根据数据传输时间Ttran和数据计算时间Tproc,按照遗传算法解算出任务的分配方式。
[0081] 其中,上述遗传任务调度算法具体步骤如下:
[0082] ①任务调度的编码
[0083] 本发明结合异构计算平台的任务调度的特点,采用任务-设备相匹配的实数型编码方式,即染色体可表示为
[0084] R=(r1,r2,...,rj,...rn)  (1)
[0085] 式(1)中,rj(j=1,2,...,n)为区间[1,m]之间的正整数,染色体的长度等于任务的总体数量m,而rj代表的是设备编号,下标j表示第j个设备,j=1,2,...,n,n为CPU和GPU设备端的总数。假如R=(3,1,...,1,...4),则表示将第1个任务分配到第3个并行处理单元上,第2个任务分配到第1个并行处理单元上,依次类推。
[0086] ②适应度函数的确定
[0087] 异构计算平台的求解目标是最小化任务的最大计算时间。因此调度目标函数为:
[0088]
[0089] 其中,eij表示期望执行时间,di,j为二进制变量,当任务i分配至并行处理单元j上时,di,j=1,否则为0。定义适应度函数为:
[0090]
[0091] ③改进的种群初始化
[0092] 本发明采用基于启发式算法解码的改进遗传算法来初始化种群,即利用启发式算法生成较好且唯一的染色体。综合测试后,利用Max-min算法产生初始种群的单个个体,提高初始种群的平均适应度和算法的收敛速度。
[0093] ④交叉操作
[0094] 设交叉概率为pc,将种群数为M个染色体随机配对成M/2对,每对染色体随机产生(0,1]内的实数s,若s<pc,则该对染色体实施交叉。为了保证交叉后生成的新个体仍然是可行解,在父染色体中,随机选择两个相同的交叉位,交换交叉位之间的基因串,生成子染色体。
[0095] ⑤变异操作
[0096] 设变异概率为pm,对每个父染色体,随机产生(0,1]内的实数s,若s<pm,则对该染色体进行变异操作。先在父染色体中随机选择一基因值rj,然后随机产生一个r′j替换rj,其中r′j∈{1,2,...m}且r′j≠rj。
[0097] 由此,本发明提出的改进遗传任务调度算法的流程可描述如下:
[0098] 第1步:初始化遗传算法的种群大小popsize、终止进化代数gen、交叉概率Pc、变异概率Pm等参数。
[0099] 第2步:根据所述数据传输时间Ttran和数据计算时间Tproc计算第i个任务的期望执行时间eij,i=1,2,...,m,j=1,2,...,n;m为计算任务的总数,n为设备端的总数;。
[0100] 第3步:根据Max-min算法和随机产生方式,生成popsize个解作为初始种群。
[0101] 第4步:计算群体中第X条染色体的适应函数值f(X),X=1,2,...,popsize。
[0102] 第5步:计算第X条染色体的选择概率
[0103] 第6步:随机产生一个数r=random(0,1],与上述选择概率ps(X)作比较,保留适应度函数值高的染色体编码,剔除适应度函数值低的染色体编码,再根据交叉概率Pc和变异概率Pm完成交叉和变异操作以生成新种群;
[0104] 第7步:若种群的进化代数小于终止进化代数gen,则返回步骤4;若所述进化代数大于等于终止代数gen时,则输出种群中最优适应度值及其对应的染色体,根据该染色体确定任务调度方式。
[0105] (3)信号处理模块用于完成并行任务的划分和多任务并行处理计算。
[0106] 信号处理模块除负责对应的信号处理任务的计算以外,还用于记录并行处理单元计算任务的时间性能,包括已经完成的数据传输时间Ttran、数据计算时间Tproc和计算任务大小。若反馈的计算时间Ttotal大于预设的时间阈值Tthreshold,则重新搜索并建立可用的资源列表,计算任务执行结束的时候,相应执行性能的记录被更新。
[0107] 由于在GPU运算中,传输时间在GPU运算整体时间内占有一定比例,所以应尽量避免数据在内存和显存中频繁的传输。考虑到雷达信号处理的流程和GPU运算的机理,本发明将基于CPU+GPU的雷达信号处理任务调度分为I、II两部分,设计如下:
[0108] ①在信号处理模块中,正交相位检波、脉冲压缩和恒虚警是将雷达回波信号脉冲内的采样点在距离维上处理,因此主线程首先将任务队列中接收到的脉冲采样周期数据以轮询的方式发送到异构处理平台上的每个处理单元,测出上述模块的CPU计算时间和GPU通信时间、计算时间,以此作为任务调度算法的反馈信息。然后按算法生成的任务调度模式,以脉冲周期为单位将采样数据分配到不同的处理器。
[0109] ②动目标检测、动目标显示、I/Q两路求模以及脉冲积累/多通道取大是在方位维上处理,因此将脉压后的数据转置为Ns×m的数组,其中Ns为采样点数,m为完成动目标检测MTD所需的回波次数,即脉压后的输出。这里,将二维数组按照计算平台的CPU核数的2倍进行分割,即按照运行的主线程不超过2倍CPU核数的原则划分,然后数据依次发送到各处理器上,调度方法同上,然后将划分后的数据按调度次序分配至各处理器。
[0110] 多任务并行处理计算:
[0111] 基于CPU+GPU平台的信号处理并行算法则包含任务并行、数据并行和线程并行,任务并行是将实现雷达信号处理的功能分解到每一个计算设备。
[0112] ①主机端CPU首先创建雷达信号采样数据的任务队列,CPU主线程负责任务控制和任务划分,可优选使用OpenMP开辟的CPU并行线程配置设备ID和任务调度,并依次访问任务队列。采用轮询或异构任务调度算法给异构平台各处理单元分配任务,将m个脉冲的采样数据迭代分发至第m mod p个处理单元,以确保多个多核处理单元的工作可以获得负载平衡,其中p是多核处理单元的个数。由于GPU只对存储在显存中的数据并行计算,在不同的设备端创建异步数据流可以让设备完成计算任务前返回主机线程,让控制设备的主机线程继续从内存队列中获取下一段采样数据。
[0113] ②进行正交相位检波和脉冲压缩计算时,每个脉冲重复周期Tr内采样点在周期之间无关联性,实施数据级的并行可获得很好的加速比。动目标显示(MTI)/动目标检测(MTD)和脉冲积累是对相邻脉冲周期的同一距离单元采样点做信号处理,周期数据间存在相关性。为提高计算访存比,将整个脉冲压缩后的m×i的二维数组,划分成q个m×n数据域,二维数组域中的每行包含脉冲重复周期中n=i mod q个采样点,CPU/GPU同时计算重构后的数据域。其中,二维数据域映射成GPU的一个线程网格(Grid),如图2所示。每块GPU只对划分的数据域进行同一距离单元相邻周期采样点的迭代计算。执行完后将每块GPU计算的结果合并,避免了数据在显存和内存之间频繁传输。
[0114] ③根据信号处理的数学模型和CPU/GPU并行计算的硬件特性,将数值计算映射到CPU/GPU细粒度并发线程。GPU的线程的组织按照“线程网格-线程块-线程”的三层并行结构执行。通过线程块和线程的索引与处理的数据地址相匹配,每个线程的索引号与当前雷达回波信号采样值一一对应,并根据线程的全局索引号执行并行计算。各信号处理模块中的子模块GPU算法实现如下。
[0115] 1)正交相位解调子模块:
[0116] 对于执行正交相位解调的内核函数,每个线程按合并访问条件访问全局存储器中的雷达信号采样点。其中,滤波器系数以权库的形式存储在内存空间中。由于纹理存储器有高速片上缓存,因此滤波器系数可优选保存在纹理存储器中,由正交相位解调子模块计算时读取。
[0117] 第1步:在主机端为脉冲重复周期开辟显存空间,将采样点数据由主机内存复制到显存中的全局存储器,以供GPU计算时调用;
[0118] 第2步:将每一个采样点和本振信号输入到执行正交相位检波的内核函数中,将输入数据映射至线程块和线程。线程通过线程块和线程的索引来计算所需要处理数据的地址。每个线程的索引号与当前回波信号采样值一一对应,并根据所对应的全局索引号执行乘法运算;
[0119] 第3步:将本振信号和低通滤波器系数进行频域相乘。
[0120] 2)脉冲压缩子模块
[0121] 脉冲压缩子模块用于将正交相位检波的结果与匹配滤波器系数频域相乘,线性调频的脉压系数为复包络信号s(iTs)的共轭翻转,滤波器的单位脉冲响应h(iTs)表达式为:
[0122] h(iTs)=s*(Tr-Ts-iTs)  (4)
[0123] 采样数据长度为i点,需要将信号和匹配滤波器系数做2N≥i点离散傅里叶变换(DFT)变换。主要步骤如下:
[0124] 第1步:判断雷达信号波形是否发生变化,发生变化执行第2步,否则执行第4步。
[0125] 第2步:主机端根据雷达波形计算匹配滤波器系数。
[0126] 第3步:将匹配滤波器系数传输到设备端。
[0127] 第4步:对正交分解信号和匹配滤波器系数在频域进行变换,完成复数卷积。
[0128] 脉冲压缩的重点在于设计接收机相频特性与发射信号相位共轭匹配的压缩网络,即根据雷达信号波形获得匹配滤波器系数。
[0129] 3)动目标显示(MTI)子模块
[0130] MTI子模块接收脉冲压缩后的数据,先为脉冲对消单独开辟显存空间,用于存放脉冲压缩后的连续回波数据。显存空间尺寸为输入回波信号尺寸的K倍,K为对消后的脉冲个数。对消器延迟线加权系数封装在对应的内核函数中,并发线程的数量为脉冲重复周期包含的距离单元数。以3脉冲对消器为例,其时域表达式为:
[0131]
[0132] 式(5)中,x(iTs,m)表示第m个脉冲重复周期上第iTs时刻的两路数字信号。内核函数利用线程索引号维护连续脉冲重复周期内数值分别经延迟线加权,与当前脉冲重复周期内每个距离单元上的数据相加。
[0133] 4)动目标检测(MTD)子模块
[0134] 动目标检测子模块的具体实现为,将m组MTI的输出串接FFT滤波器组,m由FFT滤波器组的通道数决定。基于GPU的MTD的主要流程为:
[0135] 第1步:按先入先出方式存储MIT生成的m个通道的数据。首先将该相邻m组重复周期的数据作为一个矩阵存储起来,采取的存储方式与MTI处理回波数据方式相同;
[0136] 第2步:矩阵的转置。在矩阵的转置中,对全局存储器中按行排列的m组数据,按行读取,按列写入线程块中共享存储器。将m×Ns矩阵划分为[Ns/m]个m×m的子矩阵块,按行访问全局存储器中的子矩阵块中的数据。每一个线程块完成对应子矩阵块的转置。子矩阵中处于同一列的数据存储在不同的共享存储器中,以避免分区冲突。
[0137] 第3步:对矩阵同一列即相同距离单元的数据进行m点FFT运算,同时并行处理Ns批m点数据的傅立叶变换;
[0138] 第4步:调用转置函数,将傅立叶变换的结果转置回m×Ns矩阵,存储在全局存储器;
[0139] 第5步:对m×Ns复数矩阵求取模值。对相同距离单元的数据完成FFT变换后需要对I、Q两路数据求取模值,实现过程是对转置后m批Ns点的复数向量做求模运算,因此线程的总数为m·Ns。
[0140] 5)脉冲积累子模块
[0141] 脉冲积累子模块用于实现视频积累和多通道取大。视频积累的实现过程是在求模之后对脉冲重复周期上相同距离单元求和,即对m×Ns矩阵上每列的数据求取和值,而多通道取大的算法不同之处在于求取每列的最大值。视频积累在包络检波器后完成,常用的幅度检波器是线性检波器,其时域表达式为:
[0142]
[0143] 积累运算时,将矩阵中对应列数据从显存拷贝至线程块中的共享存储器,在每个线程块内采用并行归约的方式求取m点数据之和。图3为基于GPU的16点归约求和的示意图。
[0144] 线程块内的共享存储器开辟静态存储空间,以存储矩阵每列的数值。每循环时,线程与线程之间的求和操作都是毗邻的,每次循环中需要访问的共享存储器和参与运算的线程都比上一次要少,因此不会造成段内冲突。循环全部结束后,执行栅栏同步,将每个线程块内的计算结果存入Ns维全局存储器中。
[0145] 6)恒虚警检测子模块
[0146] 均值类恒虚警检测算法需要求取每个恒虚警检测单元X(lTs,m)两侧各Nlin/2(Nlin=8,16,32…)点的均值。将数据从全局存储器分段拷贝至线程块内的共享存储器,让每一个线程块单独计算一个检测单元前后对应点数的序列和,每一个线程块完成序列中一段连续区域的均值运算,其结果作为门限值与检测点作比较。
[0147] 基于GPU计算的恒虚警算法主要步骤如下:
[0148] 第1步:定义全局存储空间Unit_Before和Unit_After,两个变量分别存储检测单元的Ns个前参考单元和值与后参考单元和值。由于脉冲重复周期内第1~Nlin/2和(Ns-Nlin/2)~Ns个被检测单元的前后参考单元数量不足Nlin个,且数量不等。因此恒虚警内核函数中的线程块,需要开辟动态存储空间以存储参考单元数值。线程网格的任务分布如图4所示。
[0149] 求解检测单元前后临近的参考单元均值的内核函数的第0个线程块负责计算三部分的均值:
[0150] 1.第一点检测单元X(0,m),求后Nlin/2个参考单元均值。
[0151] 2.检测单元X(lTs,m)(l∈1~Nlin/2-1),求前0~l-1个参考单元的均值和后面Nlin/2个参考单元均值。
[0152] 3.检测单元X(lTs,m)(l∈Nlin/2~255),求前Nlin/2个参考单元的均值和后Nlin/2个参考单元均值。均值的求取同样按照脉冲积累部分提到的并行归约的方式求取序列的和值,然后再除以参考单元数量。
[0153] 中间线程块是指从第1个线程块到第(Ns+threads.x-1)/threads.x-2个线程块。该部分负责求取检测单元X(lTs,m)(l∈0~255+blockid.x·threads.x)的前Nlin/2个参考单元均值和后Nlin/2个参考单元均值。
[0154] 最后一个线程块同样负责计算三部分的均值:
[0155] 1.检测单元X(lTs,m)(l<Ns-Nlin/2),求前Nlin/2个参考单元均值和后Nlin/2个参考单元均值。
[0156] 2.检测单元X(lTs,m)(l∈Ns-Nlin/2~Ns-2),求前Nlin/2个参考单元均值和后l+1~Ns-1个参考单元均值。
[0157] 3.最后一点检测单元X(Ns-1,m),求前Nlin/2个参考单元均值。
[0158] 最后将前后检测单元取大/取小/求平均与检测单元做比较,以检测杂波背景下的目标信息。
[0159] 以下对本发明异构系统进行性能测试。
[0160] 测试系统的匹配脉压系数设计对应于13巴克码线性调频信号,动目标显示和动目标检测是双延迟线对消器和8点FFT多普勒滤波器组,将多普勒滤波器通道的输出进行求模和多通道取大。由于进行脉冲对消的头两个重复周期的回波信号只有在第三个脉冲回波信号到达时才能使用,因此以脉冲重复周期为单位完成一次完整的中频信号处理过程,需要进行10次正交相位检波和脉冲压缩、8次动目标显示以及1次动目标检测、多通道取大和恒虚警检测。假设雷达中频信号的中心频率在60MHz,雷达中频带宽10MHz,根据带通采样定律,采样频率范围必须满足以下条件:
[0161]
[0162] fH,fL为中频的上、下限频率,则无混叠采样频率可取为80MHz。工程上由于各种雷达工作机制差别大,同时为了说明采样点数量对整体信号处理执行时间的影响,设雷达的脉冲重复周期在0.5ms~2.0ms之间变化,对应采样点数量的变化范围是4×104~16×104。实验采用以下两种计算平台,其硬件参数及软件环境如表1所示。
[0163] 表1硬件参数及软件环境
[0164]
[0165] 这里将基于CPU+GPU的任务调度算法在计算平台1上测试,计算平台1由Intel Core i7+GeForce 9400构成,计算平台1上的CPU、GPU和CPU+GPU完成整个信号处理流程的执行时间对比如图5所示。
[0166] 从图5中可知,按照渐进最优的方式,将信号处理任务划分至CPU+GPU上,使得计算平台1上的整体计算效能充分发挥。调度的方式如图6所示,图6为采样点数量是4×104时,信号处理任务I、II在CPU和GPU上的任务分配。从图6中可以看到,任务调度算法将计算任务按照渐进最优的方式,分配在CPU、GPU上,以获得整体最短计算时间。
[0167] 将异构处理器任务调度算法在计算平台2上做相同的测试,计算平台2由Xeon E5620和4块Tesla C2050构成。在主机端内存较大的情况下,合理使用页锁定内存(Pinned Memory)与设备进行数据传输可以提高程序的性能,尤其是对信号处理这种主机与设备频繁进行数据传输的程序。在正交相位检波模块接收采样数据时,数据HostToDevice的传输方式采用zero-copy功能将采样点映射到设备地址。
[0168] 图7为基于计算平台2的多GPU同构系统的性能测试。GPU执行时间包含了采样数据在内存和显存之间的传输时间。测试的计算平台2调度结果是将信号处理任务I、II依次分发到四块GPU上。进一步测试发现,通过改变配置来逐渐减少GPU的数量,仅当1块Tesla C2050参与计算时,任务调度模块会只将信号处理任务I、II中划分的一个计算任务分配在Xeon E5620上,这很好的证明了任务调度算法在任务的划分同时,也对参与计算的异构多处理器进行优化配置。
[0169] 由图7可以看出在相同采样点数量的情况下,GPU数量的增加,执行时间不断减少,证明了多任务并行化算法的可扩放性,并且当计算平台中3个TeslaC2050参与计算的情况下,完全能够在10个脉冲重复周期内完成仿真算例中雷达信号处理的全过程。在满足信号处理实时性的前提条件下,利用某型雷达提供的脉压后采样数据进行功能验证和分析,实测数据的方位距离分辨单元为4096×10000个采样点,功能测试在计算平台2上进行。
[0170] 图8(a)是表示量程为40千米时,原始采集数据的P显效果。图8(b)是信号处理后的P显效果。由图8(b)可得到,依次经过MTI/MTD、多脉冲取大和恒虚警检测后,杂波和噪声得到了有效的抑制。雷达回波中的海杂波强度减弱,地物杂波被有效的滤除,目标回波信号保留下来,而经过恒虚警处理后,被噪声所淹没的小目标也能够被发现。实测数据经过信号处理的结果,证明了本发明可较好实现预期的雷达信号处理目的。
[0171] 本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。