基于多模态感知的人力资源评测系统转让专利

申请号 : CN202110344744.5

文献号 : CN112884458B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 黄永娜刘忠贵张琪

申请人 : 西华县建筑工程质量监督站

摘要 :

本发明涉及人工智能领域,具体涉及一种基于多模态感知的人力资源评测系统。该系统包括:信息获取模块,用于获取面试者在面试过程中的音频信息和视频信息;能力评分获取模块,用于将从音频信息中获取能力评分;特征获取模块包括视听权重图获取单元和特征序列获取单元;视听权重图获取单元用于获取视听权重图;特征序列获取单元用于获取总词数量、平均说话率和平均流利度;面试状态获取模块用于将预设时间段内的声谱图、视听权重图、特征序列和关键点序列输入多模态神经网络中获取面试状态;能力评估模块,用于根据面试状态评分和能力评分评估面试者的岗位胜任能力。该系统解决了每个面试官对面试者的岗位胜任能力评估存在主观偏见的问题。

权利要求 :

1.一种基于多模态感知的人力资源评测系统,其特征在于,该系统包括:信息获取模块,用于获取面试者在面试过程中的音频信息和视频信息;

能力评分获取模块,用于将从所述音频信息中获取的文本信息与面试题的关键词进行匹配得到能力评分;

特征获取模块,包括视听权重图获取单元和特征序列获取单元;

所述视听权重图获取单元,用于对预设时间段内的视频信息中的面部和手部进行关键点检测得到多张热力图,对所述多张热力图叠加后进行阈值分割得到分割图;获取每张所述热力图的ROI区域图像,ROI区域包括鼻子、嘴巴和手掌;分别将每个ROI区域内的全部关键点的平均移动速度序列和通过音频信息获取的短时能量序列进行哈希编码并计算汉明距离,根据所述汉明距离对多张所述ROI区域图像的并集图分配权重得到权重图;根据所述分割图、所述权重图和像素均为1的全一图得到视听权重图,所述全一图与所述权重图的大小相等;其中所述根据所述汉明距离对多张所述ROI区域图像的并集图分配权重的步骤包括:当音频信息为噪声时,为并集图中的每个ROI区域分配的权重为0,为非ROI区域分配的权重为经验权重;当音频信息为非噪声时,为并集图中的每个ROI区域分配的权重为相应的汉明距离的倒数,为非ROI区域分配的权重为0;

所述特征序列获取单元,用于对所述文本信息进行分析,获取所述预设时间段内的特征序列,所述特征序列包括总词数量、平均说话率和平均流利度;

面试状态获取模块,用于将所述预设时间段内的关键点序列、所述音频信息的声谱图、所述视听权重图和所述特征序列输入多模态神经网络中获取所述面试者的面试状态;

能力评估模块,用于根据所述面试过程中的面试状态序列获取面试状态评分,并结合所述能力评分评估所述面试者的岗位胜任能力。

2.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述多模态感知神经网络包括第一分支网络、第二分支网络、第三分支网络和分类网络;

所述第一分支网络包括时序特征提取编码器、第一全连接网络和注意力分支网络;所述注意力分支网络包括特征拟合编码器和第二全连接网络;

所述时序特征提取编码器的输入为所述关键点序列,所述第一全连接网络的输入为以所述时序特征提取编码器的输出与注意力分支网络的输出相乘后的向量;所述特征拟合编码器的输入为所述视听权重图,第二全连接网络的输入为所述特征拟合编码器的输出的注意力图;

所述第二分支网络包括特征提取编码器和第三全连接网络;所述特征提取编码器的输入为所述声谱图,所述第三全连接网络的输入为所述特征编码器的输出与所述注意力图相乘后的图像;

所述第三分支网络包括第四全连接网络,所述第四全连接网络的输入为所述特征序列;

所述分类网络包括第五全连接网络,所述第五全连接网络的输入为所述第一全连接网络的输出、所述第三全连接网络的输出和所述第四全连接网络的输出相加后的特征向量,输出为所述面试状态。

3.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述能力评分获取模块包括孪生网络,所述孪生网络用于获取所述文本信息与所述关键词之间的相似度,所述相似度为所述能力评分。

4.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述视听权重图获取单元包括平均移动速度序列获取子单元,所述平均移动速度序列获取子单元用于对所述多张热力图进行凸包检测得到多张ROI区域图像,并获取每个ROI区域对应的凸包集合内的全部关键点的平均移动速度序列。

5.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述权重与每个ROI区域对应的汉明距离的倒数呈正相关关系。

6.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述视听权重图是由所述权重图与所述全一图的像素相加后与所述分割图进行像素相乘得到的图像。

7.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述特征序列获取单元包括:

平均流利度获取子单元,用于获取预设时间段内短时能量大于能量阈值的点数占总点数的比值,根据所述比值和所述总词数量得到所述平均流利度。

8.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述平均移动速度序列和所述短时能量序列在预设时间段内的时序上一一对应。

9.根据权利要求1所述的一种基于多模态感知的人力资源评测系统,其特征在于,所述关键点检测采用编码器‑解码器结构套用沙漏网络的关键点检测神经网络。

说明书 :

基于多模态感知的人力资源评测系统

技术领域

[0001] 本发明涉及人力资源、人工智能技术领域,具体涉及一种基于多模态感知的人力资源评测系统。

背景技术

[0002] 求职面试在大多数公司中起着关键的作用,它能帮助面试者选择合适的就业机会。为了让公司更好地利用面试者的面试信息,在招聘有前途的面试者时做出更合理的决
定,必须采用更稳健和可靠的方法对面试者的潜力进行评级。从面试者的角度出发,应该用
一个能够估计他们真正潜力的统一标准来评估他们的潜力,这将使面试者不会错过可能的
就业机会。
[0003] 尽管求职面试对人力资源管理很重要,但在大多数商业领域,面试者的能力往往是基于面试官的经验判断的,由于每个面试官都有一个独特的评价标准,在这种情况下,反
馈有关于面试者的面试信息可能存在主观偏见。

发明内容

[0004] 为了解决上述技术问题,本发明的目的在于提供一种基于多模态感知的人力资源评测系统,所采用的技术方案如下:
[0005] 本发明实施例提供了一种基于多模态感知的人力资源评测系统,该系统包括:
[0006] 信息获取模块,用于获取面试者在面试过程中的音频信息和视频信息;
[0007] 能力评分获取模块,用于将从所述音频信息中获取的文本信息与面试题的关键词进行匹配得到能力评分;
[0008] 特征获取模块,包括视听权重图获取单元和特征序列获取单元;
[0009] 所述视听权重图获取单元,用于对预设时间段内的视频信息中的面部和手部进行关键点检测得到多张热力图,对所述多张热力图叠加后进行阈值分割得到分割图;获取每
张所述热力图的ROI区域图像,ROI区域包括鼻子、嘴巴和手掌;分别将每个ROI区域内的全
部关键点的平均移动速度序列和通过音频信息获取的短时能量序列进行哈希编码并计算
汉明距离,根据所述汉明距离对多张所述ROI区域图像的并集图分配权重得到权重图;根据
所述分割图、所述权重图和像素均为1的全一图得到视听权重图;
[0010] 所述特征序列获取单元,用于对所述文本信息进行分析,获取所述预设时间段内的特征序列,所述特征序列包括总词数量、平均说话率和平均流利度;
[0011] 面试状态获取模块,用于将所述预设时间段内的所述音频信息的声谱图、所述视听权重图、所述特征序列和关键点序列输入多模态神经网络中获取所述面试者的面试状
态;
[0012] 能力评估模块,用于根据所述面试过程中的面试状态序列获取面试状态评分,并结合所述能力评分评估所述面试者的岗位胜任能力。
[0013] 进一步地,所述多模态感知神经网络包括第一分支网络、第二分支网络、第三分支网络和分类网络;
[0014] 所述第一分支网络包括时序特征提取编码器、第一全连接网络和注意力分支网络;所述注意力分支网络包括特征拟合编码器和第二全连接网络;
[0015] 所述时序特征提取编码器的输入为所述关键点序列,所述第一全连接网络的输入为以所述时序特征提取编码器的输出与注意力分支网络的输出相乘后的向量;所述特征拟
合编码器的输入为所述视听权重图,第二全连接网络的输入为所述特征拟合编码器的输出
的注意力图;
[0016] 所述第二分支网络包括特征提取编码器和第三全连接网络;所述特征提取编码器的输入为所述声谱图,所述第三全连接网络的输入为所述特征编码器的输出与所述注意力
图像相乘后的图像;
[0017] 所述第三分支网络包括第四全连接网络,所述第四全连接网络的输入为所述特征序列;
[0018] 所述分类网络包括第五全连接网络,所述第五全连接网络的输入为所述第一全连接网络的输出、所述第三全连接网络的输出和所述第四全连接网络的输出相加后的特征向
量,输出为所述面试状态。
[0019] 进一步地,所述能力评分获取模块包括孪生网络,所述孪生网络用于获取所述文本信息与所述关键词之间的相似度,所述相似度为所述能力评分。
[0020] 进一步地,所述视听权重图获取单元包括平均移动速度序列获取子单元,所述平均移动速度序列获取子单元用于对所述多张热力图进行凸包检测得到多张ROI区域图像,
并获取每个ROI区域对应的凸包集合内的全部关键点的平均移动速度序列。
[0021] 进一步地,其特征在于,所述视听权重图获取单元还包括:
[0022] 噪声判断子单元,用于将所述每个ROI区域对应的汉明距离都小于噪声阈值时的所对应的所述音频信息判断为噪声;
[0023] 权重分配子单元,用于当所述音频信息为噪声时,为所述并集图中的每个ROI区域分配的权重为0,为非ROI区域分配的权重为经验权重;当所述音频信息为非噪声时,根据汉
明距离的倒数为所述并集图中的每个ROI区域分配权重,非ROI区域分配的权重为0。
[0024] 进一步地,所述权重与每个ROI区域对应的汉明距离的倒数呈正相关关系。
[0025] 进一步地,所述视听权重图是由所述权重图与所述全一图的像素相加后与所述分割图进行像素相乘得到的图像。
[0026] 进一步地,所述特征序列获取单元包括:平均流利度获取子单元,用于获取预设时间段内短时能量大于能量阈值的点数占总点数的比值,根据所述比值和所述总词数量得到
所述平均流利度。
[0027] 进一步地,所述平均移动速度序列和所述短时能量序列在预设时间段内的时序上一一对应。
[0028] 进一步地,所述关键点检测采用编码器‑解码器结构套用沙漏网络的关键点检测神经网络。
[0029] 本发明实施例至少具有如下有益效果:
[0030] 1.本发明实施例通过多模态感知神经网络从面试者在面试过程中的音频信息、视频信息和通过音频信息得到的文本信息中获取面试者的面试状态评分,根据文本信息获取
面试者的能力评分,根据能力评分和面试状态评分综合评估面试者的岗位胜任能力,解决
了现有技术中每个面试官对面试者的岗位胜任能力评估存在主观偏见的问题。
[0031] 2.本发明实施例根据面试者的音频信息、视频信息和文本信息综合判断面试者的面试者状态,使获取的面试者的岗位胜任能力更加准确。
[0032] 3.本发明实施例通过视听权重图对多模态神经网络进行监督训练,提高了多模态神经网络的收敛速度和分类能力,并降低了视觉噪声和音频噪声的影响。

附图说明

[0033] 为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅
仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,
还可以根据这些附图获得其它附图;
[0034] 图1为本发明一个实施例所提供的一种基于多模态感知的人力资源评测系统的结构框图;
[0035] 图2为本发明一个实施例所提供的一种脸部关键点的示意图;
[0036] 图3为本发明一个实施例所提供的一种手部关键点的示意图;
[0037] 图4为本发明一个实施例所提供的一种多模态神经网络的结构示意图。

具体实施方式

[0038] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于多模态感知的人力资源评测系统,其
具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或
“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或
特点可由任何合适形式组合。
[0039] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0040] 下面结合附图具体的说明本发明所提供的一种基于多模态感知的人力资源评测系统的具体方案。
[0041] 请参阅图1,其示出了本发明一个实施例提供的一种基于多模态感知的人力资源评测系统的结构框图,该系统包括:
[0042] 信息获取模块10,用于获取面试者在面试过程中的音频信息和视频信息。
[0043] 能力评分获取模块20,用于将从音频信息中获取的文本信息与面试题的关键词进行匹配得到能力评分。
[0044] 特征获取模块30,包括视听权重图获取单元和特征序列获取单元。
[0045] 视听权重图获取单元301,用于对预设时间段内的视频信息中的面部和手部进行关键点检测得到多张热力图,对多张热力图叠加后进行阈值分割得到分割图;获取每张热
力图的ROI区域图像,ROI区域包括鼻子、嘴巴和手掌;分别将每个ROI区域内的全部关键点
的平均移动速度序列和通过音频信息获取的短时能量序列进行哈希编码并计算汉明距离,
根据汉明距离对多张ROI区域图像的并集图分配权重得到权重图;根据分割图、权重图和像
素均为1的全一图得到视听权重图。
[0046] 特征序列获取单元302,用于对文本信息进行分析,获取预设时间段内的特征序列,特征序列包括总词数量、平均说话率和平均流利度。
[0047] 面试状态获取模块40,用于将预设时间段内的音频信息的声谱图、视听权重图、特征序列和关键点序列输入多模态神经网络中获取面试者的面试状态。
[0048] 能力评估模块50,用于根据面试过程中的面试状态序列获取面试状态评分,并结合能力评分评估面试者的岗位胜任能力。
[0049] 综上所述,本实施例提供了一种基于多模态感知的人力资源评测系统,该系统通过多模态感知神经网络从面试者在面试过程中的音频信息、视频信息和通过音频信息得到
的文本信息中获取面试者的面试状态评分,根据文本信息获取面试者的能力评分,根据能
力评分和面试状态评分综合评估面试者的岗位胜任能力,解决了现有技术中每个面试官对
面试者的岗位胜任能力评估存在主观偏见的问题。
[0050] 优选的,本实施例中的信息获取模块10用于采用具备拾音器的摄像头采集面试者面试时的音频信息和视频信息,并对语音数据和视频数据进行存储。
[0051] 本实施例中的面试为视频面试,且没有面试官,通过面试岗位的固定题目对面试者进行问答。
[0052] 优选的,本实施例中的能力评分获取单元20包括语音识别单元201和文本匹配单元202。
[0053] 语音识别单元201,用于采用语音识别技术将面试者面试时的音频信息转化为文本信息。
[0054] 本发明实施例中采用的语音识别技术为Deepspeech模型,Deepspeech模型包括声学模型和语言模型。声学模型包括CNN‑CTC、GRU‑CTC、CNN‑RNN‑CTC等;语言模型包括
transformer、CBHG等。
[0055] 本实施例中的声学模型采用CNN‑RNN‑CTC,语言模型采用CBHG。在其他实施例中,实施者可根据情况选择合适的声学模型和语言模型。
[0056] 文本匹配单元202,用于采用文本匹配算法将文本信息和面试题的关键词进行匹配,获取相似度作为能力评分。相似度越高,匹配度越高,面试者的回答越准确。
[0057] 本发明实施例中文本匹配算法采用有监督的孪生网络,孪生网络将文本信息和面试题的关键词映射到同一空间,并进行匹配。孪生网络包括表征层和匹配层。表征层进行编
码,可采用MLP、CNN、RNN、Self‑attention、Transformer encoder、BERT等;匹配层进行交互
计算,可采用点积、余弦距离、高斯距离、MLP、相似度矩阵等。常用的孪生网络模型包括:
DSSM、CDSSM、MV‑LSTM、ARC‑I、CNTN、CA‑RNN、MultiGranCNN等。
[0058] 本实施例中采用的孪生网络模型为DSSM,表征层采用MLP,匹配层采用余弦距离。在其他实施例中,实施者可根据情况选择合适的孪生网络模型。
[0059] 优选的,本实施例中的视听权重图获取单元301包括短时能量序列获取子单元、关键点获取子单元、平均移动速度获取子单元、汉明距离获取子单元、噪声判断子单元、分割
图获取子单元、权重分配子单元和视听权重图获取子单元。
[0060] 短时能量序列获取子单元,用于根据语音信号获取预设时间段内经过归一化的短时能量序列。
[0061] 具体到本实施例中,预设时间段为T,在本发明实施例中T取值为3s。在其他实施例中,实施者可根据情况选择预设时间段。
[0062] 短时能量体现语音信号在不同时刻的强弱程度,短时能量的公式如下:
[0063]
[0064] 其中,En为第n帧语音信号的短时能量,Xn表示第n帧语音信号,N为语音信号的帧长。
[0065] 关键点获取子单元,用于采用关键点检测神经网络从视频数据中获取预设时间段内的多张热力图。
[0066] 本实施例中的关键点检测神经网络采用编码器‑解码器(Encoder‑Decoder)结构套用沙漏网络的网络结构,具体训练训练过程如下:
[0067] (1)对样本图像训练集中的每一类关键点进行标注,将每一类关键点分别进行高斯核卷积得到多张标签图像;
[0068] 请参阅图2和图3,本实施例中标注的关键点包括面试者的脸部关键点和手部关键点。脸部关键点包括眉毛、眼睛、鼻子、嘴和脸部轮廓共68个关键点;手部关键点包括左手和
右手共12个关键点。每一个关键点为一类。
[0069] (2)根据归一化后的标签图像和样本图像对关键点检测编码器和关键点检测解码器进行端到端的训练。训练过程为:关键点检测编码器对归一化后的样本图像进行特征提
取得到特征图;关键点检测解码器对特征图进行上采样得到每一类关键点的子热力图。
[0070] (3)关键点检测神经网络采用Heatmaps Loss优化网络参数。
[0071]
[0072] 其中,C为关键点类别数量,I为图像的长,J为图像的高,Pcij为c类关键点在位置(i,j)处的得分,得分越高就越可能是关键点,N为关键点数量,α、β为超参数,需要人为设
定。
[0073] 对每一类关键点的子热力图进行后处理得到每一类关键点的坐标信息,并将每一类关键点的子热力图进行叠加得到热力图。
[0074] 后处理方法包括非极大值抑制、Softargmax等,本实施例中采用非极大值抑制的方法进行后处理。在其他实施例中,实施者可根据情况选择。
[0075] 平均移动速度序列获取子单元,用于对每张热力图中的每一类部位关键点进行凸包检测得到对应的凸包点集合,每一个凸包点集合围成的区域为一个ROI区域,计算每一个
凸包点集合中全部凸包点在相邻两帧热力图之间的平均移动速度,并获取预设时间段内的
每一个ROI区域的平均移动速度序列。
[0076] 本实施例中选取的面试者的部位为鼻子、嘴和两个手掌。
[0077] 以下给出一个获取嘴部ROI区域的例子:对嘴部关键点集合进行凸包检测,得到嘴部凸包点集合,嘴部凸包点集合所围成的区域为嘴部ROI区域。
[0078] 每一个ROI区域对应的平均移动速度V为:
[0079]
[0080] 其中,Q为每一个凸包点集合中关键点的数量,distance为欧式距离, 表示第N帧中第i个凸包点坐标。
[0081] 汉明距离获取子单元,用于将预设时间段内的短时能量序列和平均移动速度序列在时序上一一对应后,采用哈希编码将其转换到共同的秩相关空间并计算汉明距离。
[0082] 本实施例中采用WTA哈希编码将短时能量序列和平均移动速度序列的非线性信息变换到有序空间,捕捉这些特征的部分排序统计信息,将两种不同形态的特征转换到共同
的秩相关空间进行相关分析,从而减少音频和视频之间的语义差异。
[0083] 汉明距离反映出音频信息和视频信息之间的相关性,汉明距离越小,相关性越高。
[0084] 噪声判断子单元,用于将每个ROI区域对应的汉明距离都小于噪声阈值时的对应的音频信息判断为噪声。
[0085] 本实施例中的噪声阈值为50。在其他实施例中,实施者可根据情况选择合适的噪声阈值。
[0086] 分割图获取子单元,用于将预设时间段内的多张热力图按像素叠加得到显著图,对显著图进行阈值分割,将大于像素阈值的像素设置为1,小于像素阈值的像素设置为0,得
到分割图。
[0087] 本实施例中的像素阈值受视频帧率的影响,本实施例中的视频帧率为60帧,像素阈值为9。在其他实施例中,实施者可根据情况设置像素阈值。
[0088] 权重分配子单元,用于根据汉明距离为并集图分配权重。
[0089] 获取并集图的具体步骤为:获取预设时间段内的ROI区域图像,并从每5帧ROI区域图像中提取一帧ROI区域图像,将提取的多帧ROI区域图像在时序上相加得到并集图。
[0090] 分配权重的具体步骤为:用于当音频信息为噪声时,为并集图中的每个ROI区域分配的权重为0,为非ROI区域分配的权重为经验权重;当音频信息为非噪声时,为并集图中的
每个ROI区域分配的权重为相应的汉明距离的倒数,为非ROI区域分配的权重为0。
[0091] 需要注意的是,并集图中的不同的ROI区域可能会有交集,交集区域的权重为相交的ROI区域的权重相加。
[0092] 权重λi的计算公式如下:
[0093]
[0094] 其中,di为第i个ROI区域对应的汉明距离,n为ROI区域的数目。
[0095] 视听权重图获取子单元,用于根据分割图、权重图和与其大小相等像素值全为1的全一图得到视听权重图。
[0096] 视听权重图的计算方法如下:
[0097] Image′=ImageB*(ImageC+ImageD)
[0098] 其中,Image′为视听权重图,ImageB为分割图,ImageC为权重图,ImageD为全一图。
[0099] 优选的,本实施例中的特征序列获取单元302包括总词数量获取子单元、平均说话率获取子单元和平均流利度获取子单元。
[0100] 总词数量获取子单元,用于根据文本信息获取面试者回答第i道面试题时预设时间段内的总词数量WordNi。
[0101] 平均说话率获取子单元,用于获取面试者回答第i道面试题时预设时间段内的平均说话率Say。
[0102] 平均说话率为:
[0103]
[0104] 平均流利度获取子单元,用于根据预设时间段内的短时能量和总词数量获取平均流利度Fluency。
[0105] 平均流利度Fluency为:
[0106]
[0107] 其中,A为预设时间段内的短时能量点数,A′为预设时间段内经过归一化的短时能量值大于能量阈值的点数。
[0108] 具体到本实施例中的能量阈值为0.25,大于能量阈值的短时能量点数为说话状态。
[0109] 优选的,请参阅图4,本实施例中的多模态神经网络包括第一分支网络401、第二分支网络402、第三分支网络403和分类网络404。
[0110] 第一分支网络401包括时序特征提取编码器、第一全连接网络和注意力分支网络;注意力分支网络包括特征拟合编码器和第二全连接网络。
[0111] 时序特征提取编码器的输入为关键点序列,第一全连接网络的输入为以时序特征提取编码器的输出与注意力分支网络的输出相乘后的向量;特征拟合编码器的输入为视听
权重图,第二全连接网络的输入为特征拟合编码器的输出的注意力图。
[0112] 本实施例中获取关键点序列的步骤为:由于获取3秒内的全部关键点会导致关键点序列过长,因此每5帧获取一次关键点信息。当3秒内的帧数为60时,关键点序列为[12,
80,2],经过重塑操作得到[12,160]的形状矩阵。
[0113] 特征拟合编码器的输出为多通道的小尺寸概率图;将小尺寸概率图与同尺寸的全一图相加得到注意力图像。
[0114] 第二全连接网络的输入为注意力图像经过Flatten展平操作得到的高维向量,输出为低维向量。低维向量的维数与时序特征提取编码器输出的关键点序列特征向量的维数
相同,本实施例中均为128维。在其他实施例中,实施者可根据实际情况选择维数。
[0115] 第二分支网络402包括特征提取编码器和第三全连接网络;特征提取编码器的输入为声谱图,第三全连接网络的输入为特征编码器的输出与注意力图像相乘后的图像。
[0116] 本实施例中获取声谱图的步骤为:对预设时间段内的音频信息进行分帧加窗操作后得到多帧信号,对每一帧信号进行快速傅里叶变换将时域信号转化为频域信号得到频谱
图,对每一帧频谱图在时间上堆叠得到声谱图。
[0117] 特征提取编码器的输出为多通道的声谱特征图。声谱特征图的通道数量与注意力图像的通道数量相同,本实施例中均为256,实施者可根据实际情况选择通道数量。
[0118] 第三分支网络403包括第四全连接网络,第四全连接网络的输入为特征序列。
[0119] 分类网络404包括第五全连接网络,第五全连接网络的输入为第一全连接网络的输出、第三全连接网络的输出和第四全连接网络的输出相加后的特征向量,输出为面试者
在预设时间段内的面试状态。
[0120] 第五全连接网络的训练过程为:
[0121] (1)对面试者的状态每3秒进行一次标注,本实施例中标注的面试状态为:说话、投入、停顿、紧张、尴尬、思考、冷静、其他。
[0122] (2)损失函数采用Focal loss,该函数用于真实值gt和预测值pr之间的分类焦点损失。公式如下:
[0123] L(gt,pr)=‑gt*α*(1‑pr)γ*log(pr)
[0124] 其中,α为加权因子,γ用于调节因子(1‑pr)的聚焦参数。
[0125] 优选的,本实施例中的能力评估模块50包括面试状态评分获取单元501和胜任能力获取单元502。
[0126] 面试状态评分获取单元501,用于对面试者的整个面试过程中的面试状态进行统计,获取每个面试状态的比例,并为每个面试状态赋值,得到面试状态评分。
[0127] 本实施例中为每类面试状态的赋值如下:
[0128] 说话:2分;投入:3分;停顿:‑1分;紧张:‑2分;尴尬:‑3分;思考:‑0.5分;冷静:‑1分;其它:0分。
[0129] 面试状态评分Z为:
[0130]
[0131] 其中,statusi为第i类面试状态的比例,scorei为第i类面试状态的评分,U为面试状态的类别总量。
[0132] 胜任能力获取单元502,用于根据能力评分和面试状态评分得到面试者的岗位胜任能力平评分。
[0133] 岗位胜任能力评分为:
[0134] F=W1*C+W2*Z
[0135] 其中,C为相似度,表示面试者的能力评分,Z为面试状态评分,W1、W2为相应的评分因子,本实施例中取值分别为W1=3,W2=1。
[0136] 最终根据每个面试者的岗位胜任能力评分生成报表数据,以使面试官对面试者的能力进行评价。
[0137] 需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一
些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且
仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连
续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者
可能是有利的。
[0138] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0139] 以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。