基于互联网大数据的人才服务双向推荐方法及系统转让专利

申请号 : CN201811363817.X

文献号 : CN109558429B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 韩荣奎

申请人 : 广东百城人才网络股份有限公司

摘要 :

基于互联网大数据的人才服务双向推荐方法,包括数据接入模块、数据匹配计算集群和数据派发模块三大部分,其中:在数据接入模块中设有求职招聘行为数据库和简历职位业务数据库;在数据匹配计算集群设有活跃用户缓存、数据文本分析结果缓存、求职者匹配运算器和职位匹配运算器;数据派发模块设有结果数据库,具体实施步骤为:第一步:数据理解,第二步:数据清理;第三步:特征选取和评估;第四步:计算和存储;第五步:推荐;第六步:增量及更新数据。本发明通过捕捉用户的行为,实时采集人才及职位信息,实现海量简历与职位数据的实时精准匹配,并且能够给用户推荐更加符合求职者意向的职位,大大提高服务效率。

权利要求 :

1.基于互联网大数据的人才服务双向推荐方法,具体实施步骤为:

第一步:数据理解:确定获取数据的类别,明确各个字段的含义;

第二步:数据清理:筛选掉不符合数据;检查从数据库筛选出来的数据是否有乱码,然后进行解码,调整;把数值型的特征维度统一为整数型,完成数据异构到同构的过程;

第三步:特征的选取和评估:选择出数据需要分析的特征值,结合大数据分析,根据影响因素确定对应的权值;

第四步:计算和存储:将特征数据输入数据匹配计算公式进行分析、计算并储存到输出数据库;

第五步:推荐:根据计算结果,为用户推荐信息;

第六步:增量及更新数据:每日进行增量及修改数据计算,剔除屏蔽的求职者和职位,将新增的求职者和职位分别继续按上述步骤进行推荐;

所述第三步中特征的选取和评估包括招聘企业的特征选取和评估、应聘人才的特征选取和评估,其中招聘企业的特征选取和评估步骤为:(1)企业对求职者的需求分析:企业职位的特征包含学历、性别、住宿条件、职位类型、年龄、工作经历、福利待遇,薪资、工作地点、职位描述、面试邀请者;从上述的特征值中要选取最重要的几个特征,或者将部分特征合并,上述的特征有一部分是硬性特征,经过客服的筛选,有些特征是一定要满足公司的需要,根据这些硬性特征,可以筛掉一部分不符合的数据,再对剩余的数据进行文本分析;

(2)特征选择:

(2.1)工作地点:工作地点会和求职者的期望地点相匹配,首先工作地点在三个期望地点里面,将会给这个特征向量赋值为1,如果三个期望地点都不在,那么会设置为0;这个特征设置为公司可选择特征,有些公司对地点要求很严格,而有些公司不会有这么严格的要求,所以在最后会推荐出两个表,分别是硬性符合地点要求的推荐列表和对工作地无要求的推荐列表;

(2.2)工龄:根据面试邀请者的工龄情况做一个等级统计,并进行量化;即:面试邀请者中工龄出现次数最多的年限,分值为1;出现次数第二多的年限,分值为0.7,以此类推,分值区间为[0,0.3,0.7,1];

(2.3)企业职位要求匹配度:即把企业的职位描述作为一个向量,将职位描述文本分词,去停用词,计算词频;最后将每个词的词频分等级,出现次数大于两次的,分值为1,出现次数等于一次的,分值为0.5,最后将每位求职者的职业技能分词,去停用词,进行匹配;

(2.4)职位偏好匹配度:即拿面试邀请者的工作经历与职业技能进行汇总,然后分词,去停用词,计算词频;最后将每个词的词频分等级,分级策略如下:词频大于等于面试邀请者人数70%的词,分值为1;大于等于面试邀请者人数40%,小于面试邀请者人数70%的词,分值为0.7;大于等于面试邀请者人数10%,小于面试邀请者人数40%的词,分值为0.3;最后将每位求职者的工作经历和职业技能汇总后分词,去停用词,进行匹配;

最后对特征向量进行归一化处理,将分值都压缩在[0,1]区间;

在学历和性别的基础上,再选择出上述4个特征,作为每位求职者的基本画像,将第三维特征,即企业职位要求匹配度里面的词频大于2的词,与第四维特征,即职位偏好匹配度中的面试邀请者分词并去停用词后的词进行交集操作,筛选出交集的词,最后再加上职位名称出现的首个名词,作为该职位的关键词列表,再拿每位求职者的职业技能去跟该关键词列表匹配,得出的匹配数量占关键词总量的比重,作为第三维度的奖励分值,按1:1的分值直接加在每位求职者的第三维度的分值上;

某些职位没有面试邀请者,也就是没有历史记录的情况下,只选取上述2.1,2.2,2.3的特征,即以该职位的基本信息为标准,先给该企业推荐求职者,之后有了面试邀请者的历史记录,再以有面试邀请者的情况给企业更新推荐结果;

应聘人才的特征选取和评估步骤为:

(1)个人职位的推荐分析:个人的简历包含个人能力、项目经历或实习经历、求职意向、薪资水平、学历、获奖证书、个人简介;

(2)特征选择:

(2.1)求职意向是首先要考虑的因素,求职意向为一个特征向量;

(2.2)个人能力也是一个比较关键的因素,将这个也设置成一个特征向量,并去停用词,分词;

(2.3)学历:这个因素用做一些公司的筛选;

(2.4)工作地:以省份进行划分;

(2.5)工资:对工资进行不同区段的划分,根据这些划分来给定这个特征的数值;

选取的所有特征,最后都会使用归一化,将分值都压缩在[0,1]区间,归一化公式:

score_normal=(score-score_min)/(score_max-score_min);

所述第四步中将特征数据输入数据匹配计算公式进行分析、计算包括招聘企业的特征数据的分析、计算和应聘人才的特征数据的分析、计算,其中招聘企业的特征数据的分析、计算步骤为:特征选择完毕后,选择带有权值的余弦相似度算法进行计算,具体算法描述如下:

设i={1,2,3,4}表示工作地点、工龄、企业职位要求匹配度、职位偏好匹配度这四个属性,j={1,2,3,4,5}表示求职意向、个人能力、学历、工作地、工资这五个属性,用U表示求职者,V表示企业职位,Pui表示求职者u对属性i的偏好,Qvi表示企业招聘职位v的属性i的值,Quj表示求职者u的个人基本信息中属性j的值,Pvj表示职位v对属性j的偏好,得到四个特征向量之后,来计算求职者基本信息满足企业偏好的程度,表示为compat(Qw,Pv),其中权值wj的计算公式是:M表示招聘职位v历史中面试邀请者总数,ajk表示在职位v已邀请的所有求职者中,第k份简历是否满足职位信息中的第j个属性,如果第k份简历满足职位招聘要求中的第j个属性,则ajk等于1,否则等于0;

特征权值的计算策略如下:在面试邀请者中,分别统计出4个特征的偏好,并算出符合上述4个特征的偏好的面试邀请者的数量,然后相加作为总数,每个特征的权值就用该特征的偏好的面试邀请者的数量占总数的百分比作为每个特征的权值,最后进行加权后作余弦相似度计算,得出每位求职者与该职位的匹配分值;

另外,如果只使用余弦相似度,会出现一个特殊情况,若五个特征值相同,那么余弦值会出现结果为一的情况,因此在最终分值排序上,加了如下策略:对这些算出来的分值相加,作为一个标准,那么匹配后的分数就有两部分组成,首先是余弦相似度的结果,还一个是这个职位的特征值总和,最后进行综合排序,得出推荐结果;

应聘人才的特征数据的分析、计算步骤为:

挑选出求职意向、个人能力、学历、工作地、工资这五个特征,把上述的五个特征与企业需要招聘职位的五个相关特征经行匹配,具体方法如下所示:设i={1,2,3,4}表示工作地点、工龄、企业职位要求匹配度、职位偏好匹配度这四个属性,j={1,2,3,4,5}表示求职意向、个人能力、学历、工作地、工资这五个属性,用U表示求职者,V表示企业职位,Pui表示求职者u对属性i的偏好,Qvi表示企业招聘职位v的属性i的值,Quj表示求职者u的个人基本信息中属性j的值,Pvj表示职位v对属性j的偏好,得到四个特征向量之后,来计算求职者基本信息满足企业偏好的程度,表示为compat(Qv,Pu),其中权值wi的计算方法是:N表示招聘职位v历史中面试邀请者总数,aik表示在求职者u已浏览的所有职位中,第k个职位是否满足求职者偏好中的第i个属性,如果第k份简历满足职位招聘要求中的第i个属性,则aik等于1,否则等于0。

2.如权利要求1所述的基于互联网大数据的人才服务双向推荐方法,其特征在于:所述的第五步中,为企业推荐求职者的信息,为用户推荐企业的职位信息。

3.一种实现权利要求1所述的人才服务双向推荐方法的系统,其特征在于:包括数据接入模块、数据匹配计算集群和数据派发模块,在数据接入模块中设有求职招聘行为数据库和简历职位业务数据库;在数据匹配计算集群中设有活跃用户缓存、数据文本分析结果缓存、求职者匹配运算器和职位匹配运算器;在数据派发模块中设有结果数据库;所述的求职招聘行为数据库的包含了招聘企业用户和求职个人的交互行为数据,会手动给企业推荐相关的求职者,推荐给企业的求职者,企业会决定是否邀请这些求职者来面试,确认邀请的求职者会被作为受邀面试者,会把这个行为记录在求职招聘行为数据库中;针对求职个人,录入求职招聘行为数据,并保存在求职招聘行为数据库中,这个数据库会保存求职的求职意向行为,浏览的企业和相关职业,并且人工在初始部分会向求职者推荐一些相关企业,求职者给哪些企业投递简历,将作为求职者的行为之一,记录在求职招聘行为数据库中;如用户需要更新自己的信息,则用户会录入或更新自己的简历或职位数据,并保存,数据接入模块将这些新用户及发生资料变更用户的简历或职位数据也输入数据匹配计算集群中。

4.如权利要求3所述的系统,其特征在于:所述的简历职位业务数据库包括招聘企业职位数据库和求职个人简历数据库;其中招聘企业职位数据库包含企业的基本静态信息和招聘的动态信息,求职个人简历数据库包括个人的基本信息和求职信息。

5.如权利要求4所述的系统,其特征在于:所述企业的基本静态信息包括公司简介、公司构成、公司注册信息;招聘的动态信息包括职位简介、工作地点、工作时间、工作薪资、性别需求、年龄需求、工作经验和福利。

6.如权利要求3所述的系统,其特征在于:所述的数据匹配计算集群,将由数据接入模块接收到的用户交互行为数据作为标记来标记活跃用户,并将这些标记的用户加入活跃用户缓存,并且将这些用户按照时间进行排序,在一开始的静态数据库也会将一些用户标记为加急用户;首先对挑选出的用户进行数据的清洗,将缺损的数据进行删除,把数值型的特征维度统一为整数型,然后检查从数据库筛选出来的数据是否有乱码,然后进行解码,调整,将清洗好的数据输入到数据匹配计算集群,为每个用户准备好相关的推荐内容,等待提取。

7.如权利要求3所述的系统,其特征在于:所述的数据派发模块由结果数据库构成,首先会将第一次的数据运算结果存于这个数据库,之后分别将更新的结果和数据库原有的结果进行添加或者替换,对计算好的数据进行排序,为每一个用户推荐相关内容。

说明书 :

基于互联网大数据的人才服务双向推荐方法及系统

技术领域

[0001] 本发明是一种双向推荐方法及系统,尤其是基于互联网大数据的人才服务双向推荐方法及系统,属于商业服务技术领域。

背景技术

[0002] 互联网人才服务产业是近几年的热门产业,其中能够快速,准确让合适的人才与职业成功牵手是服务的核心内容,目前找寻人才与找寻职位主要是依赖服务平台的搜索功能,需要人工进行筛选,花费大量的人力物力,并且最后的筛选结果也是较为粗略的结果,不能很好的给企业推荐人才,给个人推荐适合的职位,在这样的情况下,互惠这种模式是更加难以实现的。

发明内容

[0003] 本发明的目的在于提供一种高效、精准的基于互联网大数据的人才服务互惠双向推荐方法及系统。
[0004] 为实现上述目的,本发明采用的技术方案是:基于互联网大数据的人才服务双向推荐方法,具体实施步骤为:
[0005] 第一步:数据理解:确定获取数据的类别,明确各个字段的含义;
[0006] 第二步:数据清理:筛选掉不符合数据;检查从数据库筛选出来的数据是否有乱码,然后进行解码,调整;把数值型的特征维度统一为整数型,完成数据异构到同构的过程;
[0007] 第三步:特征选取和评估:选择出数据需要分析的特征值,结合大数据分析,根据影响因素确定对应的权值;
[0008] 第四步:计算和存储:将特征数据输入数据匹配计算公式进行分析、计算并储存到输出数据库;
[0009] 第五步:推荐:根据计算结果,为用户推荐信息。
[0010] 第六步:增量及更新数据:每日进行增量及修改数据计算,剔除屏蔽的求职者和职位,将新增的求职者和职位分别继续按上述步骤进行推荐。
[0011] 优选的,所述的第五步中,为企业推荐求职者的信息,为用户推荐企业的职位信息。
[0012] 一种基于互联网大数据的人才服务双向推荐系统,包括数据接入模块、数据匹配计算集群和数据派发模块,在数据接入模块中设有求职招聘行为数据库和简历职位业务数据库;在数据匹配计算集群中设有活跃用户缓存、数据文本分析结果缓存、求职者匹配运算器和职位匹配运算器;在数据派发模块中设有结果数据库。
[0013] 优选的,所述的简历职位业务数据库包括招聘企业职位数据库和求职个人简历数据库。其中招聘企业职位数据库包含企业的基本静态信息和招聘的动态信息,求职个人简历数据库包括个人的基本信息和求职信息。
[0014] 优选的,所述企业的基本静态信息包括公司简介、公司构成、公司注册信息;招聘的动态信息包括职位简介、工作地点、工作时间、工作薪资、性别需求、年龄需求、工作经验和福利。
[0015] 优选的,所述的求职招聘行为数据库的包含了招聘企业用户和求职个人的交互行为数据,会手动给企业推荐相关的求职者,推荐给企业的求职者,企业会决定是否邀请这些求职者来面试,确认邀请的求职者会被作为受邀面试者,会把这个行为记录在求职招聘行为数据库中;针对求职个人,录入求职招聘行为数据,并保存在求职招聘行为数据库中,这个数据库会保存求职的求职意向行为,浏览的企业和相关职业,并且人工在初始部分会向求职者推荐一些相关企业,求职者给哪些企业投递简历,将作为求职者的行为之一,记录在求职招聘行为数据库中;如用户需要更新自己的信息,则用户会录入或更新自己的简历或职位数据,并保存,数据接入模块将这些新用户及发生资料变更用户的简历或职位数据也输入数据匹配计算集群中。
[0016] 优选的,所述的数据匹配计算集群,将由数据接入模块接收到的用户交互行为数据作为标记来标记活跃用户,并将这些标记的用户加入活跃用户缓存,并且将这些用户按照时间进行排序,在一开始的静态数据库也会将一些用户标记为加急用户。首先对挑选出的用户进行数据的清洗,将很多缺损的数据进行删除,把数值型的特征维度统一为整数型,然后检查从数据库筛选出来的数据是否有乱码,然后进行解码,调整,将清洗好的数据输入到数据匹配计算集群,为每个用户准备好相关的推荐内容,等待提取。
[0017] 优选的,所述的数据派发模块由结果数据库构成,首先会将第一次的数据运算结果存于这个数据库,之后分别将更新的结果和数据库原有的结果进行添加或者替换,对计算好的数据进行排序,为每一个用户推荐相关内容。
[0018] 本发明通过捕捉用户的行为,实时采集人才及职位信息,实现海量简历与职位数据的实时精准匹配,从而有效地挖掘人才满足用人方的需求,并且能够给用户推荐更加符合求职者意向的职位,并且可以主动的服务活跃用户,减少对非活跃用户的服务占比,大大提高服务效率。

附图说明

[0019] 图1是基于互联网大数据的人才服务互惠双向推荐方法的流程图。

具体实施方式

[0020] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清晰、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021] 本发明适合活跃用户量与基础数据量大的大型人力资源服务网站,在互联网上实现的系统架构和实现方法:
[0022] (1)、本系统服务于某一家独立的人力资源服务网站;
[0023] (2)、在此人力资源服务网站上植入数据接入接口与数据派发接口,整个运营活动体现在此人力资源服务网站的内部完成;
[0024] (3)、将采集的数据统一传送至本系统,在本系统完成数据匹配,然后将匹配的数据传入数据派发模块,能够实现多个输出端口进行数据输出。
[0025] (4)、本系统是在Windows环境构建后台的匹配计算服务。
[0026] 如图1所示:本发明实现的基本流程为:
[0027] 第一步:数据理解:确定获取数据的类别,明确各个字段的含义;
[0028] 第二步:数据清理:筛选掉不符合数据;检查从数据库筛选出来的数据是否有乱码,然后进行解码,调整;把数值型的特征维度统一为整数型,完成数据异构到同构的过程[0029] 第三步:特征选取和评估:选择出数据需要分析的特征值,结合大数据分析,根据影响因素确定对应的权值
[0030] 第四步:计算和存储:将特征数据输入数据匹配计算公式进行分析、计算并春初到输出数据库
[0031] 第五步:推荐:根据计算结果,为企业(个人)推荐求职者(职位)
[0032] 第六步:增量及更新数据:每日进行增量及修改数据计算,剔除屏蔽的求职者和职位,将新增的求职者和职位分别继续按上述步骤进行推荐
[0033] 一种基于互联网大数据的人才服务双向推荐方法,包括数据接入模块、数据匹配计算集群和数据派发模块三大部分,其中:在数据接入模块中设有求职招聘行为数据库和简历职位业务数据库;在数据匹配计算集群设有活跃用户缓存、数据文本分析结果缓存、求职者匹配运算器和职位匹配运算器;数据派发模块设有结果数据库,具体步骤如下:
[0034] A、在数据接入模块中:
[0035] a、录入用户的简历职位业务数据:
[0036] (1)企业新用户:新用户登陆系统后,将录入一些静态的信息,如公司简介、公司构成、公司注册信息等,根据录入的信息,对这个公司进行简单的检查和确认,确认此家公司是合法存在且符合一个招聘公司的条件。之后录入一些动态数据,这些数据是公司根据自己的需求,希望招聘什么样的人才,对工作的简介、工作地点、工作时间、工作薪资、性别需求、年龄需求、工作经验等等。尽可能全面的描述所需职位的要求以及相关酬劳和福利,并保存在企业职位数据库中。
[0037] (2)个人新用户:登陆系统后,根据自己的需求,分别在简历/职位录入这个页面中录入自己的简历/职位业务数据,(如:姓名、年龄、学历、工作经验、个人技能、期望工作地、职位要求等)并保存在个人简历数据库中。
[0038] b、录入用户的交互行为数据:
[0039] (1)企业用户:首先会手动给企业推荐相关的求职者,推荐给企业的求职者,企业会决定是否邀请这些求职者来面试,确认邀请的求职者会被作为受邀面试者,会把这个行为记录在求职招聘行为数据库中。
[0040] (2)个人用户:在求职招聘行为数据这个页面录入求职招聘行为数据,并保存在求职招聘行为数据库中,这个数据库主要会保存求职的求职意向行为,浏览的企业和相关职业,并且人工在初始部分会向求职者推荐一些相关企业,求职者给哪些企业投递简历,将作为求职者的行为之一,记录在求职招聘行为数据库中。
[0041] c、所有用户录入/更新的简历/职位数据:如用户需要更新自己的信息,则用户会录入/更新自己的简历/职位数据,并保存,数据接入模块将这些新用户及发生资料变更用户的简历/职位数据也输入数据匹配计算集群算法;
[0042] B、数据匹配计算集群算法:
[0043] a、将由数据接入模块接收到的用户交互行为数据作为标记来标记活跃用户,并将这些标记的用户加入活跃用户缓存,并且将这些用户按照时间进行排序,考虑到用户数量非常庞大,主要选择的用户是一年内进行修改或者新增的用户,在一开始的静态数据库也会将一些用户标记为加急用户(这些用户会被优先考虑),首先对挑选出的用户进行数据的清洗,将很多缺损的数据进行删除,把数值型的特征维度统一为整数型,然后检查从数据库筛选出来的数据是否有乱码,然后进行解码,调整。便于后续分析的数据。将处理好的数据存入一个新的缓存数据库。
[0044] b、根据上述的描述,如果一个求职者给一个企业发送过简历,那么这个企业将会作为一个数据学习的对象,不会成为最后推荐的对象。同理,根据上述这个条件,如果一个企业曾经给一个求职者发过面试邀请,那么这个求职者就不会再次推荐给这个企业。
[0045] c、有了上述的前提,我们可以筛掉对一个求职者来说不符合的企业和对企业来说不满足的求职者。并且经过分析,我们还将进一步对原始数据进行处理,因为有一个职位过期时间,所以我们将对个人推荐距离当天时间大于等于一周的职位,这样可以减少大量运算消耗。
[0046] 1、为企业推荐求职者:
[0047] 企业对求职者的需求分析,企业职位的特征包含学历、性别、住宿条件、职位类型、年龄、工作经历、福利待遇,薪资、工作地点、职位描述、面试邀请者(面试邀请者:是企业曾经邀请过哪些人来参加面试,这个会被记录在行为数据库中)等。从上述的特征值中要选取最重要的几个特征,或者将部分特征合并,这样可以更有效的进行文本分析和文本匹配。上述的特征有一部分是硬性特征,经过客服的筛选,有些特征是一定要满足公司的需要(如:学历、性别)根据这些硬性特征我们可以筛掉一部分不符合的数据,再对剩余的数据进行文本分析。
[0048] 1.1、特征选择
[0049] (1)工作地点,工作地点会和求职者的期望地点相匹配,首先工作地点在三个期望地点里面,将会给这个特征向量赋值为1,如果三个期望地点都不在,那么会设置为0。为了更好的满足公司的需要,本发明将这个特征设置为公司可选择特征,有些公司对地点要求很严格,而有些公司不会有这么严格的要求,所以在最后会推荐出两个表,分别是硬性符合地点要求的推荐列表和对工作地无要求的推荐列表。
[0050] (2)工龄,根据面试邀请者的工龄情况做一个等级统计,并进行量化。即:面试邀请者中工龄出现次数最多的年限,分值为1;出现次数第二多的年限,分值为0.7,以此类推,分值区间为
[0051] [0,0.3,0.7,1]
[0052] (3)企业职位要求匹配度,既把企业的职位描述作为一个向量,将职位描述文本分词,去停用词,计算词频。最后将每个词的词频分等级,例如出现次数大于两次的,分值为1,出现次数等于一次的,分值为0.5。最后将每位求职者的职业技能分词,去停用词,进行匹配。
[0053] (4)职位偏好匹配度,即拿面试邀请者的工作经历与职业技能进行汇总,然后分词,去停用词,计算词频。最后将每个词的词频分等级,分级策略如下:词频大于等于面试邀请者人数70%的词,分值为1;大于等于面试邀请者人数40%,小于面试邀请者人数70%的词,分值为0.7;大于等于面试邀请者人数10%,小于面试邀请者人数40%的词,分值为0.3。最后将每位求职者的工作经历和职业技能汇总后分词,去停用词,进行匹配。根据结果的分析,我们发现这一部分非常的重要。
[0054] 本发明选取的所有特征,最后都会对特征向量进行归一化处理,将分值都压缩在[0,1]区间。
[0055] 在学历和性别的基础上,本发明再提取出上述4个基本特征,作为每位求职者的基本画像。在上述过程中,还有一个关键的问题,就是如何提取出该职位的关键词,即最能代表该职位核心特征的词。对此,本发明也给出自己的策略,即:将上述第三维特征,即职位要求匹配度里面的词频大于2的词,与第四维特征,即职位偏好匹配度中的面试邀请者分词并去停用词后的词进行交集操作,筛选出交集的词,最后再加上该职位名称出现的首个名词,作为该职位的关键词列表,再拿每位求职者的职业技能(需要去重)去跟该关键词列表匹配,得出的匹配数量占关键词总量的比重,作为第三维度的奖励分值,按1:1的分值直接加在每位求职者的第三维度的分值上。实验证明,该策略效果明显,更能突出符合该职位的求职者。
[0056] 需要注意的是,上述的特征选择是在该职位有面试邀请者的前提下确定的,这就要求我们需要考虑到,某些职位没有面试邀请者,也就是没有历史记录的情况下,如何也能给该企业推荐求职者。最终本发明的策略是,只选取上述1,2,3特征,即以该职位的基本信息为标准,先给该企业推荐求职者,之后有了面试邀请者的历史记录,再以有面试邀请者的情况给企业更新推荐结果,从而使系统有了一定的自我学习,自我训练过程和能力。
[0057] 1.2、相似度计算
[0058] 特征选择完毕后,就需要考虑如何有效的匹配求职者与特定职位,经过不同方法的实验,最终选择的是带有权值的余弦相似度算法,而不是简单的余弦相似度算法。具体算法描述如下:
[0059] 设i={1,2,3,4}表示工作地点、工龄、企业职位要求匹配度、职位偏好匹配度这四个属性。j={1,2,3,4,5}表示求职意向、个人能力、学历、工作地、工资这五个属性。用U表示求职者,V表示企业职位。Pui表示求职者u对属性i的偏好,Qvi表示企业招聘职位v的属性i的值,Quj表示求职者u的个人基本信息中属性j的值,Pvj表示职位v对属性j的偏好,得到四个特征向量之后,来计算求职者基本信息满足企业偏好的程度,表示为compat(Qu,Pv)。
[0060]
[0061] 其中权值wj的计算方法是:
[0062]
[0063] M表示招聘职位v历史中面试邀请者总数。ajk表示在职位v已邀请的所有求职者中,第k份简历是否满足职位信息中的第j个属性,如果第k份简历满足职位招聘要求中的第j个属性,则ajk等于1,否则等于0。
[0064] 而这个权值的作用,就是能突出该企业在该职位的选人标准上,更关注求职者的哪一个特征。例如:在该职位的20个面试邀请者中,如果工龄为5年或以上的面试邀请者出现次数是20.那就证明,该企业在该职位选人标准中很偏向工龄为5年或以上的求职者,那这个特征的权值自然会有所上升。因此,特征权值的计算策略如下:在面试邀请者中,分别统计出上述四个特征企业的偏好,并算出符合上述四个特征偏好的面试邀请者的数量,然后相加作为总数。每个特征的权值就用四个特征偏好的面试邀请者的数量占总数的百分比作为每个特征的权值。最后进行加权后作余弦相似度计算,得出每位求职者与该职位的匹配分值。
[0065] 另外,经过测试,我们发现如果只使用余弦相似度,会出现一个特殊情况,若五个特征值相同,那么余弦值会出现结果为一的情况,对于庞大的数据量,这种结果是很容易产生的。因此在最终分值排序上,加了如下策略:对这些算出来的分值相加,作为一个标准。那么匹配后的分数就有两部分组成,首先是余弦相似度的结果,还一个是这个职位的特征值总和,最后进行综合排序,得出推荐结果。
[0066] 1.3、增量及更新数据计算
[0067] 由于每日都会有大量的新注册的求职者,新发布或者修改过重新招聘的职位,因此需要进行每日增量更新处理,为新发布或者修改过重新招聘的职位推荐新的符合的求职者。此外,将每天变为屏蔽状态的职位或求职者,分别从之前推荐的列表中剔除掉。本发明已实现对新发布或者修改过重新招聘的职位,或者旧职位,每日推荐符合要求的新求职者,并且每日将该企业浏览过的求职者过滤剔除,保证每日求职者推荐列表中都是符合要求的,未浏览的或者是新的求职者。增量及修改数据的计算方式与初始数据计算方式一致。
[0068] 2、为求职者推荐职位:
[0069] 2.1、特征选择
[0070] 个人职位的推荐的分析,个人的简历包含、个人能力、项目经历(实习经历)求职意向、薪资水平、学历、获奖证书、个人简介。
[0071] (1)求职意向是首先要考虑的因素,举个例子,现在有一个求职者A,A的求职意向是数据挖掘岗位,但是他前期的实习经历都是Java,因为是为了给个人推荐相关的职位,那么我们考虑求职意向为一个特征向量。
[0072] (2)个人能力也是一个比较关键的因素,考虑将这个也设置成一个特征向量,和向公司推荐的方法一样,也是去停用词,分词。
[0073] (3)学历,这个因素可以用做一些公司的筛选,例如,现在有两个公司比较符合这个人,那么A公司需要研究生及以上,B公司对于学历没有要求,这个人的学历是本科,那么B公司会给这个人的面试邀请机会就会很大,这个人去这个公司的几率也就提升了。
[0074] (4)工作地,这个因素也是很多人会看中的,本发明以省份进行划分,在同一个省份的值相对要高一点。
[0075] (5)工资,这个应该是比较看重的一个因素之一了,找工作对于个人来说,很大程度是能赚多少钱。本发明对工资进行不同区段的划分,根据这些划分来给定这个特征的数值:
[0076] 假设一个人的工资区间是[2000,3000]
[0077] 0-----[0,2000]、0.15---[0+,2500-]、0.3---[0+,3000]、0.45---[2000-,3000+]、0.5----(2000.3000)、0.65---[2000,3000+、0.8----[2500+,3000+、1-----[3000,3000+2000--3000表示的个人工资的期望区间,左边的是工资下限,右边的是工资上限。
[0078] 公司也会给出公司的工资区间,一样左边的是下限,右边的上限。我们给出了八个分段,这些分段标准是经过以往的简历投递和面试邀请人,以及现在部分公司对工资标准的大众基准,来共同分析确定的。
[0079] 主要分成的8个区段是:(前面的0、0.15、0.3、0.45、0.5、0.65、0.8、1代表的是这个工资特征值的数值)具体算法就是把个人的工资区间和公司的工资区间进行对比。
[0080] 0代表的是:公司给出的最高工资低于个人期望的最低工资(以下为了简便说明,A代表代表个人工资区间,B代表公司工资区间);0.15表示的是:B的下限远小于A的下限,并且B的上限小于A区间的中位数;
[0081] 0.3表示的是:B的下限小于A的下限,并且B的上限小于A的上限;
[0082] 0.45表示的是:B的下限小于A的下限,并且B的上限大于A的上限;
[0083] 0.5表示的是:B的下限大于A的下限,并且B的上限小于A的上限;
[0084] 0.65表示的是:B的下限大于A的下限,并且B的上限大于A的上限;
[0085] 0.8表示的是:B的下限大于A的中位数,并且B的上限大于A的上限;
[0086] 1表示的是:B的下限大于A的上限,并且B的上限大于A的上限以上的方式不会出现重复的情况,因为会选择优先满足数值较小的情况,一旦满足不会经行下面的分类判断。
[0087] 我们选取的所有特征,最后都会使用归一化,将分值都压缩在[0,1]区间。归一化公式:
[0088] score_normal=(score-score_min)/(score_max-score_min)
[0089] 例如:现在有个关键词表,若能匹配到里面的词则记1分。将求职者的职业技能,分词去停用词后有五个词,如果这五个词中有三个词属于关键词,则score为3分;而score_max为5个词都属于关键词的情况,即score_max=5;同理,score_min为5个词都不属于关键词的情况,即score_min=0。因此score_normal=(score-score_min)/(score_max-score_min)=(3-0)/(5-0)=0.6。
[0090] 2.2、相似度计算
[0091] 挑选出以上五个特征,把上述的五个特征与企业需要招聘职位的五个相关特征经行匹配,用到的方法是与上述向企业推荐求职者是完全相似的方法。具体公式如下所示:
[0092] 设i={1,2,3,4}表示工作地点、工龄、企业职位要求匹配度、职位偏好匹配度这四个属性。j={1,2,3,4,5}表示求职意向、个人能力、学历、工作地、工资这五个属性。用U表示求职者,V表示企业职位。Pui表示求职者u对属性i的偏好,Qvi表示企业招聘职位v的属性i的值,Quj表示求职者u的个人基本信息中属性j的值,Pvj表示职位v对属性j的偏好,得到四个特征向量之后,来计算求职者基本信息满足企业偏好的程度,表示为compat(Qv,Pu)。
[0093]
[0094] 其中权值wi的计算方法是:
[0095]
[0096] N表示招聘职位v历史中面试邀请者总数。aik表示在求职者u已浏览的所有职位中,第k个职位是否满足求职者偏好中的第i个属性,如果第k份简历满足职位招聘要求中的第i个属性,则aik等于1,否则等于0。
[0097] 2.3、增量及修改数据计算
[0098] 由于每日都会有大量的新注册的求职者,新发布或者修改过重新招聘的职位,因此需要进行每日增量更新处理,为新注册的求职者推荐新发布或者修改过重新招聘的职位。本发明已实现对新注册的求职者每日推荐符合要求的新发布或者修改过重新招聘的职位,并且每日将该求职者浏览过的职位过滤剔除,保证每日职位推荐列表中都是符合要求的,未浏览的或者是新的职位。增量及修改数据的计算方式与初始数据计算方式一致。
[0099] 上述方法分别会得到两个结果,一个是给企业推荐的求职者结果,另一个是给求职者推荐相关职位结果,对这两个结果分别在各自列表中进行排序,将排序好的数据输入到结果数据库。
[0100] C、数据派发模块:
[0101] a、数据派发模块由结果数据库构成的,首先会将第一次的数据运算结果存于这个数据库,之后分别将更新的结果和数据库原有的结果进行添加或者替换。这样可以大大降低结果数据库的冗余,使得其中存放的数据是最新的数据,可以随时拿来使用。
[0102] 总结
[0103] 本发明是对一个求职平台的所有类型用户的推荐方法,首先根据选取的向量的种类,这些被选出来的特征,是由根据以往推荐的数据汇总出来,最适合企业以及求职者想法的特征。其次,本推荐方法是分别针对企业和求职者都相关的推荐,与现有的很多单一推荐不同,它是一种双向的推荐,如果我们给一个企业A推荐了求职者A,并且给求职者A推荐了企业A,之后产生了一些交互行为,因而这个推荐就可以看作是一个互惠推荐。