[0067] D1=(d11,d12,…,d1m)
[0068]
[0069] 步骤3-2.3:计算两条短信文本的相似度。两短信文本的相似度sin定义为:
[0070] sim=(D1·D2)/(|D1|×|D2|)
[0071] 其中,D1和D2分别为两条短信文本的向量。
[0072] D1·D2为D1与D2的点积,D1·D2=d11*d21+d12*d22+…+d1m*d2m。
[0073] |D1|为向量D1的模,
[0074] 步骤4:对步骤3提取出的短信模板,抽样人工标注其是否为金融逾期短信。
[0075] 例如上述语料中,语料1和语料2为金融逾期短信,语料3,语料4和语料5为非金融逾期短信。
[0076] 步骤5:对步骤3得到的所有短信模板进行分词,并挖掘新词和领域词组。挖掘新词和领域词组的实现包括步骤5.1至步骤5.4。
[0077] 步骤5.1:把短信文本中出现过的连续不超过d个分词组成的子串都当作潜在的新词或词组。为方便描述,以下将新词和词组统一简称为词组,因为词组也可能是一个新词。计算所有词组的出现频数。频数即词组在所有短信模板中的出现次数。此处的d为大于2的正整数。
[0078] 步骤5.2:对步骤5.1中出现频数超过设定阈值U的词组,计算其凝固度。U根据需要或经验来设定。凝固度定义如下:
[0079] 为方便描述,若词组A为a和b这2个分词按序排列组成,则记A=ab。
[0080] 词组或分词x的频数记作f(x)。定义分词或词组x在所有短信文本中的出现概率为:
[0081]
[0082] 其中,ftotal为所有短信文本的总分词个数。
[0083] 对于词组A=abc,其中a,b和c为分词,则词组A的凝固度co(A)为:
[0084]
[0085] 步骤5.3:对步骤5.1中出现的频数超过设定阈值U的词组,计算其自由度。自由度定义如下:
[0086] 对于一个词组,其左邻词为与其相邻且出现在其左侧的分词,其右邻词为与其相邻且出现在其右侧的词。
[0087] 用信息熵来衡量其左邻词的随机性,其左邻词的信息熵S(nleft)定义为:
[0088]
[0089] 其中,n为左邻词个数,li表示词组的左邻词,i=1,2,…,n;P(li)表示li的概率,计算公式为:
[0090]
[0091] 右邻词定义与左邻词定义类似,设右邻词的信息熵为S(right),
[0092]
[0093] 此处m为右邻词个数,ri表示词组的右邻词,i=1,2,…,m;P(ri)表示ri的概率。
[0094] 则词组A的自由度为free(A)=S(left)+S(right)。
[0095] 步骤5.4:设置凝固度阈值threshco和自由度阈值threshfree,则由步骤5.2与步骤5.3得到的所有词组的凝固度和自由度,筛选出其中凝固度>threshco且自由度>threshfree的词组,即为提取出的新词和领域词组。
[0096] 本发明实施例以下述语料为例说明词组挖掘过程。
[0097] “**先生,您的借款已逾期1天,欠款金额为2969.00元,逾期行为严重影响信用记录,请您慎重对待并立即处理。”
[0098] 该短信经过分词得到:
[0099] 先生/n,,/w,您/r,的/uj,借款/n,已/d,逾期/v,1天/m,,/w,欠款/n,金额/n,为/p,2969.00元/m,,/w,逾期/v,行为/n,严重/a,影响/vn,信用/n,记录/v,,/w,请/v,您/r,慎重对待/l,并/c,立即/d,处理/v,。/w]
[0100] 考察子串“已逾期”:
[0101] 短信模板的总分词个数为870428个,“已逾期”在短信模板中出现次数为1942次,分词“已”出现次数为8392次,分词“逾期”出现次数为6922次,故词组“已逾期”的凝固度为:
[0102]
[0103] 统计“已逾期”的左邻词和右邻词,如下:
[0104] 其左邻词包括:
[0105] {借款:出现940次,现:出现490次,车贷:出现23次,租金:出现84次,银子:出现4次,房租:出现9次,贷款:出现31次,还款:出现8次,收款:出现39次,无左邻词:出现314次}[0106] 其右邻词包括:
[0107] {*天:出现1098次,无右邻词:出现844次}
[0108] 则“已逾期”的左邻词信息熵为:
[0109]
[0110] “已逾期”的右邻词信息熵为:
[0111]
[0112] 故“已逾期”的自由度为free(“已逾期”)=0.602+0.297=0.899
[0113] 本发明实施例中,设置凝固度阈值为10,设置自由度阈值为0.5,这两个阈值的具体取值视具体数据集和实验而定。故词组“已逾期”的凝固度高于凝固度阈值,且其自由度高于自由度阈值。
[0114] 按照该方法得到新词和领域词组示例如下:
[0115] 融资租赁合同,现已逾期,已逾期,逾期状态,严重逾期,避免逾期,以免逾期,逾期款,逾期款项,逾期账单,将于,严重违约,到达还款期,已经逾期,还款期次,总期次,逾期将影响信用记录,即将到期,立即处理,没收定金,法律手段,多次通过,日趋严重,征信系统,征信机构,逾期违约金,联金微贷,信用记录,以免逾期影响信用记录,避免继续逾期,避免造成不良影响,逾期退回,逾期行为,严重影响
[0116] 步骤6:将步骤5得到的新词和领域词组加入分词词库,后续步骤的分词过程采用该新词库。
[0117] 步骤7:对步骤3提取出的所有短信模板运用步骤6得到的新词库重新分词,通过TF-IDF算法计算各个分词的重要程度,从而提取对逾期判别具有重要价值的分词。步骤7具体包括如下步骤7.1~7.3。
[0118] 步骤7.1:对步骤3提取出的所有短信模板运用步骤6得到的新词库重新分词。
[0119] 步骤7.2:计算步骤7.1得到的分词的TF-IDF。其中,TF为某一个给定的词语在该短信文本中出现的次数,IDF为逆向文件频率,可以由总短信数目除以包含该词语之短信的数目,再将得到的商取对数得到。具体地,TF和IDF计算公式为:
[0120] 对于在某一短信模板dj中的分词ti,分词ti的TF计算如下:
[0121]
[0122] 其中,ni,j是ti在短信dj中的出现次数。∑knk,j是短信dj的总分词数。
[0123] 分词ti的IDF计算如下:
[0124]
[0125] 其中,|D|是短信模板总数,|{j:ti∈dj}|是包含词语ti的所有短信模板数目。
[0126] 词语ti的TF-IDF=tfi,j×idfi。
[0127] 步骤7.3:设置TF-IDF阈值threshtfidf,则从步骤7.2中得到的所有分词筛选出TF-IDF高于threshtfidf的分词作为对逾期判别具有重要价值的分词。
[0128] 本发明继续以下述语料为例说明该过程。
[0129] “**先生,您的借款已逾期1天,欠款金额为2969.00元,逾期行为严重影响信用记录,请您慎重对待并立即处理。”
[0130] 该短信经过分词得到:
[0131] 先生/n,,您/r,的/uj,借款/n,已逾期/v,1天/m,欠款/n,金额/n,为/p,2969.00元/m,逾期行为/n,严重影响/vn,信用记录/n,请/v,您/r,慎重对待/l,并/c,立即处理/v][0132] 考察子串“已逾期”:
[0133] 在该语料中出现了1次,该语料总分词数为18,包含“已逾期”一词的短信数目为1942,短信模板总数为28491。因此:
[0134]
[0135]
[0136] TF-IDF=tfi,j×idfi=0.0476
[0137] 设置TFIDF阈值,或者取TF-IDF排序的前n个分词,作为对逾期判别有重要意义的词。
[0138] 本发明实施例中,提取出的分词集合为:
[0139] 已逾期,逾期,月,于,足额,元,万,还款,将,影响,扣款,以免,本期,到期,信用记录,尾号,前,贷,存入,车,按,提前,合同约定,温馨提示,本,资金,敬请,确保,卡号,垂询,周末,已,账单,进行,避免,查看,主动,借款,造成不良影响,公众,不要,关注,页面,询问,搜索,借出,加急,尽快,移动支付,及时,联系,违章,处理,通知,罚息,产生,借款人,通过,利息,欠款,次,本息,违约金,现已,余额,手机号,金额为,客户经理,部分,总额,充足,联系电话,订单,还款期,时间,保证,还款额,立即,本金,服务,请于,款项,信用,缴纳,担保公司,之前,身份证,完成,否则,咨询,查询,公积金贷款,银行卡,温馨提醒,当期,日前,依法,登陆由于,偿还,当前,务必,服务费,截至,支付,欠,租用,失败,贷款,经销商,催收,发生,实得,姓名,相应,配合,罚金,协调,滞纳金,冻结,严重,邮件,应得,点击,已经,提醒,不足,月份,指定,罚,到达,自动还款,款,征信,有笔,车辆,手续费,未处理,注明,直至,暂扣,用车,一并,详细,所限,扫描,交警,存在,处理完毕,处理方式,车牌号,结清,系统,金额,拟将,自动,担保,办理,督促,带来不利,管理费,账户余额,确认,安排,确保您,机构,编号,不良信息,收到,联动,管理费用,买家,客服,状态,提起诉讼,视为,租金,恶意,处于,签约,按期,用于,截止,相关,应于,退回,融资,损失,金融工场,增加,本月,出行,在线商城,营业部,退款,纪录,信贷,信用卡申请,房贷,代价,个人信用,笔,续约,取消,行为,直接,存款,用户,资格,实际,详情,切记,即刻,运营,短信,欠费,缴,预,已扣,费,充,存,即将,扣,购买,获得,提示,开始,交易,退还给,内处理,客户端,重视,收取,任何,速将,采取,单,扣除,慎重对待,公安机关,工作日,费用,报案,情况,更改,变更,以备,快件,扣划,个人信用记录,方式,法律,人民币,支出,时期,额外,换货,对公,过期,融资租赁,正常,规定,部门,补缴,授权,仍,急电,记录,显示,妥善处理,损害,联系人,投资,到账,重新,成功,提前还款,利息费用,商品,要求,不再,亲友,央行,未能,恭喜,委托,及时处理,划,支付业务,移动,尚有,经营,合计,购车,保留,积分,催告,足够,逾期违约金,未免,白条,按时,还款计划,上报,如下,权利,难以挽回,拒不,特此通知,速,直接联系,签收,追回,上传,取回,有限公司,一笔,付款,此类,主要用于,再不,已于,剩余,收回,收款,领取,项目,超,债权,网点,日趋严重,公司法人,征信系统,逾,投资项目,资金周转,操作,交予,呼叫,顾客,付款凭证,取得联系,欢迎,承担,仍未,全部,利益,仅剩,合法,到访,车款,审慎,评价,发货,预订,有待,无法,未付,提前准备,至今,手段,支持,约定,信函,限时,联络,缴款,多次通过,完毕,清零,风险,法律手段,已经完成,抱歉,转告,逃债,审批,查收,注意,退货,逃避,超时,房屋,情况严峻,理由,失效,汇至,催款,明细,尽早,代扣,受理,少于,记入,中标,债权转让,收益,取下,预留,提供,即将到期,免责,没收定金,担保机构,代签,资信,诈骗,涉嫌,缴付,分期,法律责任,充值,原材料,销售店,现金,委托代理,违约,退,所管,收费,事宜,融资租赁合同,烦请,措施,本人,现已逾期,逾期状态,严重逾期,避免逾期,以免逾期,逾期款,逾期款项,逾期账单,将于,严重违约,到达还款期,已经逾期,还款期次,总期次,逾期将影响信用记录[0140] 步骤8:将步骤7所提取得到的439个分词组成词向量,构成特征空间,该特征空间维度为441,表示为:Feature=(to1,to2,…,to441),toi表示步骤7所提取的某个分词。
[0141] 步骤9:将步骤4标注的短信数据作为训练数据,采用支持向量机算法训练金融逾期分类器模型。所述的步骤9的实现步骤如下:
[0142] 步骤9.1:对标注的短信模板进行重新分词,分词词库采用上述步骤6所述的新词库。
[0143] 本发明实施例继续以下述语料为例说明该过程。
[0144] “**先生,您的借款已逾期1天,欠款金额为2969.00元,逾期行为严重影响信用记录,请您慎重对待并立即处理。”
[0145] 该短信经过分词得到:
[0146] 先生/n,您/r,的/uj,借款/n,已逾期/v,1天/m,欠款/n,金额/n,为/p,2969.00元/m,逾期行为/n,严重影响/vn,信用记录/n,请/v,您/r,慎重对待/l,并/c,立即处理/v][0147] 步骤9.2:根据步骤9.1的分词结果,对所有标注的短信模板,计算特征向量:
[0148] 设某一短信模板M的特征向量表示为M={m1,m2,…,mn},则:
[0149]
[0150] mi表示特征向量M的第i个元素值。所得到的特征向量可以以标记特征顺序的方式表示,将mi取值为1的元素表示为:位于特征空间Feature中的顺序:1。
[0151] 从而得到所有标注的短信模板的特征向量集合。,同时。
[0152] 本发明实施例根据步骤9.1的分词结果,该短信的特征向量以标记特征顺序的方式表示为:1:1,6:1,15:1,38:1,60:1,153:1,240:1。
[0153] 步骤9.3:选择高斯径向基函数(Radial Basis Function)作为核函数,表示为:
[0154]
[0155] xc为核函数中心,σ为函数的宽度参数,此处x为空间中任意一点。
[0156] 步骤9.4:交叉训练最优模型参数c和σ,c为惩罚因子,σ为步骤9.3中核参数,该参数使得模型针对样本分类具有最高精度。
[0157] 步骤9.3与9.4采用LibSVM软件的Train函数进行计算,最后得到金融逾期分类器模型。
[0158] 步骤10:将所有短信文本数据作为测试数据,输入步骤9训练的分类器模型进行逾期分类判别。
[0159] 步骤10.1:对所有短信文本采用步骤6所述的新词库进行分词;
[0160] 步骤10.2:采用与步骤9.2一样的方法对短信数据进行向量化表示。根据步骤10.1的分词结果,计算各短信的特征向量。
[0161] 设短信M的特征向量表示为M={m1,m2,…,mn},则:
[0162]
[0163] 从而得到特征向量集合,同时所得到的特征向量可以以标记特征顺序的方式表示,将mi取值为1的元素表示为:位于特征空间Feature中的顺序:1。
[0164] 步骤10.3:将步骤10.2中产生的所有短信的特征数据作为测试集输入步骤9中训练的分类器模型进行分类判定,输出判别为金融类逾期的短信。
[0165] 本发明实施例中采用LibSVM软件的Predict函数,利用步骤9得到的模型,对短信数据进行金融逾期判别。最后得到金融逾期类短信75923条。
[0166] 提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。