一种基于文本分析的P2P网络借贷风险预测系统转让专利

申请号 : CN201510076663.6

文献号 : CN104616198B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 叶强郭雷张紫琼张自立

申请人 : 哈尔滨工业大学

摘要 :

一种基于文本分析的P2P网络借贷风险预测系统,涉及一种P2P网络借贷的风险预测系统。本发明包括:平台数据采集模块;文本特征提取模块;风险预测模型搭建、训练模块;风险预测模块。本发明风险预测系统的文本特征提取模块对平台数据采集模块中获取的“借款描述文本”进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的情感特征S,主题特征T和可读性特征R;然后搭建和训练风险预测模型;最后将新借款列表的情感特征S,主题特征T和可读性特征R和平台数据采集模块中的用户基本数据、用户信用数据、借款列表数据共同作为输入变量输入风险预测模型,最终得到风险预测结果。本发明适用于P2P网络借贷风险预测。

权利要求 :

1.一种基于文本分析的P2P网络借贷风险预测系统,其特征在于该系统包括:平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包括用户基本数据、用户信用数据、借款列表数据、借款描述文本、借款偿还情况;

文本特征提取模块,用于获取平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义特征,包括情感特征S、主题特征T和可读性特征R;

风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;

风险预测模块,用于预测、输出新借款列表的风险情况。

2.根据权利要求1所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,所述的文本特征提取模块,包括:

词语切分子模块,用于获取平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语;

情感特征S提取、存储子模块,用于提取、存储借款描述文本情感特征S;

主题特征T提取、存储子模块,通过LDA主题生成模型计算出每个借款描述文本中的主题概率分布P(主题|文本),存储为借款描述文本的主题特征T;

可读性特征R提取、存储子模块,首先统计所有借款描述文本中每个词语出现的次数,然后统计出当前借款描述文本中所出现的词语,计算当前借款描述文本中每个词语在所有借款描述文本中出现的次数的总和,并以C=(出现的次数的总和/当前借款描述文本中所出现的词语个数)作为当前借款描述文本中所出现的词语的平均出现次数,存储为前借款描述文本的可读性特征R。

3.根据权利要求2所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,所述情感特征S提取、存储子模块,包括

人工情感标注子模块,随机提取借款描述文本并输出显示,供用户进行人工情感标注:褒义、中性和贬义,分别以1、0和-1标记;并将已进行人工情感标注的借款描述文本分为情感标注训练集和情感标注测试集;

计算机情感分类子模块,提取人工情感标注子模块中的情感标注训练集数据,根据情感标注训练集的人工情感标注分别计算出1、0和-1三种情感类别中各词语集合出现的次数;以此为基础,计算出情感标注测试集中的每个借款描述文本在1、0和-1三种情感类别中的概率;将概率最大时所对应的类别作为情感标注测试集中借款描述文本对应的情感类别进行存储;

情感比对子模块,提取计算机情感分类子模块中存储的借款描述文本对应的情感类别,将其与人工情感标注进行比对,计算出两种标注方法的匹配度;若匹配度不能满足情感分类需求,则返回人工情感标注子模块进行调整优化,直到筛选出能够准确进行情感分类的提取借款描述文本情感特征的分类器;

计算机情感标注子模块,提取情感比对子模块中的提取借款描述文本情感特征的分类器对所有的借款描述文本进行标注1、0或-1,存储为借款描述文本情感特征S。

4.根据权利要求1、2或3所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,所述的风险预测模型搭建、训练模块,包括:

风险预测模型搭建子模块,以平台数据采集模块中的户基本数据、用户信用数据、借款列表数据以及文本特征提取模块中的情感特征S、主题特征T和可读性特征R作为输入变量,以平台数据采集模块中的借款偿还情况为输出变量,搭建风险预测模型;

风险预测模型训练子模块,利用支持向量机对风险预测模型进行训练,采用M折交叉验证,反复优化运算,筛选出满足预测需求的风险预测模型。

5.根据权利要求4所述的一种基于文本分析的P2P网络借贷风险预测系统,其特征在于,所述的风险预测模块,通过新借款列表数据提取子模块调用平台数据采集模块和文本特征提取模块,生成新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R,将新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R输入风险预测模型;最后通过风险预测模型输出新借款列表的风险。

说明书 :

一种基于文本分析的P2P网络借贷风险预测系统

技术领域

[0001] 本发明涉及一种P2P网络借贷的风险预测系统。

背景技术

[0002] 随着互联网技术在金融领域的深入应用,出现了一种通过网络实现个体和个体之间直接借贷的金融模式,称为P2P网络借贷(peer-to-peer lending)。P2P网络借贷运营商提供网络平台(如拍拍贷、人人贷等)撮合借方和贷方达成交易。借款人可在平台上填写个人信息,说明借款理由,生成借款列表并等待投资人进行投标选择。投资人则可根据借款人提供的借款相关信息决定是否进行投标。作为传统金融模式的补充,P2P网络借贷可以进一步满足长尾用户的投融资需求。
[0003] 然而,由于国内征信系统不完善,现有的P2P网络借贷模式仍然面临着信息不对称问题。违约风险控制成为P2P网络借贷模式的重要议题。通常,借款人会在借款列表中提供一段借款理由描述文本来说明借款用途和还款能力。而现有的风险预测系统主要结合借款人还款记录,个人负债,信用历史,个人信息等多维度的数据来预测借款列表的逾期率,并未分析借款列表中的借款理由描述文本。所以现有的风险预测系统预测准确率不高,网络借贷平台还需要投入大量人工力量对借款列表进行审核。同时,投资人也需要投入大量的搜索成本去寻找符合自身风险偏好的借款列表。

发明内容

[0004] 本发明为了解决现有的风险预测系统预测准确率不高的问题。
[0005] 一种基于文本分析的P2P网络借贷风险预测系统,包括:
[0006] 平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包括用户基本数据、用户信用数据、借款列表数据、借款描述文本、借款偿还情况;
[0007] 文本特征提取模块,用于获取平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义特征,包括情感特征S、主题特征T和可读性特征R;
[0008] 风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
[0009] 风险预测模块,用于预测、输出新借款列表的风险情况。
[0010] 本发明风险预测系统的文本特征提取模块将获取的平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的情感特征S,主题特征T和可读性特征R;然后将这些语义特征也作为输入变量输入风险预测模型,这样把借款描述文本的信息融入了系统,增加了系统的预测的准确性,相比现有的风险预测系统,预测的准确率提高了15%以上。
[0011] 本发明的人工情感标注子模块进行人工标注的时候需要人工参与,剩下均有计算机完成,而且只要风险预测模型搭建训练完毕,新借款列表的风险预测均由风险预测模型完成,能够有效降低网络借贷平台对借款列表的审核时间,能够有效提高P2P网络借贷平台的整体运营效率。

附图说明

[0012] 图1为本发明的预测系统各个模块的结构关系图;
[0013] 图2为情感特征S提取、存储子模块的各个子模块与词语切分子模块及风险预测模型搭建子模块的结构关系图。

具体实施方式

[0014] 具体实施方式一:结合图1说明本实施方式,
[0015] 平台数据采集模块,用于自动采集P2P网络借贷平台中的用户数据和交易数据,包括用户基本数据、用户信用数据、借款列表数据、借款描述文本、借款偿还情况;
[0016] 文本特征提取模块,用于获取平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语,同时负责提取借款描述文本包含的语义特征,包括情感特征S、主题特征T和可读性特征R;
[0017] 风险预测模型搭建、训练模块,用于搭建和训练风险预测模型;
[0018] 风险预测模块,用于预测、输出新借款列表的风险情况。
[0019] 具体实施方式二:本实施方式
[0020] 所述的文本特征提取模块,包括:
[0021] 词语切分子模块,用于获取平台数据采集模块中“借款描述文本”并进行词语切分并根据停用词列表去除没有实际含义的词语;
[0022] 情感特征S提取、存储子模块,用于提取、存储借款描述文本情感特征S;
[0023] 主题特征T提取、存储子模块,通过LDA主题生成模型计算出每个借款描述文本中的主题概率分布P(主题|文本),存储为借款描述文本的主题特征T;
[0024] 可读性特征R提取、存储子模块,首先统计所有借款描述文本中每个词语出现的次数,然后统计出当前借款描述文本中所出现的词语,计算当前借款描述文本中每个词语在所有借款描述文本中出现的次数的总和,并以C=(出现的次数的总和/当前借款描述文本中所出现的词语个数)作为当前借款描述文本中所出现的词语的平均出现次数,存储为前借款描述文本的可读性特征R。
[0025] 其它步骤与具体实施方式一相同。
[0026] 具体实施方式三:本实施方式,结合图2说明本实施方式,
[0027] 所述情感特征S提取、存储子模块,包括
[0028] 人工情感标注子模块,随机提取借款描述文本并输出显示,供用户进行人工情感标注:褒义、中性和贬义,分别以1、0和-1标记;并将已进行人工情感标注的借款描述文本分为情感标注训练集和情感标注测试集;
[0029] 计算机情感分类子模块,提取人工情感标注子模块中的情感标注训练集数据,根据情感标注训练集的人工情感标注分别计算出1、0和-1(褒义、中性和贬义)三种情感类别中各词语集合出现的次数;以此为基础,计算出情感标注测试集中的每个借款描述文本在1、0和-1(褒义、中性和贬义)三种情感类别中的概率;将概率最大时所对应的类别作为情感标注测试集中借款描述文本对应的情感类别进行存储;
[0030] 情感比对子模块,提取计算机情感分类子模块中存储的借款描述文本对应的情感类别,将其与人工情感标注进行比对,计算出两种标注方法的匹配度;若匹配度不能满足情感分类需求,则返回人工情感标注子模块进行调整优化,直到筛选出能够准确进行情感分类的提取借款描述文本情感特征的分类器;
[0031] 计算机情感标注子模块,提取情感比对子模块中的提取借款描述文本情感特征的分类器对所有的借款描述文本进行标注1、0或-1,存储为借款描述文本情感特征S。
[0032] 其它步骤与具体实施方式一至二相同。
[0033] 具体实施方式四:本实施方式
[0034] 所述的风险预测模型搭建、训练模块,包括:
[0035] 风险预测模型搭建子模块,以平台数据采集模块中的户基本数据、用户信用数据、借款列表数据以及文本特征提取模块中的情感特征S、主题特征T和可读性特征R作为输入变量,以平台数据采集模块中的借款偿还情况为输出变量,搭建风险预测模型;
[0036] 风险预测模型训练子模块,利用支持向量机对风险预测模型进行训练,采用M折交叉验证,反复优化运算,筛选出满足预测需求的风险预测模型。
[0037] 其它步骤与具体实施方式一至三相同。
[0038] 具体实施方式五:本实施方式
[0039] 所述的风险预测模块,通过新借款列表数据提取子模块调用平台数据采集模块和文本特征提取模块,生成新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R,将新借款列表的用户基本数据、用户信用数据、借款列表数据、情感特征S、主题特征T和可读性特征R输入风险预测模型;最后通过风险预测模型输出新借款列表的风险。
[0040] 其它步骤与具体实施方式一至四相同。