文本结论智能推荐方法、装置及计算机可读存储介质转让专利

申请号 : CN202010051191.X

文献号 : CN111275091A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李海翔

申请人 : 平安科技(深圳)有限公司

摘要 :

本发明涉及人工智能技术,揭露了一种文本结论智能推荐方法,包括:获取目标文本及历史文本集,对所述目标文本进行分词操作,得到所述目标文本的文本属性;对所述历史文本集依次进行相似度计算、相关系数计算,得到所述历史文本集的文本特征;从所述历史文本集筛选出预设数量的历史文本作为对比文本集,并将所述对比文本集中各对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。本发明还提出一种文本结论智能推荐装置以及一种计算机可读存储介质。本发明实现了文本结论的智能推荐。

权利要求 :

1.一种文本结论智能推荐方法,其特征在于,所述方法包括:

获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性;

从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集;

获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数选取预设数量的文本属性作为文本特征;

利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数量的相似文本作为对比文本集;

将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。

2.如权利要求1所述的文本结论智能推荐方法,其特征在于,所述文本属性包括:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例以及整体情感类别。

3.如权利要求1所述的文本结论智能推荐方法,其特征在于,所述计算基于分词操作后的所述目标文本与所述历史文本集的相似度包括:在所述目标文本中根据词性进行词语筛选,并根据筛选后的词语生成目标词性统计列表;

在所述历史文本集中的历史文本中根据所述词性进行词语筛选,生成历史词性统计列表;

利用相似度算法计算所述目标词性统计列表和所述历史词性统计列表的相似度。

4.如权利要求3所述的文本结论智能推荐方法,其特征在于,所述相似度算法包括:其中,u表示目标文本,w表示其中一个历史文本,j表示词性种类的取值范围,n表示某种词性的词语个数,ai、bi分别表示u、w中某种词性的词语的词频。

5.如权利要求1至4中任意一项所述的文本结论智能推荐方法,其特征在于,所述计算所述每一份相似文本中的文本属性与该相似文本的已知的文本结论之间的相关系数的计算方法包括:其中,OA和OB分别表示文本属性和文本结论,|OA|和|OB|分别表示文本属性和文本结论内词语的个数,Jaccard(OA,OB)表示文本属性和文本结论的相似系数,OA∩OB表示文本属性OA和文本结论中相同词语的个数,OA∪OB表示将文本属性OA和文本结论OB中相同词语进行合并后所有词语的总个数。

6.一种文本结论智能推荐装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的文本结论智能推荐程序,所述文本结论智能推荐程序被所述处理器执行时实现如下步骤:获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性;

从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集;

获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数选取预设数量的文本属性作为文本特征;

利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数量的相似文本作为对比文本集;

将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。

7.如权利要求6所述的文本结论智能推荐装置,其特征在于所述文本属性包括:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例以及整体情感类别。

8.如权利要求6所述的文本结论智能推荐装置,其特征在于,所述计算基于分词操作后的所述目标文本与所述历史文本集的相似度包括:在所述目标文本中根据词性进行词语筛选,并根据筛选后的词语生成目标词性统计列表;

在所述历史文本集中的历史文本中根据所述词性进行词语筛选,生成历史词性统计列表;

利用相似度算法计算所述目标词性统计列表和所述历史词性统计列表的相似度。

9.如权利要求8所述的文本结论智能推荐装置,其特征在于,所述相似度算法包括:其中,u表示目标文本,w表示其中一个历史文本,j表示词性种类的取值范围,n表示某种词性的词语个数,ai、bi分别表示u、w中某种词性的词语的词频。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本结论智能推荐程序,所述文本结论智能推荐程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的文本结论智能推荐方法的步骤。

说明书 :

文本结论智能推荐方法、装置及计算机可读存储介质

技术领域

[0001] 本发明涉及人工智能技术领域,尤其涉及一种智能化的文本结论智能推荐方法、装置及计算机可读存储介质。

背景技术

[0002] 目前在传统人工核保作业中,需要核保作业人员精准定位客户风险,然后结合风险收集客户相关信息确定风险程度,最后根据核保规则,对保单做出合适的核保决定,判断客户的投保单是否能够允予承保。这项工作要能做到精准无误,不仅需要丰富的保险知识、医学知识以及财务知识,同时需要具备丰富的案件评价经验。因此对于一名刚入行的新人来说,免不了需要资深从业人士花费大量时间来指导,这就耗费了不少人力成本,亟需一种智能的辅导方式,来解放这部分指导人力。

发明内容

[0003] 本发明提供一种文本结论智能推荐方法、装置及计算机可读存储介质,其主要目的在于根据历史数据对文本结论的智能判断,解放人力操作。
[0004] 为实现上述目的,本发明提供的一种文本结论智能推荐方法,包括:
[0005] 获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性;
[0006] 从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集;
[0007] 获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数选取预设数量的文本属性作为文本特征;
[0008] 利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数量的相似文本作为对比文本集;
[0009] 将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。
[0010] 可选地,所述文本属性包括:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例以及整体情感类别。
[0011] 可选地,所述计算基于分词操作后的所述目标文本与所述历史文本集的相似度包括:
[0012] 在所述目标文本中根据词性进行词语筛选,并根据筛选后的词语生成目标词性统计列表;
[0013] 在所述历史文本集中的历史文本中根据所述词性进行词语筛选,生成历史词性统计列表;
[0014] 利用相似度算法计算所述目标词性统计列表和所述历史词性统计列表的相似度。
[0015] 可选地,所述相似度算法包括:
[0016]
[0017] 其中,u表示目标文本,w表示其中一个历史文本,j表示词性种类的取值范围,n表示某种词性的词语个数,ai、bi分别表示u、w中某种词性的词语的词频。
[0018] 可选地,所述计算所述每一份相似文本中的文本属性与该相似文本的已知的文本结论之间的相关系数的计算方法包括:
[0019]
[0020]
[0021] 其中,OA和OB分别表示文本属性和文本结论,|OA|和|OB|分别表示文本属性和文本结论内词语的个数,Jaccard(OA,OB)表示文本属性和文本结论的相似系数,OA∩OB表示文本属性OA和文本结论中相同词语的个数,OA∪OB表示将文本属性OA和文本结论OB中相同词语进行合并后所有词语的总个数。
[0022] 此外,为实现上述目的,本发明还提供一种文本结论智能推荐装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文本结论智能推荐程序,所述文本结论智能推荐程序被所述处理器执行时实现如下步骤:
[0023] 获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性;
[0024] 从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集;
[0025] 获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数选取预设数量的文本属性作为文本特征;
[0026] 利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数量的相似文本作为对比文本集;
[0027] 将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。
[0028] 可选地,所述文本属性包括:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例以及整体情感类别。
[0029] 可选地,所述计算基于分词操作后的所述目标文本与所述历史文本集的相似度包括:
[0030] 在所述目标文本中根据词性进行词语筛选,并根据筛选后的词语生成目标词性统计列表;
[0031] 在所述历史文本集中的历史文本中根据所述词性进行词语筛选,生成历史词性统计列表;
[0032] 利用相似度算法计算所述目标词性统计列表和所述历史词性统计列表的相似度。
[0033] 可选地,所述相似度算法包括:
[0034]
[0035] 其中,u表示目标文本,w表示其中一个历史文本,j表示词性种类的取值范围,n表示某种词性的词语个数,ai、bi分别表示u、w中某种词性的词语的词频。
[0036] 此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本结论智能推荐程序,所述文本结论智能推荐程序可被一个或者多个处理器执行,以实现如上所述的文本结论智能推荐方法的步骤。
[0037] 本发明提出的文本结论智能推荐方法、装置及计算机可读存储介质,在用户对目标文本进行结论判断时,获取历史文本集,通过相似度判断方法从所述历史文本集中筛选出所述目标文本的相似文本集,再根据所述相似文本集的文本属性和已知的文本结论,通过训练线性回归模型找到所述目标文本的适合的结论,从而不需要人为判断,释放了人力操作。

附图说明

[0038] 图1为本发明一实施例提供的文本结论智能推荐方法的流程示意图;
[0039] 图2为本发明一实施例提供的文本结论智能推荐装置的内部结构示意图;
[0040] 图3为本发明一实施例提供的文本结论智能推荐装置中文本结论智能推荐程序的模块示意图。
[0041] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0042] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0043] 本发明提供一种文本结论智能推荐方法。参照图1所示,为本发明一实施例提供的文本结论智能推荐方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
[0044] 在本实施例中,文本结论智能推荐方法包括:
[0045] S1、获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性。
[0046] 本发明较佳实施例中,所述目标文本包括:待诊断的病例报告、待评分的主观题答卷、待核定保险金额的保单等需要通过对文本内容做出评价或者结论的文本。
[0047] 本发明较佳实施例按照词性分类对所述目标文本进行分词操作,将所述目标文本拆解为以单个词为单位的集合。所述词性分类包括、但不限于:名词(n)、动词(v)、形容词(a)、副词(d)、介词(p)、连词(c)、代词(r)、量词(q)以及标点符号(w)。例如:对如下语句进行分词操作:
[0048] 宪法是规范国家权力的实现形式以及运行方式、调整国家权力和公民权利之间关系的根本法,它通常规定国家体制、政权组织形式。
[0049] 得到的结果为:宪法_n是_v规范_v国家_n权力_n实现_v形式_n以及_c运行_v方式_n、_w调整_v国家_n权力_n和_c公民_n权利_n之间_f关系_n根本法_n,_w它_r通常_d规定_v国家_n体制_n、_w政权_n组织_n形式_n。_w
[0050] 所述文本属性是指能够描述所述目标文本性质的标志性特征。本发明较佳实施例通过遍历搜索分词操作后的所述目标文本得到所述目标文本的文本属性。
[0051] 较佳地,本发明所述文本属性包括、但不限于:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例以及整体情感类别。
[0052] 所述文本长度是指对分词操作后的所述目标文本除去_w(标点符号)后进行统计得到的词的个数。所述词性比重是指所述9种词性分类在总词数中所占的比例,例如:某目标文本经分词后的名词数量是20,总词数是352,则该文本的名词比重为20/352=5.7%。所述词语倾向性状态是指对所述分词操作后的所述目标文本中带有感情色彩的词语进行分析,本发明较佳实施例中,所述感情色彩为3类,分别是:褒义词、贬义词和中性词,得到3类词的比例,即为所述词语倾向性状态,例如:某目标文本经分词后的带有感情色彩的词汇:褒义词、贬义词和中性词数量分别为18,6,45,则所述词语倾向性状态为18:6:45=6:2:15。
所述人称类型是指:对所述分词操作后的所述目标文本中的代词进行统计,将数量最多的那类代词作为所述目标文本的人称类型,例如:对所述分词操作后的所述目标文本中的代词进行统计,发现:第一人称代词为16个,第二人称代词为7个,第三人称代词为10个,则所述分词操作后的所述目标文本的人称类型为第一人称。所述程度用词频度是指表达出强烈程度的词语的个数,所述表达出强烈程度的词语有:“很”、“非常”、“极其”、“最”。所述句式比例是指:通常句式类型是陈述句、感叹句、疑问句和祈使句,统计出各个类型句式数量的比例即为所述句式比例,所述整体情感类别是指,对文本中的句子进行考量,表达的是正向情感的,例如,病例诊断书上的“肺部未见异常阴影,功能良好。”这句话可算作正向情感语句;表达的是负向情感的,例如,保险中的事故描述“发动机因为车辆侧向猛烈撞击,发生爆炸。”这句话可算作负向情感语句,其余的陈述语句多为一般情感语句,将数量最多的那一类的情感语句作为所述目标文本的整体情感类别,正向情感记为1,负向情感记为-1,一般情感记为0。
[0053] S2、从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集。
[0054] 本发明较佳实施例中,所述预设历史文本库存储有与所述目标文本的业务类型相同的,并且已经做出评价的文本结论的历史文本的集合。例如:若所述目标文本是待核保的保单的案件描述,则所述历史文本库是之前已经核保完毕的保单的案件文本的集合;若目标文本是亟待医生进行诊断的病例报告,则所述历史文本库是之前已经确诊完毕的病例报告的集合。
[0055] 进一步地,本发明较佳实施例根据预设种类的词性,如上述9种词性分类中的前4种词性,即:名词、动词、形容词、副词进行考量(因为所述4种词性的词语出现频率高对文本的决定比重也高,剩余5种词性对文本结论的影响作用较小),计算所述目标文本与所述历史文本集的相似度。
[0056] 本发明较佳实施例中,所述相似度的计算方法包括:将所述目标文本中具有所述预设词性(如名词、动词、形容词、副词)的词语筛选出来,每种词性的词语对应生成一个目标词性统计列表。所述目标词性统计列表包含:词语本身以及出现频次,即词频。相同地,本发明将某一历史文本中的所述预设词性的词语筛选出来,每种词性的词语对应生成一个历史词性统计列表。进一步地,本发明采用相似度算法将所述目标词性统计列表和所述历史词性统计列表一一进行相似度计算,即名词对名词、动词对动词、形容词对形容词、副词对副词分别进行双向文本LSTM单向量相似度匹配计算,计算公式为:
[0057]
[0058] 其中,u表示目标文本,w表示其中一个历史文本,j表示词性种类的取值范围,这里j取值1到4,表示进行4种词性的相似度匹配计算,n表示具有某种词性(名词、动词、形容词、副词)词语的个数,n值依据经验值来确定,例如要对u、w中的10个名词进行相似度匹配,那么在进行名词相似度匹配时n取10,要对u、w中的5个动词进行相似度匹配,那么在进行动词相似度匹配时n取5,ai、bi分别表示u、w中某种词性的词语的词频。
[0059] 因此,根据上述方法,针对一份历史文本同所述目标文本进行相似度计算的结果可以得到4个,即:名词的单向量相似度匹配计算值cos(u,w)1、动词的单向量相似度匹配计算值cos(u,w)2、形容词的单向量相似度匹配计算值cos(u,w)3、副词的单向量相似度匹配计算值cos(u,w)4。通过取平均值求得所述目标文本和该份历史文本相似度为:
[0060]
[0061] 进一步地,本发明根据与所述目标文本之间的相似度从大到小的顺序筛选出预设数量的历史文本集作为相似文本集。较佳地,本发明中所述预设数量的历史文本集为60份。
[0062] S3、获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数选取预设数量的文本属性作为文本特征。
[0063] 所述文本结论是指按照文本描述的状态对文本进行判断所得出的处理结果或者评判结果,例如:如果某文本是待核保的保单的案件描述,那么所述文本结论是根据保单的案件描述得出的赔偿金额;如果目标文本是医生进行诊断的病例报告,那么所述文本结论就是根据病例报告的诊断结果;如果目标文本是学生的主观题答卷,那么所述文本结论就是根据答卷所得到的得分分值。
[0064] 本发明较佳实施例按照上述S1中的方法获取所述60份相似文本中每一份相似文本的所述文本属性,即获取每一份所述相似文本的7个属性:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例、整体情感类别。进一步地,本发明计算每一份所述相似文本7文本属性和该相似文本的所述文本结论的相关系数,并根据所述相关系数从高到低的顺序选取预设数量的文本属性。较佳地,本发明较佳实施例中所述预设数量的文本属性为3个文本属性,例如,可以包括,整体情感类别、程度用词频度、文本长度。应该了解,不同类型的相似文本相关性最高的3个文本属性可能不同。
[0065] 其中,所述相关系数的计算方法包括:
[0066]
[0067]
[0068] 其中,OA和OB分别表示文本属性和文本结论,|OA|和|OB|分别表示文本属性和文本结论内词语的个数,Jaccard(OA,OB)表示文本属性和文本结论的相似系数,OA∩OB表示文本属性OA和文本结论中相同词语的个数,OA∪OB表示将文本属性OA和文本结论OB中相同词语进行合并后所有词语的总个数。
[0069] S4、利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数量的相似文本作为对比文本集,将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。
[0070] 本发明较佳实施例对所述60份相似文本进行随机均分为A、B、C共3组,其中,每一组中包含20份所述相似文本。进一步地,本发明利用线性回归模型,分别交替将A、B、C,3组相似文本中的其中2组作为训练集,将所述训练集的文本特征作为输入,对应的文本结论作为输出来训练所述线性回归模型,剩下1组相似文本作为验证集,即:当A、B作为训练集时,C就作为验证集,当B、C作为训练集时,A就作为验证集,当A、C作为训练集时,B就作为验证集,这样得到3组验证结果,其中,每1组验证结果是该组验证集中20份所述相似文本验证的偏差值。例如A、B作为训练集,C作为验证集这一组,该组的验证结果为C组中20份相似文本的20个文本结论值和将C组20份相似文本的文本特征输入经过A、B组训练过的线性回归模型所得出的20个文本结论的预测值相比较得到的20个偏差值。
[0071] 进一步地,本发明将所述偏差值最小的那一组的验证集筛选出来,例如所述平均值最小的为B、C作为训练集,A为验证集的这一组,则将A组筛选出来,并将A组中所包含的20份相似文本的每一份相似文本的所述文本特征逐一同所述目标文本对应的文本属性进行比较,将比较结果值中数值最小的对应相似文本的文本结论作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。
[0072] 例如:所述目标文本对应的文本属性为:整体情感类别为1、程度用词频度为17、文本长度为400,所述要进行比较的相似文本的文本特征为:整体情感类别为-1、程度用词频度为28、文本长度为496。那么,进行比较的具体方法为将两个文本对应的文本特征进行做差,得到三个差值,对三个差值取平均值,求平均值的绝对值,即为该次比较结果值。例子中的比较结果值为:|[(-1-1)+(28-17)+(496-400)]/3|=32。20份所述相似文本逐一和所述目标文本进行比较就有20个比较结果值,将与所述目标文本比较结果值中数值最小的对应相似文本的文本结论作为所述目标文本的文本结论。
[0073] 本发明还提供一种文本结论智能推荐装置。参照图2所示,为本发明一实施例提供的文本结论智能推荐装置的内部结构示意图。
[0074] 在本实施例中,所述文本结论智能推荐装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该文本结论智能推荐装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
[0075] 其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文本结论智能推荐装置1的内部存储单元,例如该文本结论智能推荐装置1的硬盘。存储器11在另一些实施例中也可以是文本结论智能推荐装置1的外部存储设备,例如文本结论智能推荐装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括文本结论智能推荐装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文本结论智能推荐装置1的应用软件及各类数据,例如文本结论智能推荐程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0076] 处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本结论智能推荐程序01等。
[0077] 通信总线13用于实现这些组件之间的连接通信。
[0078] 网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
[0079] 可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在文本结论智能推荐装置1中处理的信息以及用于显示可视化的用户界面。
[0080] 图2仅示出了具有组件11-14以及文本结论智能推荐程序01的文本结论智能推荐装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对文本结论智能推荐装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0081] 在图2所示的装置1实施例中,存储器11中存储有文本结论智能推荐程序01;处理器12执行存储器11中存储的文本结论智能推荐程序01时实现如下步骤:
[0082] 步骤一、获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性。
[0083] 本发明较佳实施例中,所述目标文本包括:待诊断的病例报告、待评分的主观题答卷、待核定保险金额的保单等需要通过对文本内容做出评价或者结论的文本。
[0084] 本发明较佳实施例按照词性分类对所述目标文本进行分词操作,将所述目标文本拆解为以单个词为单位的集合。所述词性分类包括、但不限于:名词(n)、动词(v)、形容词(a)、副词(d)、介词(p)、连词(c)、代词(r)、量词(q)以及标点符号(w)。例如:对如下语句进行分词操作:
[0085] 宪法是规范国家权力的实现形式以及运行方式、调整国家权力和公民权利之间关系的根本法,它通常规定国家体制、政权组织形式。
[0086] 得到的结果为:宪法_n是_v规范_v国家_n权力_n实现_v形式_n以及_c运行_v方式_n、_w调整_v国家_n权力_n和_c公民_n权利_n之间_f关系_n根本法_n,_w它_r通常_d规定_v国家_n体制_n、_w政权_n组织_n形式_n。_w
[0087] 所述文本属性是指能够描述所述目标文本性质的标志性特征。本发明较佳实施例通过遍历搜索分词操作后的所述目标文本得到所述目标文本的文本属性。
[0088] 较佳地,本发明所述文本属性包括、但不限于:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例以及整体情感类别。
[0089] 所述文本长度是指对分词操作后的所述目标文本除去_w(标点符号)后进行统计得到的词的个数。所述词性比重是指所述9种词性分类在总词数中所占的比例,例如:某目标文本经分词后的名词数量是20,总词数是352,则该文本的名词比重为20/352=5.7%。所述词语倾向性状态是指对所述分词操作后的所述目标文本中带有感情色彩的词语进行分析,本发明较佳实施例中,所述感情色彩为3类,分别是:褒义词、贬义词和中性词,得到3类词的比例,即为所述词语倾向性状态,例如:某目标文本经分词后的带有感情色彩的词汇:褒义词、贬义词和中性词数量分别为18,6,45,则所述词语倾向性状态为18:6:45=6:2:15。
所述人称类型是指:对所述分词操作后的所述目标文本中的代词进行统计,将数量最多的那类代词作为所述目标文本的人称类型,例如:对所述分词操作后的所述目标文本中的代词进行统计,发现:第一人称代词为16个,第二人称代词为7个,第三人称代词为10个,则所述分词操作后的所述目标文本的人称类型为第一人称。所述程度用词频度是指表达出强烈程度的词语的个数,所述表达出强烈程度的词语有:“很”、“非常”、“极其”、“最”。所述句式比例是指:通常句式类型是陈述句、感叹句、疑问句和祈使句,统计出各个类型句式数量的比例即为所述句式比例,所述整体情感类别是指,对文本中的句子进行考量,表达的是正向情感的,例如,病例诊断书上的“肺部未见异常阴影,功能良好。”这句话可算作正向情感语句;表达的是负向情感的,例如,保险中的事故描述“发动机因为车辆侧向猛烈撞击,发生爆炸。”这句话可算作负向情感语句,其余的陈述语句多为一般情感语句,将数量最多的那一类的情感语句作为所述目标文本的整体情感类别,正向情感记为1,负向情感记为-1,一般情感记为0。
[0090] 步骤二、从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集。
[0091] 本发明较佳实施例中,所述预设历史文本库存储有与所述目标文本的业务类型相同的,并且已经做出评价的文本结论的历史文本的集合。例如:若所述目标文本是待核保的保单的案件描述,则所述历史文本库是之前已经核保完毕的保单的案件文本的集合;若目标文本是亟待医生进行诊断的病例报告,则所述历史文本库是之前已经确诊完毕的病例报告的集合。
[0092] 进一步地,本发明较佳实施例根据预设种类的词性,如上述9种词性分类中的前4种词性,即:名词、动词、形容词、副词进行考量(因为所述4种词性的词语出现频率高对文本的决定比重也高,剩余5种词性对文本结论的影响作用较小),计算所述目标文本与所述历史文本集的相似度。
[0093] 本发明较佳实施例中,所述相似度的计算方法包括:将所述目标文本中具有所述预设词性(如名词、动词、形容词、副词)的词语筛选出来,每种词性的词语对应生成一个目标词性统计列表。所述目标词性统计列表包含:词语本身以及出现频次,即词频。相同地,本发明将某一历史文本中的所述预设词性的词语筛选出来,每种词性的词语对应生成一个历史词性统计列表。进一步地,本发明采用相似度算法将所述目标词性统计列表和所述历史词性统计列表一一进行相似度计算,即名词对名词、动词对动词、形容词对形容词、副词对副词分别进行双向文本LSTM单向量相似度匹配计算,计算公式为:
[0094]
[0095] 其中,u表示目标文本,w表示其中一个历史文本,j表示词性种类的取值范围,这里j取值1到4,表示进行4种词性的相似度匹配计算,n表示具有某种词性(名词、动词、形容词、副词)词语的个数,n值依据经验值来确定,例如要对u、w中的10个名词进行相似度匹配,那么在进行名词相似度匹配时n取10,要对u、w中的5个动词进行相似度匹配,那么在进行动词相似度匹配时n取5,ai、bi分别表示u、w中某种词性的词语的词频。
[0096] 因此,根据上述方法,针对一份历史文本同所述目标文本进行相似度计算的结果可以得到4个,即:名词的单向量相似度匹配计算值cos(u,w)1、动词的单向量相似度匹配计算值cos(u,w)2、形容词的单向量相似度匹配计算值cos(u,w)3、副词的单向量相似度匹配计算值cos(u,w)4。通过取平均值求得所述目标文本和该份历史文本相似度为:
[0097]
[0098] 进一步地,本发明根据与所述目标文本之间的相似度从大到小的顺序筛选出预设数量的历史文本集作为相似文本集。较佳地,本发明中所述预设数量的历史文本集为60份。
[0099] 步骤三、获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数选取预设数量的文本属性作为文本特征。
[0100] 所述文本结论是指按照文本描述的状态对文本进行判断所得出的处理结果或者评判结果,例如:如果某文本是待核保的保单的案件描述,那么所述文本结论是根据保单的案件描述得出的赔偿金额;如果目标文本是医生进行诊断的病例报告,那么所述文本结论就是根据病例报告的诊断结果;如果目标文本是学生的主观题答卷,那么所述文本结论就是根据答卷所得到的得分分值。
[0101] 本发明较佳实施例按照上述步骤一中的方法获取所述60份相似文本中每一份相似文本的所述文本属性,即获取每一份所述相似文本的7个属性:文本长度、词性比重、词语倾向性状态、人称类型、程度用词频度、句式比例、整体情感类别。进一步地,本发明计算每一份所述相似文本7文本属性和该相似文本的所述文本结论的相关系数,并根据所述相关系数从高到低的顺序选取预设数量的文本属性。较佳地,本发明较佳实施例中所述预设数量的文本属性为3个文本属性,例如,可以包括,整体情感类别、程度用词频度、文本长度。应该了解,不同类型的相似文本相关性最高的3个文本属性可能不同。
[0102] 其中,所述相关系数的计算方法包括:
[0103]
[0104]
[0105] 其中,OA和OB分别表示文本属性和文本结论,|OA|和|OB|分别表示文本属性和文本结论内词语的个数,Jaccard(OA,OB)表示文本属性和文本结论的相似系数,OA∩OB表示文本属性OA和文本结论中相同词语的个数,OA∪OB表示将文本属性OA和文本结论OB中相同词语进行合并后所有词语的总个数。
[0106] 步骤四、利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数的相似文本作为对比文本集,将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。
[0107] 本发明较佳实施例对所述60份相似文本进行随机均分为A、B、C共3组,其中,每一组中包含20份所述相似文本。进一步地,本发明利用线性回归模型,分别交替将A、B、C,3组相似文本中的其中2组作为训练集,将所述训练集的文本特征作为输入,对应的文本结论作为输出来训练所述线性回归模型,剩下1组相似文本作为验证集,即:当A、B作为训练集时,C就作为验证集,当B、C作为训练集时,A就作为验证集,当A、C作为训练集时,B就作为验证集,这样得到3组验证结果,其中,每1组验证结果是该组验证集中20份所述相似文本验证的偏差值。例如A、B作为训练集,C作为验证集这一组,该组的验证结果为C组中20份相似文本的20个文本结论值和将C组20份相似文本的文本特征输入经过A、B组训练过的线性回归模型所得出的20个文本结论的预测值相比较得到的20个偏差值。
[0108] 进一步地,本发明将所述偏差值最小的那一组的验证集筛选出来,例如所述平均值最小的为B、C作为训练集,A为验证集的这一组,则将A组筛选出来,并将A组中所包含的20份相似文本的每一份相似文本的所述文本特征逐一同所述目标文本对应的文本属性进行比较,将比较结果值中数值最小的对应相似文本的文本结论作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。
[0109] 例如:所述目标文本对应的文本属性为:整体情感类别为1、程度用词频度为17、文本长度为400,所述要进行比较的相似文本的文本特征为:整体情感类别为-1、程度用词频度为28、文本长度为496。那么,进行比较的具体方法为将两个文本对应的文本特征进行做差,得到三个差值,对三个差值取平均值,求平均值的绝对值,即为该次比较结果值。例子中的比较结果值为:|[(-1-1)+(28-17)+(496-400)]/3|=32。20份所述相似文本逐一和所述目标文本进行比较就有20个比较结果值,将与所述目标文本比较结果值中数值最小的对应相似文本的文本结论作为所述目标文本的文本结论。
[0110] 可选地,在其他实施例中,文本结论智能推荐程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述文本结论智能推荐程序在文本结论智能推荐装置中的执行过程。
[0111] 例如,参照图3所示,为本发明文本结论智能推荐装置一实施例中的文本结论智能推荐程序的程序模块示意图,该实施例中,所述文本结论智能推荐程序可以被分割为分词模块10、相似度计算模块20、相关系数计算模块30以及文本结论推荐模块40,示例性地:
[0112] 所述分词模块10用于:获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性。
[0113] 所述相似度计算模块20用于:从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集。
[0114] 所述相关系数计算模块30用于:获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数从高到低顺序选取预设数量的文本属性作为文本特征。
[0115] 所述文本结论推荐模块40用于:利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数量的相似文本作为对比文本集,将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。上述分词模块10、相似度计算模块20、相关系数计算模块30以及文本结论推荐模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
[0116] 此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本结论智能推荐程序,所述文本结论智能推荐程序可被一个或多个处理器执行,以实现如下操作:
[0117] 获取目标文本,对所述目标文本进行分词操作,基于所述分词操作获取所述目标文本的文本属性;
[0118] 从预设历史文本库中获取历史文本集,计算基于分词操作后的所述目标文本与所述历史文本集的相似度,根据所述相似度筛选出预设数量的历史文本集作为相似文本集;
[0119] 获取所述相似文本集中每一份相似文本的文本属性,计算所述每一份相似文本的文本属性与该相似文本的已知的文本结论之间的相关系数,根据所述相关系数从高到低顺序选取预设数量的文本属性作为文本特征;
[0120] 利用所述相似文本集训练线性回归模型,并利用所述相似文本集的已知的文本结论对所述线性回归模型的输出值进行验证,得到所述已知的文本结论与所述输出值之间的偏差值,根据所述偏差值筛选出预设数量的相似文本作为对比文本集;
[0121] 将所述对比文本集中每一份对比文本的文本特征与所述目标文本对应的文本属性进行数值计算得到差值,选取与所述目标文本对应的文本属性差值最小的文本特征作为所述目标文本的文本结论,从而完成所述目标文本的文本结论推荐。本发明计算机可读存储介质具体实施方式与上述文本结论智能推荐装置和方法各实施例基本相同,在此不作累述。
[0122] 需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0123] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0124] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。