用于法律咨询的日常语言识别方法转让专利

申请号 : CN202010132129.3

文献号 : CN111368032B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴怡

申请人 : 重庆百事得大牛机器人有限公司

摘要 :

本发明涉及法律咨询技术领域,具体涉及一种用于法律咨询的日常语言识别方法,包括步骤:S1、输入法律咨询的语音;S2、提取关键词,分析语境,根据语境分析关键词的含义;S3、根据关键词的含义,进行矫正或者替换,将日常语言转化为法律术语;S4、识别语音的法律意义;S5、进行前置判断与后续判断。本发明根据用户进行法律咨询的语境,分析关键词在日常生活中的含义,再根据关键词在日常生活中的含义将其转换为法律术语。在用户采用通俗化、口语化、日常化的方式进行法律咨询时,能够准确地识别出用户所表达的意思,从而提高法律机器人咨询的效率与准确性。

权利要求 :

1.用于法律咨询的日常语言识别方法,其特征在于,包括步骤:

S1、输入法律咨询的语音;S1具体包括:S11、输入法律咨询的语音;S12、对语音进行降噪处理;

S2、提取语音中的关键词,分析语境,根据语境分析关键词的含义;S2具体包括:S21、提取第一类关键词;S22、提取第二类关键词;S23、提取五要素,根据五要素生成语境,其中五因素包括何人、何时、何地、何因、何事;S24、结合语境分析第一类关键词和第二类关键词的语义;

S21具体包括:S21a、显示音高曲线、共振峰曲线和音强曲线;S21b、获取A类关键词、B类关键词以及C类关键词为第一类关键词,其中,A类关键词为音高较高的词,B类关键词为说话时长较长的词,C类关键词为出现次数较多的词;

S22具体包括:S22a、对语音进行划分,得到若干个词语;S22b、获取法律语料库;S22c、计算法律语料库中每个词语在语音中的tf值J以及在法律语料库中的idf值K;S22d、根据tf值及idf值计算权重γ;γ=K*lg(J*W+1);其中,W为预设的生僻词系数,且W≥1;S22e、选出预设个数权重最大的词语作为第二类关键词;

S3、根据关键词的含义,结合日常交流习惯进行矫正或者替换,将日常语言转化为法律术语;

S4、识别语音的法律意义;

S5、首先,进行前置判断:若包含不超过20%或者一次性付清的信息,则输出定金;若包含超过20%或者多次付清的信息,则输出订金;若前置判断不能确定是订金还是定金,则进行后续判断:输出定金、订金和不知道三个选项供用户选择,若用户选择定金或者订金,则输出结果;若用户选择不知道,则根据约定的信息进行判断。

2.根据权利要求1所述的用于法律咨询的日常语言识别方法,其特征在于,步骤S3具体包括:S31、识别关键词语义;S32、根据语义并依据日常交流习惯对关键词进行矫正或者替换;S33、将矫正或者替换后的关键词转化为法律术语。

3.根据权利要求2所述的用于法律咨询的日常语言识别方法,其特征在于,步骤S4具体包括:S41、抽取语音的时间特征;S42、提取每个时间点所对应的关键特征;S43、根据事件的发展规律识别含义。

4.根据权利要求3所述的用于法律咨询的日常语言识别方法,其特征在于,还包括步骤S6,反馈和修正;具体包括:S61、将识别出的含义以文本或者语音的方式输出,并提醒用户确认;S62、若用户确认含义正确,则输出结果;若用户确认含义有误,则重新执行步骤S2-S5,直到用户确认含义正确。

5.根据权利要求4所述的用于法律咨询的日常语言识别方法,其特征在于,还包括步骤S7,学习与优化;具体包括:S71、储存关键词、法律术语和识别出的含义;S72、采用机器学习算法进行优化。

6.根据权利要求5所述的用于法律咨询的日常语言识别方法,其特征在于,步骤S1中,若语音中包含有方言,先将方言转换为普通话。

说明书 :

用于法律咨询的日常语言识别方法

技术领域

[0001] 本发明涉及法律咨询技术领域,具体涉及一种用于法律咨询的日常语言识别方法。

背景技术

[0002] 目前我国社会正处于产业转型的阶段,人们对于法律服务的需求也日益增加。法律工作者每天疲于应付各种各样的法律咨询,法律服务机器人应运而生,民众可以通过法律机器人享受免费、精准、及时、有效的法律服务。
[0003] 文件CN109108989A,公开了一种语义识别的法律服务专用机器人,涉及法律咨询领域,包括机器人本体以及设置在机器人本体内的服务器;所述机器人本体,包括用来采集咨询问题的采集端;所述服务器,包括用来对咨询问题进行法律语义提取的语义识别模块,所述语义识别模块包括存储并实时更新有多个法律词汇的词汇存储模块;语义识别模块从咨询问题中提取词语,并将每个词语与词汇存储模块中的法律词汇进行对比,用匹配成功的法律词汇替换咨询问题中的词语。该发明能够及时获知咨询者所表达的法律意思,进而快速提供针对性的法律服务。
[0004] 我国绝大部分人文化程度低,全国本科以上学历的不到5%。当用户遇到法律问题进行法律咨询时,难以用规范的、相对专业的语言进行表达;相反,总是用通俗化、口语化、日常化的方式进行描述。因此,法律机器人难以直接理解其中的含义。比如说,提到“ding金”时,机器人难以识别到底是“定金”,还是“订金”;而“定金”和“订金”在法律上的含义截然不同,对当事人权利、义务的影响也是极大的。

发明内容

[0005] 本发明提供一种用于法律咨询的日常语言识别方法,解决了用户进行法律咨询时,采用通俗化、口语化、日常化的方式进行描述,导致法律机器人难以直接理解其中含义的技术问题。
[0006] 本发明提供的基础方案为:用于法律咨询的日常语言识别方法,包括步骤:S1、输入法律咨询的语音;S2、提取语音中的关键词,分析语境,根据语境分析关键词的含义;S3、根据关键词的含义,结合日常交流习惯进行矫正或者替换,将日常语言转化为法律术语;S4、识别语音的法律意义;S5、首先,进行前置判断:若包含不超过20%或者一次性付清的信息,则输出定金;若包含超过20%或者多次付清的信息,则输出订金;若前置判断不能确定是订金还是定金,则进行后续判断:输出定金、订金和不知道三个选项供用户选择,若用户选择定金或者订金,则输出结果;若用户选择不知道,则根据约定的信息进行判断。
[0007] 本发明的工作原理在于:根据用户进行法律咨询的语境,分析关键词在日常生活中的含义,再根据关键词在日常生活中的含义将其转换为法律术语。本发明的优点在于:通过语境能够精确地捕捉用户所表达的关键词的含义,从而能够将其精确地将用户表达的关键词与法律术语进行匹配,从而准确地识别出用户所表达的意思。
[0008] 本发明在用户采用通俗化、口语化、日常化的方式进行法律咨询时,能够准确地识别出用户所表达的意思,从而提高法律机器人咨询的效率与准确性。
[0009] 进一步,步骤S1具体包括:S11、输入法律咨询的语音;S12、对语音进行降噪处理。通常语音中包括两类噪声:一类是物理噪声;二类是信息噪声。物理噪声,比如杂音;信息噪声,比如没有实际意义的语气词;将这些噪声去掉,有利于提高语音信息的洁净度,从而提高后续处理的精确度。
[0010] 进一步,步骤S2具体包括:S21、提取第一类关键词;S22、提取第二类关键词;S23、提取五要素,根据五要素生成语境;S24、结合语境分析第一类关键词和第二类关键词的语义。五要素包括何人、何时、何地、何因、何事,汉语博大精深,同样的词语在不同的场合有时会具有截然不同的含义。比如说“意思”这个词,“找人托关系,需要意思一下”,“这个单词什么意思”,这两个句子中的意思就具有不同的含义。因此,结合语境,才能准确地把握关键词的含义。
[0011] 进一步,步骤S21具体包括:S21a、显示音高曲线、共振峰曲线和音强曲线;S21b、获取A类关键词、B类关键词以及C类关键词为第一类关键词。A类关键词指音高较高的词,B类关键词指说话时长较长的词,C类关键词指出现次数较多的词。当人们用语言表述某件事时,对于重要的部分,要么语气会加强,音调升高;要么放慢语速,说话持续时间较长;要么反复强调。这些词语可能含有比较重要的信息,对其进行分析,有利于精确把握用户表达的含义。
[0012] 进一步,步骤S22具体包括:S22a、对语音进行划分,得到若干个词语;S22b、获取法律语料库;S22c、计算法律语料库中每个词语在语音中的tf值J以及在法律语料库中的idf值K;S22d、根据tf值及idf值计算权重γ;γ=K*lg(J*W+1);其中,W为预设的生僻词系数,且W≥1;S22e、选出预设个数权重最大的词语作为第二类关键词。tf-idf是一种统计方法,用以评估某字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率呈反比下降。如果某个词或短语在语音中出现的频率tf高,那么该词语作为关键词就具有很好的类别区分能力,该词语就适合用来分类。因此,这样挑选出的关键词用于把握用户的法律意图。
[0013] 进一步,步骤S3具体包括:S31、识别关键词语义;S32、根据语义并依据日常交流习惯对关键词进行矫正或者替换;S33、将矫正或者替换后的关键词转化为法律术语。由于日常口语的表述与规范表述有所不同,有必要结合语义和日常交流习惯进行矫正或者替换。这样有利于精确地转化为法律术语。
[0014] 进一步,步骤S4具体包括:S41、抽取语音的时间特征;S42、提取每个时间点所对应的关键特征;S43、根据事件的发展规律识别含义。只提取关键特征进行识别,有利于降低无用信息的干扰;通过理清时间的先后顺序,有利于还原案情事实。
[0015] 进一步,还包括步骤S6,反馈和修正;具体包括:S61、将识别出的含义以文本或者语音的方式输出,并提醒用户再次确认;S62、若用户确认含义正确,则输出结果;若用户确认含义有误,则重新执行步骤S2-S5,直到用户确认含义正确。通过这样的反馈和修正过程,可以最大限度地提高识别的准确率。
[0016] 进一步,还包括步骤S7,学习与优化;具体包括:S71、储存关键词、法律术语和识别出的含义;S72、采用机器学习算法进行优化。这样有利于优化系统,提高效率。
[0017] 进一步,步骤S1中,若语音中包含有方言,先将方言转换为普通话。由于我国幅员辽阔,方言数量众多,统一转化为普通话,有利于提高分析的效率。

附图说明

[0018] 图1为本发明用于法律咨询的日常语言识别方法实施例的流程图。

具体实施方式

[0019] 下面通过具体实施方式进一步详细的说明:
[0020] 实施例1
[0021] 本发明用于法律咨询的日常语言识别方法实施例基本如附图1所示:包括步骤:S1、输入法律咨询的语音;S2、提取关键词,分析语境,根据语境分析关键词的含义;S3、根据关键词的含义,进行矫正或者替换,将日常语言转化为法律术语;S4、识别语音的法律意义并输出结果。
[0022] 本实施例中,张三与李四存在合同纠纷。内容大致这样:“…张三于2010年6月1日向李四购买河沙5吨,于当日签订了河沙买卖合同,合同约定15日内李四将河沙保质保量运到张三家附近的石坝处,张三收到河沙时一次性付款。2010年6月16日,李四将河沙运到张三家附近的石坝处时,要求张三支付河沙价款2万元。张三表示暂时没有钱,愿意出具2万元的欠条交于李四,并表示6月底付清欠款,期间按照银行同期利率支付利息,李四表示同意。2010年7月1日,李四手持欠条前往张三住处,要求支付欠款与利息。张三表示生意亏损至今,尚无利润可以还债,而且6月28日跟王五借了4万元,并将借条出示于李四看。李四表示,张三有赖账嫌疑,并告知张三在签订合同与欠条时,都用手机进行了录音与录像。张三见状,表示马上还钱,但是需要三天时间准备…”
[0023] 李四为了保护自己的合法权益,积极向法律咨询机器人寻求法律帮助。但是由于李四的文化程度低、法律水平不高,无法进行书面表达,只能通过口述的方式讲述基本情况。法律咨询机器人上搭载有Praat语音分析软件,可以对李四讲述案件事实的语音进行分析、处理,从而对李四法律咨询过程中的日常语言进行识别。
[0024] 第一步,输入法律咨询的语音。
[0025] 李四通过口述的方式将前述案件事实及相关咨询内容表达出来,形成录音。Praat软件输入李四的录音后,对语音进行降噪处理。一是去除物理噪声,比如李四口述时旁人议论的杂音;二是信去除信息噪声,比如“哎”、“呀”等没有实际意义的语气词。另外,李四说的是四川方言,需要先将方言转换为普通话,转换的方式可以参照现有技术。
[0026] 第二步,提取关键词,分析语境,根据语境分析关键词的含义。
[0027] 首先,提取第一类关键词,包括A类关键词:音高较高的词,B类关键词:说话时长较长的词,C类关键词:出现次数较多的词。当李四用语言表述案件事实时,对于重要的部分,要么语气会加强,音调升高;要么放慢语速,说话持续时间较长;要么反复强调。Praat软件可以显示李四录音的音高曲线、共振峰曲线和音强曲线,通过这些曲线可以确定出音高较高的词,比如“价款”;说话时长较长的词,比如“欠条”;以及出现次数较多的词,比如“利息”。
[0028] 然后,采用tf-idf方法提取第二类关键词,这类关键词就具有很好地区分案件的类别或类型。具体步骤如下:第一步,对语音进行划分,得到若干个词语;第二步,获取法律语料库;第三步,计算法律语料库中每个词语在语音中的tf值J以及在法律语料库中的idf值K;第四步,根据tf值及idf值计算权重γ;γ=K*lg(J*W+1);其中,J为词语的tf值,K为词语的idf值,W为预设的生僻词系数,且W≥1;第五步,选出预设个数权重最大的词语作为关键词。关于tf-idf方法的详细步骤可参照现有技术。这样就可提取出第二类关键词,比如“河沙”、“买卖”、“定金”、“一次性付款”,通过这些关键词,可以准确地将李四的案件认定为买卖合同纠纷。
[0029] 接着,提取录音中的五要素,并根据五要素生成语境。比如,提取出的五要素包括:何人,张三、李四;何时,2010年6月1日;何地,李四家;何因,签订河沙买卖合同;何事,李四交付河沙后,张三不付款。通过这五个要素,可以生成河沙买卖合同相关纠纷的语境,李四录音中的字、词、句的含义,均应当在买卖合同纠纷的语境中进行解释。
[0030] 最后,结合语境分析第一类关键词和第二类关键词的语义。汉语博大精深,同样的词语在不同的场合有时会具有截然不同的含义。比如说,李四的录音中出现了“ding jin”这个词,这时候就需要根据语境确定李四所要表达的是“定金”,还是“订金”,两者的法律意义是不一样的。根据河沙买卖合同纠纷的语境,李四要表达的“ding jin”应当是“定金”。
[0031] 因此,结合语境才能准确地把握关键词的含义。
[0032] 第三步,根据关键词的含义,进行矫正或者替换,将日常语言转化为法律术语。
[0033] 首先,识别关键词语义;然后,根据语义并依据日常交流习惯对关键词进行矫正或者替换;最后,将矫正或者替换后的关键词转化为法律术语。比如说,李四的录音中提及“我有这个权力让张三付款”,其中的关键词“权力”,经常口语化使用。识别出“权力”的含义后,根据人们在买卖合同纠纷中的交流习惯,应当将“权力”替换为“权利”;最后将“权力”转换为法律术语,也即“价款支付请求权”。
[0034] 第四步,识别语音的法律意义。
[0035] 首先,抽取语音的时间特征,比如“2010年6月16日”。然后,提取每个时间点所对应的关键特征,比如“2010年6月16日”对应的关键特征为“李四要求张三支付河沙价款2万元”、“张三出具2万元的欠条交于李四,并表示6月底付清欠款”。最后,将各个时间特征对应的关键特征按照时间先后顺序联系起来,就可还原出案件的基本事实,根据事件的发展规律识别含义并输出结果。比如,“张三与李四在2010年6月1日签订河沙买卖合同,约定15日内李四交货到张三家附近的石坝处,张三收到河沙时一次性付款。2010年6月16日,李四按期交货并要求张三支付河沙价款2万元,张三出具2万元的欠条交于李四,并表示6月底付清欠款,期间按照银行同期利率支付利息,李四表示同意…”
[0036] 第五步,进行前置判断与后续判断。
[0037] 首先,进行前置判断:若包含不超过20%或者一次性付清的信息,则输出定金;若包含超过20%或者多次付清的信息,则输出订金。比如说,张三和李四约定“ding金”为3500元,该“ding金”小于价款的20%(20000×0.2=4000),“ding金”应当为定金;反之,若张三和李四约定“ding金”为4500元,该“ding金”大于价款的20%(20000×0.2=4000),“ding金”应当为订金。又比如说,张三和李四约定“ding金”一次性交清,该“ding金”应当为定金;反之,若张三和李四约定“ding金”两次或者三次付清,该“ding金”就应当为订金。
[0038] 事实上,由于当事人法律知识有限,弄不清楚定金与订金的区别:①、交付定金的合同是从合同,依约定应交付定金而未付的,不构成对主合同的违反;而交付订金的合同是主合同的一部分,依约定应交付订金而未交付的,即构成对主合同的违反。②、交付和收受订金的当事人一方不履行合同债务时,不发生丧失或者双倍返还预付款的后果,订金仅可作损害赔偿金。③、定金数额不超过主合同标的额的20%;而订金的数额依当事人之间自由约定,法律一般不作限制。④、定金具有担保性质,而订金只是单方行为,不具有明显的担保性质。
[0039] 因此,当事人可能出现这样的约定,“定金为5000元”,这样超过了合同标的额的20%,超过部分在法律上不发生定金的效力。这时,前置判断就不能确定这5000元是订金还是定金。接着,就需要进行后续判断,输出“定金”、“订金”和“不知道”三个选项供用户选择,若用户选择定金或者订金,则直接输出结果。倘若用户选择不知道,则需要根据张三和李四约定的信息进行进一步的判断。比如说,如果李四提到“如果我把河沙拉来,你不付尾款,这
5000块我就不退了”,可见这5000块具有担保的性质。那么张三和李四约定的就应当是“定金”,而超过价款的20%的那1000块则没有定金的效力。又比如,如果张三提到“如果你把河沙拉来,这5000块抵销5000块,我只付款15000元”,那么这5000块具有预付款的作用,张三和李四约定的就应当是“订金”。
[0040] 实施例2
[0041] 与实施例1不同之处仅在于:还包括反馈和修正:将识别出的含义以文本或者语音的方式输出,并提醒李四确认;若李四确认含义正确,则输出结果;若李四确认含义有误,则重新执行前述,直到李四确认含义正确。通过这样的反馈和修正过程,可以最大限度地提高识别的准确率。另外,还包括学习与优化:将关键词、法律术语和识别出的含义储存起来,采用机器学习算法进行优化,这样有利于优化系统,提高效率。
[0042] 以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。