一种能够自动更新的案件预判智能体训练方法及系统转让专利

申请号 : CN202110567522.X

文献号 : CN113282705B

文献日 : 2022-01-28

本发明公开了一种能够自动更新的案件预判智能体训练方法及系统，方法包括获取一定数量的司法案件审判书作为样本，从审判书种抽取事实等关键信息，对于数据进行处理，同时接收专家标注的新的数据，构建新的数据集，针对司法审判问题进行建模，得到对关键信息的准确率计算模型，从模型中提取训练所需要的参数，定义模型训练的reward函数，再使用BCQ算法根据参数以及数据集进行智能体模型的训练。本发明使用强化学习的方法解决司法案件预判不准确的问题，同时能够进行改进和优化，长期保持模型的准确率。

1.一种能够自动更新的案件预判智能体训练方法，其特征在于,包括以下步骤：S1、采用爬虫技术获取一定数量的开源的司法案件审判书，构建初始数据集，作为样本；

S2、使用分词技术从审判书中抽取关键信息，并对数据进行清洗以及数据增强，同时接收专家标注的新的数据，构建新的数据集；

S3、针对司法审判问题进行建模，得到对关键信息的准确率判断模型，并从中提取训练所需要的参数，以及定义智能体模型训练的函数；

具体参数的定义以及对应的函数如下：reward函数：在司法案件审判问题当中，用于确定模型判断结果是否和实际结果相符合；

value函数：用于表征当前模型的整体样本数据集错误率的高低，错误率较高则模型较差，错误率较低则模型较优，具体形式如下：其中s代表state状态值，R代表Random parameters，随机初始化参数；

Q函数：可以理解为当前模型状态下，只给予一个样本作为输入，输出的判断结果准确的概率，具体形式如下：

其中s代表state状态值，a代表action动作，R代表Random parameters，随机初始化参数；

History函数：是一个多参数向量，可以理解为直到当前状态之前的训练过程中，模型所给出的每一个结果，也可以理解为强化学习过程中的所采取的一系列动作action，每个动作对模型参数和输出结果的准确率的影响，具体形式如下：Ht＝A1，O1，R1，...，At，Ot，RtState函数：用于决定智能体模型下一次操作和输出的相关信息，其能够从History中抽取所需要的信息作为输入进行计算，是History的一个总结，也就是说State函数能够指导模型的变化和下一步的操作，具体形式如下：St＝f(Ht)，At＝h(St)；

S4、使用基于off‑policy的BCQ算法根据参数以及数据集进行智能体模型的训练；训练的步骤至少包括进行网络参数的更新；BCQ包括：生成模型G，使用VAE对分布进行建模，生成和数据集中相近的action；扰乱模型ξ，用于增加action的多样性；两个Q网络和对应的目标网络，用于防止对Q值的过高估计。

2.根据权利要求1所述的能够自动更新的案件预判智能体训练方法，其特征在于，所述步骤S2具体包括对获取的初始数据集进行分词以及数据清洗操作，剔除模型不关心的信息，同时标注并提取出关键信息，再使用数据增强的方法，对关键信息进行修改。

3.根据权利要求1所述的能够自动更新的案件预判智能体训练方法，其特征在于，使用BCQ算法进行智能体模型的训练具体包括：S41、从最小批量样本集中结合变分自动编码器获取目前状态以及动作；

S42、在环境的基础上依靠状态和动作计算期望和方差，从而得到分布；

S43、计算并比较各个动作所对应的分布与目标分布的相似度，选取相似度最高的动作作为候选；

S44、结合扰乱模型，增加动作的多样性；

S45、根据Q网络选出其中全局范围内价值最高的作为实际采取的动作；

S46、结合网络更新率进行网络参数的更新。

4.根据权利要求3所述的能够自动更新的案件预判智能体训练方法，其特征在于，在Q网络的学习过程中引入批限制Q网络学习公式，具体形式如下：

5.一种能够自动更新的案件预判智能体系统，其特征在于,包括中央处理器和存储器，所述存储器中存储有准确率判断模型以及可供所述中央处理器运行的程序，所述中央处理器通过运行所述程序可以实现如权利要求1‑4中任一项所述的能够自动更新的案件预判智能体训练方法。

6.根据权利要求5所述的能够自动更新的案件预判智能体系统，其特征在于，经过训练的智能体模型可以对当事人起诉状进行文本预处理，计算并决策判断各个事实和对应法律的准确率，依据输出的准确率指导当事人进行起诉状的修改。

7.一种计算机可读存储介质，其特征在于,存储有准确率判断模型以及可供中央处理器运行的程序，通过运行所述程序可以实现如权利要求1‑4中任一项所述的能够自动更新的案件预判智能体训练方法。

一种能够自动更新的案件预判智能体训练方法及系统

技术领域

[0001] 本发明涉及人工智能领域，主要关于人工智能在司法审判过程中的应用，特别是一种能够自动更新的案件预判智能体训练方法及系统。

背景技术

[0002] 随着法律体系不断依托社会现实臻于完善，司法案件的数量也正逐步增加，导致了各地基层法官工作量大，承受着极大的压力。对于占据大多数的民事案件、合同纠纷案件
都具有简单、重复性高的特点，但因其数量过于庞大，占据了大量地司法案件审判资源，导
致全国各地的频繁出现案件积压过多而未能得到有效处理的问题，往往一个案件需要等待
数个月之久才开庭审理，司法部门的工作效率也因此而下降。

[0003] 常见的预测模型大多是基于深度学习而训练而得来的，通过对卷积神经网络的训练优化模型参数，进而来提取数据集样本中的特征，得到理想的神经网络模型来进行准确
率的计算，取得了不错的效果。但随着时间的推移，社会也在不断地发展，司法案件也随着
日新月异的科技和时代潮流也在不断地发生变化，无论是案件类型，还是案件关键信息和
所适用的法律都在发生着不断地变化，而对于已经训练好并且投入使用的传统的基于深度
学习的案件预判系统会随着时间流逝以及司法案件的不断变换而导致错误率的升高，而系
统重新训练以及更新等复杂的步骤就成为了一大问题。

发明内容

[0004] 为了解决现有技术中预测模型准确率下降、重新训练以及更新较为复杂的技术问题，本发明提出一种能够自动更新的案件预判智能体训练方法及系统。

[0005] 为此，本发明提出的能够自动更新的案件预判智能体训练方法具体包括以下步骤：

[0006] S1、采用爬虫技术获取一定数量的开源的司法案件审判书，构建初始数据集，作为样本；

[0007] S2、使用分词技术从审判书中抽取关键信息，并对数据进行清洗以及数据增强，同时接收专家标注的新的数据，构建新的数据集；

[0008] S3、针对司法审判问题进行建模，得到对关键信息的准确率判断模型，并从中提取训练所需要的参数，以及定义智能体模型训练的reward函数；

[0009] S4、使用基于off‑policy的BCQ算法根据参数以及数据集进行智能体模型的训练；训练的步骤至少包括进行网络参数的更新；BCQ包括：生成模型G，使用VAE对分布进行建模，
生成和数据集中相近的action；扰乱模型ξ，用于增加action的多样性；两个Q网络和对应的
目标网络，用于防止对Q值的过高估计。

[0010] 进一步地，所述步骤S2具体包括对获取的初始数据集进行分词以及数据清洗操作，剔除模型不关心的信息，同时标注并提取出关键信息，再使用数据增强的方法，对关键
信息进行修改。

[0011] 进一步地，所述reward函数用于确定模型判断结果是否和实际结果相符合。

[0012] 进一步地，所述步骤S3中，参数包括value函数，用于表征当前模型的整体样本数据集错误率的高低，错误率较高则模型较差，错误率较低则模型较优。

[0013] 进一步地，所述步骤S3中，参数包括state函数，用于决定智能体模型下一次操作和输出的相关信息。

[0014] 进一步地，使用BCQ算法进行智能体模型的训练具体包括：

[0015] S41、从最小批量样本集中结合变分自动编码器获取目前状态以及动作；

[0016] S42、在环境的基础上依靠状态和动作计算期望和方差，从而得到分布；

[0017] S43、计算并比较各个动作所对应的分布与目标分布的相似度，选取相似度最高的动作作为候选；

[0018] S44、结合扰乱模型，增加动作的多样性；

[0019] S45、根据Q网络选出其中全局范围内价值最高的作为实际采取的动作；

[0020] S46、结合网络更新率进行网络参数的更新。

[0021] 进一步地，在Q网络的学习过程中引入批限制Q网络学习公式，具体形式如下：

[0022]

[0023] 为此，本发明提出的能够自动更新的案件预判智能体系统包括中央处理器和存储器，所述存储器中存储有准确率判断模型以及可供所述中央处理器运行的程序，所述中央
处理器通过运行所述程序可以实现上述能够自动更新的案件预判智能体训练方法。

[0024] 进一步地，经过训练的智能体模型可以对当事人起诉状进行文本预处理，计算并决策判断各个事实和对应法律的准确率，依据输出的准确率指导当事人进行起诉状的修
改。

[0025] 为此，本发明提出的计算机可读存储介质存储有准确率判断模型以及可供中央处理器运行的程序，通过运行所述程序可以实现上述能够自动更新的案件预判智能体训练方
法。

[0026] 相比于现有技术，本发明具有如下有益效果：

[0027] 1)提出利用强化学习的方法解决司法案件预判不准确的问题，从文本中抽离数据作为数据集并进行问题的建模来训练智能体；

[0028] 2)考虑到司法案件复杂性以及与时俱进的特点，为了长期保持模型的准确率，对采集的数据进行数据增强并进行专家标注，扩大样本空间，进而模拟目前未曾出现的情形
来进行训练。

附图说明

[0029] 图1是案件预判方法的流程图。

具体实施方式

[0030] 为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

[0031] 强化学习的最根本特点在于其要求智能体去探索环境，对探索环境所做出的动作而得到的reward进行模型参数的更新，而这恰好能够弥补使用深度学习设计的司法案件预
判系统的缺点，也就是能够在现有数据集的基础上去探索所未出现的情景和状态，进而能
够适应社会变化所引发的司法案件的变化，避免模型准确率随时间变化而下降的问题，因
此，对于司法案件预判方面的问题，使用强化学习的方法去解决具有很高的研究价值。

[0032] 本发明实施例提出的能够自动更新的案件预判智能体训练方法具体包括如下步骤：

[0033] S1、采用爬虫技术获取一定数量的开源的司法案件审判书，构建初始数据集，作为样本。

[0034] S2、使用分词技术从审判书中抽取事实等关键信息，并对数据进行清洗以及数据增强，同时专家标注新的数据，构建新的数据集，具体地，对获取的初始数据集进行分词以
及数据清洗操作，剔除模型不关心的信息，同时标注并提取出关键信息，如金额，地点等，再
使用数据增强的方法，对关键信息进行修改并进行专家标注，从而产生新的样本，扩大了样
本空间，该方法在现实中，尤其是在司法案件预判问题上之所以有效，是因为现在出现案件
不可能涵盖整个空间所有的情况，也就是以后出现的案件和之前出现过的案件都有可能有
很大的差别，而使用已经进行数据增强的数据集来训练的模型，就会对一些没有出现过的
案件的分析和计算特别有效。

[0035] S3、针对司法审判问题进行建模，得到对关键信息的准确率判断模型，并从中提取训练所需要的参数，具体参数的定义以及对应的函数如下：

[0036] reward：在司法案件审判问题当中，可以理解为模型判断结果是否正确，也就是是否和实际结果相符合；

[0037] value function：可以理解为当前模型的整体样本数据集错误率的高低，错误率较高则模型较差，错误率较低则模型较优，具体形式如下：

[0038]

[0039] 其中s代表state状态值，R代表Random parameters，随机初始化参数；

[0040] Q‑function：可以理解为当前模型状态下，只给予一个样本作为输入，输出的判断结果准确的概率，具体形式如下：

[0041]

[0042] 其中s代表state状态值，a代表action动作，R代表Random parameters，随机初始化参数；

[0043] History：是一个多参数向量，可以理解为直到当前状态之前的训练过程中，模型所给出的每一个结果，也可以理解为强化学习过程中的所采取的一系列动作(action)，每
个动作对模型参数和输出结果的准确率的影响，具体形式如下：

[0044] Ht＝A1，O1，R1，...，At，Ot，Rt

[0045] State：可以理解为决定模型下一次操作和输出的相关信息的函数，其能够从History中抽取所需要的信息作为输入进行计算，是History的一个总结，也就是说State函
数能够指导模型的变化和下一步的操作，具体形式如下：

[0046] St＝f(Ht)，At＝h(St)

[0047] S4、使用BCQ算法根据参数以及数据集进行模型的训练，使用基于off‑policy的BCQ算法进行模型的训练，该算法能够有效解决以往的off‑policy模型算法的推断误差
(Extrapolation Error)的问题。BCQ具体包括：生成模型G，使用VAE对分布进行建模，生成
和数据集中相近的action；扰乱模型ξ，用于增加action的多样性；两个Q网络和对应的目标
网络，用于防止对Q值的过高估计。在BCQ获得一个state数据时，具体有两个动作：(1)首先
使用生成模型G根据数据集中的分布选出相似度最高的actions作为候选；(2)然后根据Q网
络选出其中价值最高的作为实际采取的action。训练的具体步骤包括：For 1 to T：(遍历
整个训练步长，每一步都做出如下操作)

[0048] 1.从最小批量样本集Mini‑batch size N中结合VAE获取目前状态s以及动作a等各种参数。

[0049] 2.在环境E的基础上依靠状态s和动作a计算期望μ和方差，从而得到分布。

[0050]

[0051]

[0052]

[0053] 3.计算并比较各个动作a所对应的分布与目标分布的相似度，选取相似度最高的动作a作为候选。

[0054] 4.结合扰乱模型ξ，增加action的多样性。

[0055]

[0056] 5.根据Q网络选出其中全局范围内价值最高的作为实际采取的action。

[0057] θ←argminθ∑(y‑Qθ(s，a))2

[0058]

[0059] 6.结合网络更新率τ进行网络参数的更新。

[0060] θ′i←τθ+(1‑τ)θ′i

[0061] φ′←τφ+(1‑τ)φ′

[0062] end for

[0063] 其中部分具体参数含义如下：

[0064] T(Horizon)：智能体agent训练步长

[0065] τ：目标网络更新率

[0066] Mini‑batch size N：最小批量样本集，每一批次作为输入的样本数量

[0067] VAE(Variational Auto Encoder)：变分自动编码器，具体方法为把真实样本通过编码器网络变换成一个理想的数据分布，然后这个数据分布再传递给一个解码器网络，得
到生成样本，生成样本与真实样本足够接近的话，就训练出了一个自编码器模型

[0068] s：state状态值

[0069] a：action动作

[0070] s′：目标状态或者说理想状态

[0071] 参数Φ：用来对action在[‑Φ,Φ]范围内进行调整，这样可以使该算法访问受约束区域中的action而不用从生成模型G采样很多次。

[0072] 参数n：用来表示候选actions的个数

[0073] Policyπ：策略，可以表示为：

[0074]

[0075] 参数λ：用来控制未来不确定性的惩罚程度，可以表示为：

[0076]

[0077] BCQ算法为了能够消除外推误差(Extrapolation Error)，在正常的Q‑learning的基础上还需要做出一个限制，即所选择的(s,a)必须得在数据集中出现过，即针对tabular
case，就有了新了Q‑learning公式，也就是batch‑constrained Q‑learning(BCQL)公式，具
体如下：

[0078]

[0079] 已经训练好的智能体模型可以对当事人起诉状进行文本预处理，计算并决策判断各个事实和对应法律的准确率，依据输出的准确率指导当事人进行起诉状的修改，将已经
训练完成的模型投入使用所搭建的系统，当事人仅需要将起诉状等相关文书作为输入，系
统即可自动进行文关键信息筛选等预处理操作，然后再进行数据的分析和计算，最后输出
各项数据以及对应的引用法律的准确率，从而指导当事人进行起诉状的修改。

[0080] 本发明实施例提出的基于强化学习的专家标注的案件预判系统包括中央处理器和存储器。存储器中存储有准确率判断模型以及可供中央处理器运行的程序。中央处理器
通过运行程序可以训练准确率判断模型，使用训练好的模型判断各个事实和对应法律的准
确率，从而实现上述案件预判方法，指导当事人进行起诉状的修改。

[0081] 本发明提出的能够自动更新的案件预判智能体训练方法主要从审判书种抽取事实等关键信息，并对数据进行清洗以及数据增强，同时接收专家标注的新的数据，构建新的
数据集，同时针对司法审判问题进行建模，得到对关键信息的准确率计算模型，并从模型中
提取训练所需要的参数，以及定义模型训练的reward函数，最后再使用BCQ算法根据参数以
及数据集进行智能体模型的训练，得到较为理想的模型。该方法通过数据增强，扩大样本空
间以及强化学习模型训练方法能够较为有效地解决现有技术中存在的问题，提高司法部门
的办案效率，得到优秀的效果。

[0082] 以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

一种能够自动更新的案件预判智能体训练方法及系统转让专利

申请号 : CN202110567522.X

文献号 : CN113282705B

文献日 : 2022-01-28

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 郭洪飞 , 戴源志 , 曾云辉 , 何智慧 , 任亚平 , 张锐

申请人 : 暨南大学

摘要 :

权利要求 :

说明书 :