用于分类文档的系统,方法和软件转让专利

申请号 : CN02826650.1

文献号 : CN1701324B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : K·阿尔-科法希

申请人 : 汤姆森路透社全球资源公司

摘要 :

为了降低成本和提高精确度,发明人设计了用于帮助把诸如批注的文本和其它文档分类到目标分类系统内的目标类别上的系统、方法及软件。例如,一种系统基于下列条件来计算综合分数:输入文本与分配给每个目标类别的文本的相似性;分配给该输入文本的非目标类别与目标类别的相似性;被给予分配给该输入文本的一个或多个非目标类别的集合的目标类别的概率;和/或被给予分配给目标类别的输入文本的概率。然后该示例性系统使用诸如阈值的类别特定的决策准则来估算综合分数,最终把该输入文本分配到一个或多个目标类别或推荐分配到一个或多个目标类别。该示例性系统特别适合于具有成千个类别的分类系统。

权利要求 :

1.用于将输入文本分类到具有两个或更多目标类别的目标分类系统的一种计算机化系统,每一个目标类别都与第一和第二类别特定加权相关,该系统包括:·用于为每一个目标类别至少提供第一类别特定加权和第二类别特定加权以及类别特定决策阈值的装置;

·用于使用第一分类方法和第二分类方法来为每一个输入文本确定其与目标类别的相似性的至少第一和第二得分的装置,其中所述第一得分使用所述第一分类方法来确定,所述第二得分使用所述第二分类方法来确定;

·用于为每一个目标类别确定综合得分的装置,其中该综合得分利用该目标类别的第一类别特定加权测量的第一得分以及利用该目标类别的第二类别特定加权测量的第二得分来确定;以及·用于基于每一个目标类别的综合得分以及用于相应目标类别的类别特定决策阈值为每一个目标类别确定是否将输入文本的类别分类到该目标类别或将输入文本的类别推荐到该目标类别的装置。

2.将输入文本分类到具有两个或更多目标类别的目标分类系统的一种计算机实施的方法,该方法包括:·为每一个目标类别至少提供第一类别特定加权和第二类别特定加权以及类别特定决策阈值;

·使用第一分类方法和第二分类方法来为每一个输入文本确定其与目标类别的相似性的至少第一和第二得分,其中所述第一得分使用所述第一分类方法来确定,所述第二得分使用所述第二分类方法来确定;

·为每一个目标类别确定综合得分,其中该综合得分利用该目标类别的第一类别特定加权测量的第一得分以及利用该目标类别的第二类别特定加权测量的第二得分来确定;以及·基于每一个目标类别的综合得分以及用于相应目标类别的类别特定决策阈值为每一个目标类别确定是否将输入文本的类别分类到该目标类别或将输入文本的类别推荐到该目标类别。

3.权利要求2的方法,其中第一和第二得分中的至少一个得分基于与该输入文本相关的一个或多个名词-单词对的集合以及与该目标类别相关的一个或多个名词-单词对的集合,而每个集合内的至少一个名词-单词对包括名词和非相邻单词,其中名词-单词对表示为名词-名词、名词-动词以及其所包含的名词-形容词对,单词对中的单词不必相邻,但是彼此处于特定数量的单词内或字母内。

4.权利要求2的方法,其中提供每个第一和第二类别特定加权以及类别特定决策阈值包括:基于被分类到该目标分类系统的文本,搜索在预定的查全率级别上产生预定精度级别的第一和第二类别特定加权与类别特定决策阈值的组合。

5.权利要求2的方法:

·其中该输入文本是用于法律文档的批注;以及

·其中该目标分类系统以及该非目标分类系统是法律分类系统。

6.权利要求2的方法,其中该目标分类系统包括1000个以上的目标类别。

7.权利要求2的方法,进一步包括:

·显示包括第一和第二区域的图形用户界面,第一区域显示该输入文本的至少一部分,而第二区域显示至少一个目标类别,该输入文本被推荐给该至少一个目标分类以用于分类。

8.权利要求2的方法:

·其中基于所述输入文本和所述目标类别使用第一和第二分类方法中的至少一个来确定相应的第一和第二得分包括:○基于该输入文本的至少一个或多个部分和与该目标类别相关的文本的相似性,确定第一得分;以及○基于与该输入文本相关的一个或多个非目标类别的集合和与该目标类别相关的一个或多个非目标类别的集合的相似性,确定第二得分;

·其中该方法进一步包括为每个目标类别确定:

○基于目标类别的概率并根据与该输入文本相关的一个或多个非目标类别的集合的第三得分;以及○基于目标类别并根据输入文本的至少一部分的概率的第四得分;以及·其中该综合得分进一步基于由用于该目标类别的第三类别特定加权所测量得到的第三得分以及由用于该目标类别的第四类别特定加权所测量得到的第四得分。

说明书 :

用于分类文档的系统,方法和软件

[0001] 版权标记与许可
[0002] 本专利文件的一部分包含受版权保护的素材。版权所有人不反对任何人对本专利文件或专利公开的传真复制,因为本专利文献或公开出现在专利与商标局的专利文档或记录中,然而在别的方面却保留无论什么的所有版权。下列标记用于此文件:Copyright2001,West Group。

技术领域

[0003] 本发明涉及用于分类文本及文档诸如司法意见的批注的系统、方法及软件。

背景技术

[0004] 美国法律系统以及世界各地的某些其它的法律系统严重依赖于书面的司法意见---判决的书面公告---来明确表达或解释控制纠纷解决的法律。每个司法意见不仅对于解决特殊的法律纠纷很重要,而且对于将来解决类似的纠纷也很重要。正由于此,我们法律系统之内的法官及律师才不断地寻找日益扩大的大批以往意见或判例法,以便找到与新的纠纷的解决最为相关的意见或判例法。
[0005] 为了方便这些寻找,诸如明尼苏达州圣保罗市的West Publishing Company(经营商业时作为West Group)不仅收集和出版所有美国法院的司法意见,而且还根据它们所包含的法律原理或法律要点来概括和分类这些意见。West Group例如建立和分类批注--司法意见内作出的要点的简短概括--使用其专有West KeyNumberTM系统(West Key Number是West Group的商标)。
[0006] West Key Number系统是跨越90000多个特殊法律类目或类别的超过两千万批注的等级分类。每一类别不仅具有描述名称,而且还具有唯一的字母数字代码,称为其Key Number(关键数)分类。
[0007] 除了极为详细的分类系统诸如West Key Number系统外,法官和律师使用诸如美国法律报告(ALR)的产品来进行调查研究,诸如ALR的产品提供对广范围的法律问题的深入学术分析。实际上,ALR大约包括14,000个不同的条款,即通常所说的注释,每个条款都教授一个单独的法律问题,诸如双重审理和言论自由。每条注释还包括标识相关司法意见以方便进行进一步法律研究的引证和/或批注。
[0008] 为了保证其作为法律研究工具的流传,ALR注释被不断地更新以引证新近的司法意见(或案例)。然而,在遍布全国的法院每天共同发布数百条新的意见并且用于识别这些案例中的哪一些案例是用作引证的好的候选案例的常规技术效率低且不准确的条件下,更新是一项费用大的任务。
[0009] 特别地,常规技术需要选择那些具有在West Key Number系统的某些类别中的批注的案例作为用于在相应注释中引证的候选案例。然后,将候选案例发送给用于人工复核的专业编辑器,并且其最终确定应被引用给相应的注释。遗憾的是,这一过于简单化的对注释的类别映射不仅把许多无关的案例发送到编辑器,而且还未能发送许多相关的案例,这既增加了编辑器的工作负担,又限制了所更新的注释的准确性。
[0010] 因此,需要有助于分类或把司法意见分配给ALR注释的工具及其它的法律研究工具。

发明内容

[0011] 示例性实施例的概述
[0012] 为了解决这些以及其它的需要,本发明人设计了有助于根据目标分类系统的文本或文档分类的系统、方法以及软件。
[0013] 具体地,本发明提供了一种用于将输入文本分类到具有两个或更多目标类别的目标分类系统的一种计算机化系统,每一个目标类别都与第一和第二类别特定加权相关,该系统包括:用于为每一个目标类别至少提供第一类别特定加权和第二类别特定加权以及类别特定决策阈值的装置;用于使用第一分类方法和第二分类方法来为每一个输入文本确定其与目标类别的相似性的至少第一和第二得分的装置,其中所述第一得分使用所述第一分类方法来确定,所述第二得分使用所述第二分类方法来确定;用于为每一个目标类别确定综合得分的装置,该综合得分利用该目标类别的第一类别特定加权测量的第一得分以及利用该目标类别的第二类别特定加权测量的第二得分来确定;以及用于基于每一个目标类别的综合得分以及用于相应目标类别的类别特定决策阈值为每一个目标类别确定是否将输入文本的类别分类到该目标类别或将输入文本的类别推荐到该目标类别的装置。
[0014] 本发明还提供了一种用于将输入文本分类到具有两个或更多目标类别的目标分类系统的一种计算机实施的方法,该方法包括:为每一个目标类别至少提供第一类别特定加权和第二类别特定加权以及类别特定决策阈值;使用第一分类方法和第二分类方法来为每一个输入文本确定其与目标类别的相似性的至少第一和第二得分,其中所述第一得分使用所述第一分类方法来确定,所述第二得分使用所述第二分类方法来确定;为每一个目标类别确定综合得分,该综合得分利用该目标类别的第一类别特定加权测量的第一得分以及利用该目标类别的第二类别特定加权测量的第二得分来确定;以及基于每一个目标类别的综合得分以及用于相应目标类别的类别特定决策阈值为每一个目标类别确定是否将输入文本的类别分类到该目标类别或将输入文本的类别推荐到该目标类别。
[0015] 例如,一种示例性系统帮助把批注分类到ALR注释;另一种系统帮助把批注分类到美国法理学(American Jurisprudence)部分(另一种百科全书式的法律参考文献);以及还一种系统帮助把批注分类到West Key Number系统。然而,这些以及其它的实施例也可应用于其它类型的文件诸如电子邮件的分类。
[0016] 更具体地,某些示例性系统通过确定一组综合分数来分类或帮助对输入文本的人工分类,每个综合分数都对应于在目标分类系统内各自的目标类别。确定每个综合分数需要计算并把类别特定加权加到下面的至少两种类型的分数:
[0017] ·基于输入文本与和相应一个目标类别相关的文本之间的相似性的第一类型;
[0018] ·基于和输入文本有关的非目标类别集合和与相应一个目标类别相关的非目标类别集合之间的相似性的第二类型;
[0019] ·假定一个或多个非目标类别集合与输入文本相关,基于一个目标类别的概率的第三类型;以及
[0020] ·假定文本与相应一个目标类别相关,基于输入文本的概率的第四类型。
[0021] 随后,这些示例性系统使用类别特定决策准则诸如阈值来评估综合分数,以便最终向一个或多个目标类别分配或推荐分配输入文本(或文档或其它与输入文本相关的数据结构)。

附图说明

[0022] 图1是体现本发明教导的示例性分类系统100的简图,包括一独特的图形用户界面114;
[0023] 图2是说明在图1的分类系统100内实施的示例性方法的流程图;
[0024] 图3是示例性批注310和对应的名词单词对模型320的简图;
[0025] 图4是构成分类系统100的一部分的示例性图形用户界面400的复制;
[0026] 图5是另一示例性分类系统500的简图,该系统类似于系统100,但包括附加的分类器;以及
[0027] 图6是另一示例性分类系统600的简图,该系统类似于系统100,但省略了一些分类器。

具体实施方式

[0028] 此说明参考并结合上述附图,描述一个或多个发明的一个或多个实施例。这些实施例并不是为了限制而只是为了例证和讲授一个或多个发明而提供的,它们被示出并足够详细地加以描述,以便使本领域的那些技术人员能够实现或实践本发明。因此,在适于避免妨碍本发明的地方,此说明可以省略掉本领域的那些技术人员已知的一些信息。
[0029] 此说明包括许多术语,具有从它们在本领域内的使用得出的以及在此说明的上下文中的使用得出的含义。然而,作为进一步的帮助,给出下述示例性定义。
[0030] 术语“文档”指机器可读数据的任何可寻址收集或安排。
[0031] 术语“数据库”包括文档的任何逻辑收集或安排。
[0032] 术语“批注”指关于书面司法意见内的法律要点的电子原文概述或摘要。与司法意见(或案例)有关的批注的数目取决于它所解决的问题的数量。
[0033] 用于把批注分类到美国法律报告的示例性系统
[0034] 图1示出一示例性文档分类系统100的简图,该系统100用于根据文档分类方案自动分类或推荐电子文档的分类。该示例性实施例分类或推荐案例、案例引证或相关批注到用13,779个ALR注释表示的一个或多个种类。(注释的总数按每月20-30个注释数量级的速率增涨)。然而,本发明并不限于任何特殊类型的文档或分类系统的类型。
[0035] 尽管该示例性实施例是作为分离组件的互连整体而给出的,但是某些其它的实施例使用更多或更少数量的组件来实现其功能性。此外,某些实施例通过局域网或广域网来相互耦合一个或多个组件。(某些实施例使用一个或多个大型计算机或服务器来实现系统100的一个或多个部分)。因此,本发明并不限于任何特殊的功能划分。
[0036] 系统100包括ALR注释数据库110、批注数据库120以及分类处理器130、预分类数据库140和编辑工作站150。
[0037] ALR注释数据库110(更普通地为根据目标分类方案分类的电子文档数据库)包括数量为13779的一组注释,通常用注释112来表示。该示例性实施例把每个注释视作一个类别或一个种类。诸如注释112的每个注释都包括诸如引证112.1和112.2的一个或多个案例引证的集合。
[0038] 每个引证都标识或与至少一条司法意见(或一般为电子文档)诸如电子司法意见(或案例)115相关。司法意见115包括和/或与批注数据库120内的一个或多个批注诸如批注122和124相关。(在该示例性实施例中,一条典型的司法意见或案例具有大约6个相关的批注,尽管具有50个或更多批注的案例并不少见)。
[0039] 一个样本批注及其分配的West Key Number类别标识符示出如下:
[0040] 示例性批注:
[0041] 在行政程序法案(APA)下提出的诉讼,调查为两部分:法庭首先检查组织法规以确定议会是否在司法救济成为有效之前打算让受侵害方接受特定的行政途径;如果生成的法规无记载,则法庭询问机构规章是否要求求助于高级代理权威。
[0042] 示例性Key Number类别标识符:
[0043] 15AK229-行政法和程序-独立于行政和其它权限-司法权限
[0044] 在数据库120内,每个批注都与一个或多个类别标识符相关,这些标识符例如基于West Key Number分类系统。(对于West Key Number系统的更多细节,参见美国法律的West分析:美国法规汇编系统指南,2000版,West Group,1999,该文在此并入作为参考。)例如,批注122与类别或类别标识符122.1、122.2和122.3相关,而批注124与类别或类别标识符124.1和124.2相关。
[0045] 在该示例性实施例中,批注数据库120包括大约两千万个批注并以接近每星期12,000个批注的速率增涨。大约89%的批注与单个的类别标识符相关,大约10%的批注与两个类别标识符相关,并且大约1%的批注与两个以上的类别标识符相关。
[0046] 另外,批注数据库120包括诸如批注126和128的许多批注,它们尚未被分配或与数据库110内的ALR注释相关。然而,批注与类别标识符相关。具体地,批注126与类别标识符126.1和126.2相关,而批注128与类别标识符128.1相关。
[0047] 与ALR注释数据库110和批注数据库120耦合的是分类处理器130。分类处理器130包括分类器131、132、133和134、综合分数生成器135、分配决策器136、以及决策准则模块137。处理器130确定与批注数据库120内的批注相关的一个或多个案例是否应当被分配给或被引证在注释数据库110的一个或多个注释内。处理器130还耦合到预分类数据库140。
[0048] 预分类数据库140存储和/或组织分配或引证推荐。在数据库140内,能够将这些推荐组织为单个先进先出(FIFO)队列,基于单个注释或注释的子集被组织为多个FIFO队列。最终将这些推荐分布给工作中心150。
[0049] 工作中心150与预分类数据库140以及注释数据库110通信,并最终基于存储在数据库140内的推荐而协助用户人工更新数据库110内的ALR注释。具体地,工作中心150包括工作站152、154和156。工作站152实质上与工作站154和156相同,其包括有图形用户界面152.1以及用户接口设备,诸如键盘和鼠标(未示出)。
[0050] 通常,示例性系统100如下工作。批注数据库120接收最近判决的案例的新一组批注(诸如批注126和128),并且分类处理器130确定与这些批注相关的一个或多个案例是否与ALR内的任何注释足够相关,以便证明向一个或多个注释推荐批注(或相关案例)的分配是正确的。(一些其它的实施例直接把批注或相关案例分配给注释。)分配推荐存储在预分类数据库140内并稍后经由工作站152、154和156内的图形用户界面由工作中心150内的编辑器检索或呈递给编辑器以便接受或拒绝。接受的推荐被作为引证而加到ALR注释数据库110内的相应注释上,而被拒绝的推荐则不这样。然而,接受的和拒绝的推荐都被反馈给分类处理器用于其决策准则的递增训练或调整。
[0051] 更具体地,图2示出更为详细地说明操作系统100的示例性方法的流程图200。流程图200包括许多处理块210-250。尽管在该示例性实施例中是连续安排的,但是其它的实施例可以重新排列这些块、省略一个或多个块和/或使用多个处理器或者被组织成两个或多个虚拟机器或子处理器的单个处理器来并行执行两个或多个块。此外,还一些实施例将这些块实现为一个或多个特定互连硬件或具有在模块之间或通过模块传送的有关控制及数据信号的集成电路模块。因此,该示例性处理流程适用于软件、固件、硬件以及混合实现。
[0052] 此说明书的剩余部分使用以下的标志系统。小写字体的字母a、h和k分别表示注释、批注、类别或类别标识符,诸如West Key Number类别或类别标识符。大写字体的字母A、H和K分别表示全部注释的集合、全部批注的集合、全部关键数分类的集合。另外,表示向量数量的变量使用粗体字的大写字母,相应向量的元素用小写字体的字母来表示。例如,V表示一个向量,而v表示向量V的元素。
[0053] 在块210,该示例性方法通过将注释数据库110(图1中)内的注释表示成基于文本的特征向量而开始。具体地,这需要基于出现在用于在注释内所引证的案例的批注中的名词和/或名词单词对将每个注释a表示成一个列特征向量Va。(其它的实施例将批注表示为双字母组或名词短语。)
[0054] 尽管有可能使用所有与注释内所引证的案例相关的批注,但是该示例性实施例从与引证案例相关的所有批注的集合中选择那些与被表示的注释最为相关的批注。对于每个注释,这需要使用在注释内所引证的所有案例中的所有批注来建立一个特征向量,并基于被引证案例内的批注与那些引证注释的批注之间的相似性而从每个案例中选择一个、两个或三个批注,并将最相似的(多个)批注表示为相关的。为了确定最相关的批注,该示例性实施例使用分类器131-134来计算相似性分数,为每个批注平均四个分数,并将最高得分的批注加上那些具有最高分数的至少80%的分数的批注确定为最相关的。80%的值是以经验为主而选定的。
[0055] 一旦被选定,就将相关批注(或可替换地将注释的实际文本)表示成一组名词、名词-名词、名词-动词以及它所包含的名词-形容词对。单词对中的单词不必相邻,但应处于特定数量的单词内或彼此的字母内,即,在特殊的单词或字母窗口内。窗口的大小是可调整的,并可采用这样的值,这些值从1至批注内的单词或字母的总数。尽管较大的窗口趋于产生更好的性能,但是在该示例性实施例中,对于大于32个直达(non-stop)单词的窗口未观察到性能上的改变。不过,为了方便,将该示例性窗口的大小设置成实际批注大小。该示例性实施例排除停止单词(stop word)并使用全部词的根格式。附录A示出示例性停止词的示例清单;然而其它的实施例使用其它的停止单词清单。
[0056] 图3示出根据该示例性实施例的批注310的一个例子以及名词-单词表示320。还示出了West Key Number分类文本330以及类别标识符340。
[0057] 在一特殊的注释向量Va内,如下定义任一特殊元素va的加权或大小:
[0058] va=tf′a*idf′a, (1)
[0059] 其中tfa′表示术语或与注释a相关的名词-单词对的术语频率(term frequency)(即出现的总数)。(在该示例性实施例中,这是在与注释相关的批注集合内术语出现的数量。)idfa′表示相关术语或名词-单词对的反文档频率。将idfa′定义为:
[0060]
[0061] 其中N是该收集内的批注的总数(例如,两千万),dfa′是含有该术语或名词-单词对的批注(或更一般地为文档)的数量。原有符号‘表明这些频率参数是基于代理文本(proxy text),例如,相关批注的文本,这与注释本身的文本相反。(不过,其它实施例可以单独地或与代理文本诸如批注或其它有关文档相组合地使用全部或部分的源自注释的文本。)
[0062] 即使该示例性实施例使用与注释本身的文本相反的、与一注释相关的批注,但是注释-文本向量可以包括大量的元素。实际上,某些注释向量能够包括几十万个术语或名词-单词对,它们中的大多数都有着低的术语频率。因此,不仅为了将术语数减小到了可管理的数目,而且还为了避免已知的存在于向量空间模型内的稀有单词问题,该示例性实施例去除了低加权术语。
[0063] 特别地,该示例性实施例尽可能必要地去除了许多低加权术语,以实现500个术语的较低绝对界限或在各个注释向量的长度上缩减75%。这一处理对注释向量内的术语数量产生的效果取决于它们的加权分布。例如,如果这些术语具有近似的加权,则大约75%的术语将被去除。不过,对于具有倾斜加权分布的注释,只有很少的10%的术语会被去除。在该示例性实施例中,这一处理将用于所有注释向量的独特术语的总数从大约7千万减少到大约8百万术语。
[0064] 一些其它的实施例使用其它方法来限制向量大小。例如,一些实施例将一固定阈值加到每个类别的术语数上,或是加到术语的频率、文档频率或加权上。当基础类别在特征空间不显著变化时,这些方法通常是有效的。其它的还一些实施例基于诸如交互信息的量度执行特征选择。然而这些方法计算上都是花费较高的。本示例性方法试图在这两头之间平衡处理。
[0065] 在将注释表示为基于文本的特征向量后所执行的块220需要将来自数据库120(图1中)的一个或多个输入批注模型化成一组对应的批注-文本向量。输入批注包括最近已被加到批注数据库120内的批注,或者要不然是先前未被复核与数据库110内的ALR注释关联的批注。
[0066] 该示例性实施例将每个输入批注h表示为向量Vh,其中的每个元素vh类似于注释向量的元素与该批注内的一个术语或名词-单词对相关。将vh定义为
[0067] vh=tfh*idfH, (3)
[0068] 其中tfh表示在该输入批注内的相关术语或名词-单词对的频率(即出现的总数),idfH表示在所有批注内的相关术语或名词-单词对的反文档频率。
[0069] 在块230,该示例性方法继续分类处理器130(图1中)的操作。图2示出块230本身包括子处理块231-237。
[0070] 块231表示分类器131的操作,其需要基于各输入批注文本内的文本与和各注释相关的文本的相似性来计算一组相似性分数。具体地,该示例性实施例把该相似性作为批注向量Vh与各注释向量Va之间的角度余弦来量度。
[0071] 数学上,将这表示为
[0072]
[0073] 其中“·”表示常规的点积或内积运算符,Va′和Vh′表示各个向量Va和Vh已被修改而包括对应于在注释文本和批注内所找到的术语或名词-单词对的那些元素。换言之,基于术语或名词-单词对的交集来计算点积。||X||表示向量变元的长度。在该实施例内,基于此向量的所有元素来计算量值。
[0074] 表示分类器132的操作的块232需要基于和输入批注相关的类别标识符(或其它元数据)与那些和每个注释相关的那些标识符的相似性来确定一组相似性分数。在作出这C C一确定之前,将每个注释a表示为注释类别向量Va 向量,其中的每个元素va 表示分配给被C
注释所引证的批注的类别标识符的加权。将每个元素va 定义为
[0075]
[0076] 其中tfaC表示相关类别标识符的频率(即出现的总数),idfaC表示其反文档频率。C
将idfa 定义为
[0077]
[0078] 其中NC是类别或类别标识符的总数。在该示例性实施例中,NC为91997,在West CKey Number系统内的类别总数。df 是在用于注释a的类别标识符集合之中该类别标识符的频率。不同于示例性的注释-文本向量,该向量是基于选定的一组注释批注,注释-类别向量使用所有和与该注释相关的所有批注相关的类别标识符。一些实施例可使用类别-标识符对,尽管它们被发现在该示例性实现中是起反作用的。
[0079] 类似地,也可以将每个输入批注表示为批注类别向量VhC,其中的每个元素表示类C别或分配给该批注的类别标识符的加权。将每个元素vh 定义为
[0080]
[0081] 其中tfhC表示类别标识符的频率,idfhC表示该类别标识符的反文档频率。将idfhC定义为
[0082]
[0083] 其中NC是类别或类别标识符的总数,dfh是在与该注释相关的类别或类别标识符集合之中此类别或类别标识符的频率。
[0084] 一旦建立了注释类别和批注类别向量,分类处理器130就将每个相似性分数S2计算为它们之间的角度的余弦。将这表示为
[0085]
[0086] 对于具有一个以上相关类别标识符的批注,该示例性实施例为那个批注与其它批注相分开地考虑每个类别标识符,最终使用产生最大类别-标识符相似性的那个类别标识符。采用最大化标准,这是由于在某些情况下,一个批注会具有两个或更多的相关类别标识符(或Key Number分类),表明其对两个或更多的法律要点的论述。然而,在多数情形下,仅其中的一个类别标识符与一给定注释相关。
[0087] 在块233内,分类器133源自类别-标识符(或其它元数据)统计数字基于批注与一给定注释相关的概率来确定一组相似性分数S3。用下式来近似计算这一概率[0088]
[0089] 其中{k}h表示分配给批注h的那一组类别标识符。用下式来估算每个注释的条件类别概率P(k|a)
[0090]
[0091] 其中tf(k,a)是在与注释a的批注相关的类别标识符之中的第k个类别标识符的术语频率。|a|表示与注释a相关的唯一类别标识符的总数(即,采样数或集的基数);而表示对于所有类别标识符的术语频率之和。
[0092] 该示例性的相似性分数S3的确定依赖于把类别标识符彼此独立地分配给批注的假定,以及{k}h中只有一个类别标识符实际上与注释a相关。尽管该一个类别的假定并不适用于许多注释,但是这改进了该系统的整体性能。
[0093] 可替换地,人们能够增加用于该注释的条件类别-标识符(Key Number类别)的概率,但是与那些具有单一Key Number类别的批注相比,这有效地处罚了具有多个Key Number类别的批注(类别分配)。一些其它的实施例使用Bayes规则来把先验概率合并到分类器133内。然而,该方法的一些实验提出系统性能很可能不如该示例性实现中所提供的性能。
[0094] 这一劣质可能源于这样的事实,即注释是在不同时间创建的,以及源于这样的事实,即一条注释具有比其它注释多的引证并不必然意味着对于一给定的批注更有可能发生。实际上,较大数量的引证仅仅会反映一条注释已经存在了较长时间和/或比其它注释更频繁地被更新。因此,其它的实施例可以使用基于把类别数分配给注释的频率的先验概率。
[0095] 在块234内,分类器134基于P(a|h),每条注释被给予输入批注的文本的概率,来确定一组相似性分数S4。在为了计算P(a|h)而导出实际的表达式中,该示例性实施例首先假定一输入批注h完全被用一组描述符T来表示,其中利用某个概率P(t|h)将每个描述符t分配给一个批注。然后,基于总概率理论以及Bayes定理,将P(a|h)表示为[0096]
[0097]
[0098] 假定描述符独立于与批注相关的类别标识符,则这允许人们做出这样的近似:
[0099] P(h|a,t)≈P(h|t) (13)[0100] 并根据下式来计算相似性分数S4
[0101]
[0102] 其中用下式来近似P(t|h)
[0103]
[0104] tf(t,h)表示术语t在注释内的频率, 表示在批注内的所有术语的频率之和。根据Bayes定理如下定义P(a|t)
[0105]
[0106] 其中P(a)表示注释a的先验概率,而P(t|a)表示被给予注释a的鉴别器t的概率,其被估算为
[0107]
[0108] 并且 表示在注释A的集合内的所有注释a′之和。由于假定所有的注释先验概率P(a)与P(a′)是相等的,因此使用下式来计算P(a|t)
[0109]
[0110] 块235表示综合分数生成器135的工作,其需要基于在块231-235由分类器h131-135确定的相似性分数的集合来计算一组综合相似性分数CSa,每个综合分数表明输h
入批注h与每个注释a的相似性。更具体地,生成器135根据下式计算每个综合分数CSa[0111]
h
[0112] 其中Sa,i 表示用于输入批注h与注释a的第i个相似性分数生成器的相似性分数,而wia是分配给第i个相似性分数生成器和注释a的加权。随后该示例性方法的执行在块236继续。
[0113] 在块236,分配决策器136基于综合分数集合以及决策准则模块137内的决策准则,推荐输入批注或于批注相关的文档诸如案例被分类或被合并到一个或多个注释内。在该示例性实施例中,根据下面的决策规则把批注分配给注释:
[0114]
[0115] 即如果CSah>Гa,则推荐把h或Dh分配给注释a,
[0116] 其中Гa是来自决策准则模块137的注释特定阈值,而Dh表示与批注相关的文档,诸如法律意见。(在该示例性实施例中,每个ALR注释都包括相关批注的文本及其全部案例引证。)
[0117] 在调整阶段期间学习注释-分类器加权wia,i=1至4,a∈A,以及注释阈值Γa,a∈A。0≤wia≤1的加权反映了系统对把每个相似性分数路由发送到注释a的能力的信心。类似地,注释阈值Гa,a∈A也被学习并反映注释的同质。通常,涉及窄主题的注释趋于具有比涉及多个相关主题的那些注释要高的阈值。
[0118] 在该ALR实施例中,阈值反映了90%以上的批注(或相关文档)未被分配给任何注释。具体地,该示例性实施例通过在五维空间上的彻底检索来估算最佳注释-分类器加权和注释阈值。将该空间离散以使检索可管理。最佳加权是对应于在至少90%的查全率级(recall level)上的最大精度的那些加权。
[0119] 更准确地,这需要尝试四个加权变量的每个组合,并且对于每个组合,尝试在间隔[0,1]上的20个可能的阈值。然后选择加权与产生最佳精度和查全率的阈值的组合。该示例性实施例排除了任何导致低于90%的查全率的加权-阈值组合。
[0120] 为了达到更高的精度级别,该示例性实施例有效地要求这些分配竞争其分配注释或目标分类。该竞争要求使用下面的规则:
[0121]
[0122] 即,把h分配给a,如果
[0123] 其中α表示大于零且小于1的一个经验确定值,例如0.8,表示与{Ha}中的一个批注相关的最大综合相似性分数,{Ha}是分配给注释a的批注的集合。
[0124] 块240需要处理来自分类处理器130的分类推荐。为此,处理器130把分类推荐传送到预分类数据库140(图1示出的)。数据库140基于注释、权限或其它有关准则对这些推荐进行排序并在例如单个先进先出(FIFO)队列中把它们作为基于单个注释或注释子集的多FIFO队列进行存储。
[0125] 然后通过请求或是自动地把一个或多个推荐传送给工作中心150,具体为工作站152、154和156。每个工作站都自动地或响应于用户激活而显示一个或多个图形用户界面,诸如图形用户界面152.1。
[0126] 图4示出图形用户界面152.1的一种示例性形式。界面152.1包括同时显示的窗口或区域410、420、430以及按钮440-490。
[0127] 窗口410显示来自预分类数据库140的批注标识符的推荐列表412。每个批注标识符都与至少一个注释标识符(在窗口430示出)逻辑相关。每个列出的批注标识符都是可利用选择设备诸如键盘或鼠标或麦克风选择的。一旦被选定,就通过例如反白视频显示来自动高亮显示列表412内的批注标识符412.1。作为响应,窗口420显示一批注422和一案例引证424,这二者彼此相关,并与高亮显示的批注标识符412.1相关。作为进一步的响应,窗口430显示注释概要432(或分类体系)的至少一部分或一章节,其与利用和批注412.1相关的注释标识符所指定的那个注释相关。
[0128] 标为“新章节(New Section)”的按钮440允许用户在该注释概要内创建新的一章节或子章节。此特征是有用的,这是由于在某些情形中,虽然批注建议是好的,但是它并不适合该注释的一个现有章节。因而创建新的一章节或子章节就允许方便地扩展注释。
[0129] 按钮450打开或关闭文本框的显示,该文本框描述在当前会话期间对当前注释所作出的批注分配。在该示例性实施例中,该文本框以短文本形式呈现每个分配,诸如<注释或类别标识符><子章节或章节标识符><批注标识符>。此特征对于超出窗口430的大小并要求滚动窗口内容的较大注释概要尤其方便。
[0130] 标为“不分配(Un-Allocate)”的按钮460允许用户向特殊注释重新分配或重新分类批注。因而,如果用户改变其关于先前的、未保存的分类的意愿,则用户能够废除该分类。在一些实施例中,将窗口410中标识的批注理解成被分配给窗口430中所显示的特殊注释章节,除非用户判定该分配是不正确的或者是不合适的。(在一些实施例中,接受推荐需要自动建立超级链接来把注释链接到案例以及把案例链接到注释。)
[0131] 标为“下一注释(Next Annotation)”的按钮470允许用户促使对被推荐分配给下一注释的批注集合的显示。具体地,这不仅需要从预分类数据库140中检索批注并在窗口410中显示它们,而且还需要在窗口430内显示有关的注释概要。
[0132] 标为“跃过注释(Skip Anno)”的按钮480允许用户跃过当前的注释及其建议,并前进到下一推荐及相关注释的集合。当一个编辑器想要另一个编辑器复核对一特殊注释的分配时,或者如果该编辑器想要在另外的时间例如在例如读取或研究了整个注释文本之后复核此注释,此特征尤为有用。这些建议保留在预分类数据库140中直到它们被复核或被去除。(在一些实施例中,这些建议是作了时间标记的,并且可以被多个当前建议所取代,或在一预置的时段后被自动删除,而该时段在某些变更中取决于该特殊注释。)[0133] 标为“退出(Exit)”的按钮490允许编辑器终止编辑对话。在终止时,就将接受和推荐存入ALR注释数据库110中。
[0134] 图2示出在预分类处理之后,该示例性方法在块250继续执行。块250需要更新分类决策准则。在该示例性实施例中,这需要为每个注释计数接受和拒绝分类推荐的数目,并适当调整注释特定判定阈值和/或分类器加权。例如,如果对于一给定注释的分类推荐在一天、一星期、一个月、一个季度或一年期间有80%被拒绝了,那么该示例性实施例会增大与那个注释相关的判定阈值以降低推荐数。反之,如果80%被接受了,则可以降低该阈值以保证足够数目的推荐得到考虑。
[0135] 用于把批注分类到美国法学的示例性系统
[0136] 图5以示例性分类系统500的形式示出系统100的一种变更,系统500适合于便于把文档分类到美国法学(AmJur)的135,500个章节中的一个或多个章节。类似于ALR注释,每个AmJur章节引证有关的案例,因为它们被法院所判决。同样,更新AmJur是耗时的。
[0137] 与系统100相比,分类系统500包括六个分类器即分类器131-134以及分类器510和520、综合分数生成器530以及分配决策器540。除了分类器131-134是对AmJur数据进行操作,而不对ALR数据进行操作外,分类器131-134与系统100中所使用的分类器相同。
[0138] 替代基于AmJur章节内所引证的批注的代理文本,分类器510和520自己来处理AmJur章节文本。更准确地说,分类器510使用方案基础分类器131来操作以便基于AmJur章节文本内的名词-单词对的tf-idfs(术语频率-反文档频率)生成相似性量度。并且,分类器520使用方案基础分类器134来操作以便生成基于被给予输入批注的章节文本的概率的相似性量度。
[0139] 一旦计算出量度,基于其各自的相似性量度集合的数字排列,每个分类器就给每个AmJur章节分配一个相似性分数。因此,对于任何输入批注,这六个分类器中的每个分类器都根据这135,000个AmJur章节与该批注的相似性来有效地排序它们。假定分类器之间的差异和数据构成分数的基础,那么所有六个分类器不太可能把最相关的AmJur章节排在最高;分类器之间的差异以及它们使用的数据一般暗示了这将不会发生。表1示出了AmJur章节的部分排序列表,该列表表示各分类器如何记分或排序它们与给定批注的相似性。
[0140]
[0141] 表1:基于六个相似性分数的中值的部分排序列表AmJur章节
[0142] 综合分数生成器530基于每个AmJur章节对应的六个相似性分数的集合而为每个AmJur章节生成综合相似性分数。在该示例性实施例中,这需要为每个AmJur章节计算该六个分数的中值。然而,其它实施例能够计算所有六个或该六个排列的子集的均一或非均一加权平均值。其它的还一些实施例能够选择最大、最小或适度值作为AmJur章节的综合分数。在生成综合分数之后,综合分数生成器把标识与最高综合分数相关的AmJur章节的数据、最高综合分数以及输入批注转发给分配决策器540。
[0143] 基于每个固定时段输入批注的总数,分配决策器540向预分类数据库140提供固定部分的批注-分类推荐。根据决策准则模块137内的参数来确定固定数目以及管理推荐数的时段。例如,一个实施例基于输入批注的综合分数来排列所有该时段输入的批注,并只推荐那些排列在前百分之十六的输入批注。
[0144] 在某些情形中,一个以上的批注可以具有等于一给定截止阈值,诸如前百分之十六的综合分数。为了保证在这些情形中的更高准确性,该示例性实例性使用该六个实际分类器分数来重新排列与截止阈值相符的所有批注-章节对。
[0145] 这需要把一特定批注-章节对的六个分类器分数转换成六个Z分数,并且然后相乘特定批注-章节对的六个Z分数以产生一单个相似性量度。(通过假定每个分类器分数都具有一正常分布,估算该分布的平均数及标准偏差,以及然后从分类器分数中减去该平均数并将结果除以标准偏差,得到Z分数。)然后根据此新的相似性量度重新排序或重新排列满足接受标准的批注-章节对,同时为实现期望的总推荐数而所需数量的推荐被转发给预分类数据库140。(其它实施例可以对所有的批注-章节对应用该“重新排序”,并且然后基于获得期望推荐数量所需的接受标准来过滤它们。)
[0146] 用于将批注分类到West Key Number系统的示例性系统
[0147] 图6以示例性分类系统600的形式示出系统100的一种变更,系统600适合于便于把输入批注分类到West Key Number系统的类别。West Key Number系统是一种分级分类系统,它具有450个顶级类别,这些被进一步细分成92000个子类别,其中的每一个都具有一个唯一的类别标识符。与系统100相比,系统600包括分类器131和134、综合分数生成器610以及分配决策器620。
[0148] 根据先前的实施例,分类器131和134将每个输入批注模型化成名词-单词对的特征向量,以及将每个类别标识符模型化成从分配给它的批注中提取出的名词-单词对的特征向量。分类器131基于分配给每个类别标识符以及分配给一给定输入批注的批注内的名词-单词对的tf-idf乘积来生成相似性分数。并且分类器134基于被给予输入批注的类别标识符的概率生成相似性分数。因此,系统600生成184000个以上的相似性分数,每个分数都表示输入批注与采用该两个分类器中的相应一个的West Key Number系统内的92000个以上的类别标识符中的相应一个类别标识符的相似性。
[0149] 综合分数生成器610将用于每个可能的批注-类别标识符对的两个相似性量度进行组合以生成相应的综合相似性分数。在该示例性实施例中,这需要基于已分配给每个类别的批注来为每个类别或类别标识符定义两个标准化的累积直方图(每个分类器一个)。这些直方图近似对应的累积密度函数,允许人们确定一给定百分数的类别标识符记分低于某一相似性分数的概率。
[0150] 更具体地,根据分类器131和134,将用于类别标识符c的两个累积标准化直方图1 2
分别表示为FC 和FC,并按照下式来估算:
[0151]
[0152] 和
[0153]
[0154] 其中c表示一特殊类别或类别标识符;
[0155] s=0,0.01,0.02,0.03,...,1.0;F(s<0)=0;MC表示分类到或与类别或类别标识符c相关的批注数;|{B}|表示集合B内的元素数;hi,i=1,...MC表示已被分类到或1
与类别或类别标识符c相关的批注的集合;Si 表示由分类器131测量的批注hi与类别标
2
识符c的相似性分数,而Si 表示由分类器134测量的批注hi与类别标识符c的相似性分数。(在此上下文内,每个相似性分数表示一个给定分配的批注与分配给类别c的所有批注
1
的相似性。)换言之,|{hi|Si =s}|表示分配给从分类器131接收分数s的类别c的批注
2
数,而|{hi|Si =s}|表示分配给从分类器134接收分数s的类别c的批注数。
[0156] 因此,对于每个可能的分数值(处于0和1之间,具有特定的分数间隔),每个直方图都提供了记分高于或低于那个特定分数的被分配批注的百分数。例如,对于分类器131,类别标识符c的直方图可能表示出当作为一个整体与批注集合相比时,分配给类别标识符c的批注集合中的60%得分高于0.7;而对于分类器134,该直方图可能表示出50%的被分配批注的得分高于0.7。
[0157] 接下来,综合分数生成器610使用相应的直方图把输入批注的每个分数转换成一标准化的相似性分数,并基于该标准化分数计算每个分类的每个综合分数。在该示例性实施例中,此转换需要把每个分类器分数映射到相应的直方图上,以确定其累积概率,并且然后将与一给定类别c相关的各自分数对的累积概率相乘,以计算相应的综合相似性分数。然后由分配决策器620处理输入批注的该组综合分数。
[0158] 分配决策器620把固定数目的最高得分类别标识符转发给预分类数据库140。该示例性实施例建议:对于每个输入批注,类别标识符具有最高5个综合相似性分数。
[0159] 其它示例性应用
[0160] 能够用许多方式来组合所提出的各种示例性系统的组件以构成更为复杂或更为简单的其它分类系统。另外,这些组件和系统能够适合于除了批注以外的其它文档类型。实际上,这些组件和系统以及所体现的教导和工作原理事实上与任何文本或数据分类上下文有关。
[0161] 例如,人们能够将一个或多个示例性系统以及有关的变更应用于分类电子语音及邮件消息。一些邮件分类系统可以包括一个或多个与常规规则相结合的分类器,根据发送人是否在你的地址簿中、是否与接收人在同一区域等等而把消息分类为有用的或SPAM。
[0162] 附录A
[0163] 示例性停止单词
[0164] a a.m ab about above accordingly across ad after afterward afterwards again against ago ah ahead ain ′ t all allows almost alone along already alright also although always am among amongst an and and/or anew another ante any anybody anybody′s anyhow anymore anyone anyone′s anything anything′s anytime anytime′s anyway anyways anywhere anywhere′s anywise appear approx are aren′t around as aside associated at available away awfully awhile b banc be became because become becomes becoming been before beforehand behalf behind being below beside besides best better between beyond both brief but by bythe c came can can′t cannot cant cause causes certain certainly cetera cf ch change changes cit cl clearly cmt co concerning consequently consider contain containing contains contra corresponding could couldn′t course curiam currently d day days dba de des described di did didn′t different divers do does doesn′t doing don′t done down downward downwards dr du during e e.g each ed eds eg eight eigbteen eighty either eleven else elsewhere enough especially et etc even ever evermore every everybody everybody′s everyone everyone′s everyplace everything everything′s everywhere everywhere′s example except f facie facto far few fewer fide fides followed following follows for forma former formerly forth forthwith fortiori fro from further furthermore g get gets getting given gives go goes going gone got gotten h had hadn′t happens hardly has hasn′t have haven′t having he he′d he′ll he′s hello hence henceforth her here here′s hereabout hereabouts hereafter herebefore hereby herein hereinafter hereinbefore hereinbelow hereof hereto heretofore hereunder hereunto hereupon herewith hers herself hey hi him himself his hither hitherto hoc hon how howbeit however howsoever hundred i i′d i′ll i′m i′ve i.e ibid ibidem id ie if ignored ii iii illus immediate in inasmuch inc indeed indicate indicated indicates infra initio insofar instead inthe into intra inward ipsa is isn′t it it′s its itself iv ix j jr judicata just k keep kept kinda know known knows lla last later latter latterly le least les less lest let let′s like likewise little looks ltd m ma′am many may maybe me meantime meanwhile mero might million more moreover most mostly motu mr mrs ms much must my myself name namely naught near necessary neither never nevermore nevertheless new next no no-one nobody nohow nolo nom non none nonetheless noone nor normally nos not nothing novo now nowhere o o′clock of ofa off ofhis oft often ofthe ofthis oh on once one one′s ones oneself only onthe onto op or other others otherwise ought our ours ourself ourselves out outside over overall overly own p p.m p.s par para paras pars particular particularly passim per peradventure percent perchance perforce perhaps pg pgs placed please plus possible pp probably provides q quite r rata rather really rel relatively rem res resp respectively right s sa said same says se sec seem seemed seeming seems seen sent serious several shall shalt she she′ll she′s should shouldn′t since sir so some somebody somebody′s somehow someone someone′s something something′s sometime sometimes somewhat somewhere somewhere′s specified specify specifying still such sundry sup t take taken tam than that that′s thats the their theirs them themselves then thence thenceforth thenceforward there there′s thereafter thereby therefor therefore therefrom therein thereof thereon theres thereto theretofore thereunto thereupon therewith these they they′ll thing things third this thither thorough thoroughly those though three through throughout thru thus to to-wit together too toward towards u uh unless until up upon upward upwards used useful using usually v v.s value various very vi via vii viii virtually vs w was wasn′t way we we′d we′ll we′re we′ve well went were weren′t what what′ll what′s whatever whatsoever when whence whenever where whereafter whereas whereat whereby wherefore wherefrom wherein whereinto whereof whereon wheresoever whereto whereunder whereunto whereupon wherever wherewith whether which whichever while whither who who′d who′ll who′s whoever whole wholly wholy whom whose why will with within without won′t would wouldn′t x y y′all ya′ll ye yeah yes yet you you′ll you′re you′ve your yours yourself yourselves z
[0165] 结论
[0166] 在本领域其他方面,本发明人已经提出了各种示例性系统、方法以及软件,便于把诸如批注或相关法律案例的文本分类到分类系统中,诸如利用近14000个ALR注释来表示的分类系统。该示例性系统基于文本以及类别相似性和概率关系进行分类或做出分类推荐。该系统还提供了图形用户界面以便于编辑处理被推荐的分类,并从而自动更新文档收集,诸如美国法律报告、美国法学以及无数其它文档收集。
[0167] 上述实施例仅仅用于说明和讲授实践或实现本发明的一种或多种方式,而并不限制本发明的广度或范围。仅由下面的权利要求书及其等同物来限定本发明的实际范围,此范围包含了实践或实现本发明教导的所有方式。