基于词典匹配的实体标注方法、模块及装置转让专利
申请号 : CN202011079331.0
文献号 : CN112347765B
文献日 : 2022-06-07
发明人 : 胡振中 , 刘毅 , 吴浪韬
申请人 : 清华大学
摘要 :
权利要求 :
1.一种基于词典匹配的实体标注方法,其特征在于,包括:
将实体词语按由小至大的顺序依次排列,形成有序词典;
为每个实体词语建立一个前向索引条F,F中第i个元素为实体词语前i个字符构成的字符串在有序词典中的最大前缀;
获取待标注的句子s,将待标注的句子s按照大小顺序虚拟插入到有序词典中的相应位置,若所述有序词典中没有比句子s小的实体词语,则所述有序词典中不存在句子s的前缀,若所述有序词典中有比句子s小的实体词语,则从比句子s小的实体词语中选择最大的实体词语作为最大公共前缀基词w,计算s与w的前x个相同的字符,构成s与w的最大公共前缀p,若x等于w的词长w.length,则w即为s的在所述有序词典中的最大前缀;若x=0,则所述有序词典中不存在s的前缀;否则0
若有序词典中存在句子s的最大前缀,利用最大前缀的标注信息对句子s的对应实体词语添加标注信息,并将与最大前缀对应的实体词语从s中切出,否则将s中第一个字切出,将切出后剩余部分作为句子s,继续重复虚拟插入到所述有序词典和查找最大前缀以及添加标注信息,直到s为空字符串。
2.根据权利要求1所述的基于词典匹配的实体标注方法,其特征在于,
实体词语大小按照Unicode编码对两个实体词语逐字符进行比较,如果有第一个不同字符,则字符编码大的实体词语大,否则长度大的实体词语大。
3.根据权利要求1所述的基于词典匹配的实体标注方法,其特征在于,
还包括:获取已标注句子,所述已标注句子包括句子和该句子的标注信息,所述标注信息包括实体位置、实体词语和实体类别,将所述已标注句子中的标注信息更新到所述有序词典中,对每一个实体,如果所述有序词典中无该实体词语则添加实体词语和实体类别到有序词典中,否则将有序词典中实体的类别修改为新的实体类别。
4.根据权利要求1所述的基于词典匹配的实体标注方法,其特征在于,
采用句子单元存储一个句子的所有信息,句子单元中存储了句子的内容、标注信息以及状态信息,每一条实体的标注信息都采用格式包括起始索引、结束索引、类别的三元组进行表示,起始索引、结束索引用于记录实体词语在句子中的起始、结束位置,类别用于记录实体词语所属的类别信息,采用句子列表记录所有句子单元构成的列表;
采用实体单元存储一个实体,实体单元中封装了实体的实体词语、实体类别和前向索引条,采用实体列表存储实体单元形成的所述有序词典。
5.一种基于词典匹配的实体标注模块,其特征在于,包括:
词典排序单元,用于将实体词语按照词语字符串由小至大的顺序依次排列,形成有序词典;
前向索引构建单元,用于为每个实体词语建立一个前向索引条F,F中第i个元素为实体词语词语前i个字符构成的字符串在有序词典中的最大前缀;
预标注单元,用于获取待标注的句子s,将待标注的句子s按照大小顺序虚拟插入到有序词典中的相应位置,若所述有序词典中没有比句子s小的实体词语,则所述有序词典中不存在句子s的前缀,若所述有序词典中有比句子s小的实体词语,则从比句子s小的实体词语中选择最大的实体词语作为最大公共前缀基词w,计算s与w的前x个相同的字符,构成s与w的最大公共前缀p,若x等于w的词长w.length,则w即为s的在所述有序词典中的最大前缀;若x=0,则所述有序词典中不存在s的前缀;否则0
若所述有序词典中存在句子s的最大前缀,利用最大前缀的标注信息对句子s的对应实体词语添加标注信息,并将与最大前缀对应的实体词语从s中切出,否则将s中第一个字切出,将切出后剩余部分作为句子s,继续重复虚拟插入到所述有序词典和查找最大前缀以及添加标注信息,直到s为空字符串。
6.根据权利要求5所述的基于词典匹配的实体标注模块,其特征在于,
还包括Unicode编码比较单元,用于将实体词语转换为Unicode编码,实体词语大小按照Unicode编码对两个实体词语逐字符进行比较,如果有第一个不同字符,则字符编码大的实体词语大,否则长度大的实体词语大。
7.根据权利要求5所述的基于词典匹配的实体标注模块,其特征在于,
还包括词典更新单元,用于获取一个或多个已标注句子,所述已标注句子包括句子和该句子的标注信息,所述标注信息包括实体位置、实体词语和实体类别,将所述已标注句子中的标注信息更新到有序词典中,对每一个实体,如果有序词典中无该实体词语则添加实体词语和实体类别到有序词典中,否则将有序词典中实体的类别修改为新的实体类别。
8.一种实体标注装置,其特征在于,包括权利要求5至7中任一项所述的实体标注模块,还包括:句子列表模块,所述句子列表模块采用句子单元存储一个句子的所有信息,句子单元中存储了句子的内容、标注信息集合以及状态信息,每一条实体的标注信息都采用格式包括起始索引、结束索引、类别的三元组进行表示,起始索引、结束索引用于记录实体词语在句子中的起始、结束位置,类别用于记录实体词语所属的类别信息,采用句子列表记录所有句子单元构成的列表;
实体列表模块,用于采用实体单元存储一个实体,实体单元中封装了实体词语、实体类别和前向索引条,采用实体列表存储实体单元形成的所述有序词典;
标注管理模块,用于通过索引记录当前展示和操作的句子单元在句子列表中的位置,用于从指定路径读取实体标注文件并添加到所述句子列表中,用于将句子列表中的内容按照实体标注文件的格式保存到指定路径,其中,实体标注文件中存储有待标注或已标注的句子,用于将文件中的实体‑类别对添加到实体列表中,和将实体列表中的实体单元按照实体‑类别对的格式导出为文件;
图形用户界面模块,用于可视化展示句子列表模块、实体列表模块、标注管理模块、实体标注模块的相关操作。
9.根据权利要求8所述的实体标注装置,其特征在于,所述句子列表模块采用富文本格式来显示标注信息。
10.根据权利要求8所述的实体标注装置,其特征在于,
所述实体标注文件包括BIO或BIOES标注文件。