标点符号处理方法和装置转让专利
申请号 : CN201611234205.1
文献号 : CN108241612B
文献日 : 2021-11-05
发明人 : 张轩
申请人 : 北京国双科技有限公司
摘要 :
权利要求 :
1.一种标点符号处理方法,其特征在于,包括:确定待处理文本中是否有多个相邻的标点符号;
在所述待处理文本中有所述多个相邻的标点符号的情况下,确定所述多个相邻的标点符号是否属于预设标点符号组合集,其中,所述预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;
在所述多个相邻的标点符号不属于所述预设标点符号组合集的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,得到处理后文本;
在所述多个相邻的标点符号是相同的标点符号的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,包括:保留所述多个相邻的标点符号中任意一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除;
将所述多个相邻的标点符号中的其他标点符号删除后,所述方法还包括:存储所述待处理文本和/或已删除的标点符号在所述待处理文本中的位置信息;得到处理后文本之后,所述方法还包括:接收对所述已删除的标点符号的撤回命令;根据所述撤回命令和所述待处理文本,或者根据所述撤回命令和所述已删除的标点符号在所述待处理文本中的位置信息,将所述处理后文本恢复为所述待处理文本;
其中,在所述多个相邻的标点符号不是相同的标点符号的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,包括:使用自然语言处理技术对所述待处理文本中所述多个相邻的标点符号前的语句进行分析,得到分析结果,根据所述分析结果得到保留所述多个相邻的标点符号中的一个标点符号的方案。
2.根据权利要求1所述的方法,其特征在于,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除之前,包括:确定所述多个相邻的标点符号是否是相同的标点符号。
3.一种标点符号处理装置,其特征在于,包括:第一确定模块,用于确定待处理文本中是否有多个相邻的标点符号;
第二确定模块,用于在所述待处理文本中有所述多个相邻的标点符号的情况下,确定所述多个相邻的标点符号是否属于预设标点符号组合集,其中,所述预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;
处理模块,用于在所述多个相邻的标点符号不属于所述预设标点符号组合集的情况下,保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除,得到处理后文本;
所述处理模块包括:第一处理模块,用于在所述多个相邻的标点符号是相同的标点符号的情况下,保留所述多个相邻的标点符号中任意一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除;
所述装置还包括:存储模块,用于在所述处理模块将所述多个相邻的标点符号中的其他标点符号删除后,存储所述待处理文本和/或已删除的标点符号在所述待处理文本中的位置信息;接收模块,用于在所述处理模块得到处理后文本之后,接收对所述已删除的标点符号的撤回命令;撤回模块,用于根据所述撤回命令和所述待处理文本,或者根据所述撤回命令和所述已删除的标点符号在所述待处理文本中的位置信息,将所述处理后文本恢复为所述待处理文本;
其中,所述处理模块包括:第三处理模块,用于在所述多个相邻的标点符号不是相同的标点符号的情况下,使用自然语言处理技术对所述待处理文本中所述多个相邻的标点符号前的语句进行分析,得到分析结果,根据所述分析结果得到保留所述多个相邻的标点符号中的一个标点符号的方案。
4.根据权利要求3所述的装置,其特征在于,所述装置还包括:第三确定模块,用于在所述处理模块保留所述多个相邻的标点符号中的一个标点符号,并将所述多个相邻的标点符号中的其他标点符号删除之前,确定所述多个相邻的标点符号是否是相同的标点符号。
说明书 :
标点符号处理方法和装置
技术领域
背景技术
候,经常会出现标点符号错误的问题,例如,在逗号后面多打了一个句号或者多打了一个逗
号,或者在一句话结尾的句号前粘贴了另一句话,粘贴的话结尾也是一个句号,这样就出现
了两个句号,由于标点符号较小,很容易被用户忽略,并且不易检查出来,导致了文本中标
点符号使用错误,影响文本内容的理解。
发明内容
术问题。
定多个相邻的标点符号是否属于预设标点符号组合集,其中,预设标点符号组合集包括至
少一组由多个标点符号构成的标点符号组合;在多个相邻的标点符号不属于预设标点符号
组合集的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号
中的其他标点符号删除,得到处理后文本。
个相邻的标点符号中任意一个标点符号,并将多个相邻的标点符号中的其他标点符号删
除。
设的标点符号保留数据库中查找与多个相邻的标点符号匹配的标点符号保留方案,其中,
标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以及与标点符号
组合匹配的标点符号保留方案,标点符号保留方案为保留多个相邻的标点符号中的一个标
点符号的方案;和/或,使用自然语言处理技术对待处理文本中多个相邻的标点符号前的语
句进行分析,得到分析结果,根据分析结果得到保留多个相邻的标点符号中的一个标点符
号的方案。
括:接收对已删除的标点符号的撤回命令;根据撤回命令和待处理文本,或者根据撤回命令
和已删除的标点符号在待处理文本中的位置信息,将处理后文本恢复为待处理文本。
本中有多个相邻的标点符号的情况下,确定多个相邻的标点符号是否属于预设标点符号组
合集,其中,预设标点符号组合集包括至少一组由多个标点符号构成的标点符号组合;处理
模块,用于在多个相邻的标点符号不属于预设标点符号组合集的情况下,保留多个相邻的
标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,得到处理
后文本。
标点符号是否是相同的标点符号。
中的其他标点符号删除。
符号保留方案,其中,标点符号保留数据库包括至少一组由多个标点符号构成的标点符号
组合以及与标点符号组合匹配的标点符号保留方案,标点符号保留方案为保留多个相邻的
标点符号中的一个标点符号的方案;和/或第三处理模块,用于在多个相邻的标点符号不是
相同的标点符号的情况下,使用自然语言处理技术对待处理文本中多个相邻的标点符号前
的语句进行分析,得到分析结果,根据分析结果得到保留多个相邻的标点符号中的一个标
点符号的方案。
收模块,用于在处理模块得到处理后文本之后,接收对已删除的标点符号的撤回命令;撤回
模块,用于根据撤回命令和待处理文本,或者根据撤回命令和已删除的标点符号在待处理
文本中的位置信息,将处理后文本恢复为待处理文本。
邻的标点符号是否属于预设标点符号组合集,在多个相邻的标点符号不属于预设标点符号
组合集的情况下,说明标点符号使用错误,则保留多个相邻的标点符号中的一个标点符号,
并将多个相邻的标点符号中的其他标点符号删除,最终得到处理后文本,达到了在出现多
个相邻的标点符号的情况下最终只保留一个标点符号的目的,从而对使用错误的标点符号
进行了纠正,并且操作简单,易于实现,使纠正后的文本易于阅读,方便理解,进而解决了现
有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号
使用错误的技术问题。
附图说明
具体实施方式
本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范
围。
的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所
示出或描述的步骤。
多个相邻的标点符号。如果待处理文本中没有出现多个相邻的标点符号一起使用的情况,
则不对该待处理文本进行后续处理。
点符号构成的标点符号组合。
符号使用习惯,例如,一些用户喜欢连续使用多个感叹号来表示强调,或者在一些非正式文
本中,一些用户喜欢连续使用多个句号表示无语等,因此可以构建符合用户个性化需求的
预设标点符号集。
得到处理后文本。
习惯,因此可以不作处理,在多个相邻的标点符号不属于预设标点符号组合集的情况下,说
明多个相邻的标点符号使用错误,因此最终只需要保留多个相邻的标点符号中的一个标点
符号即可,其他的标点符号可以予以删除。
一处使用错误的标点符号进行单独修改的操作键,例如,可以按照在待处理文本中出现的
顺序提示用户选择或确定对多个相邻的标点符号进行保留及删除的方案。
邻的标点符号是否属于预设标点符号组合集,在多个相邻的标点符号不属于预设标点符号
组合集的情况下,说明标点符号使用错误,则保留多个相邻的标点符号中的一个标点符号,
并将多个相邻的标点符号中的其他标点符号删除,最终得到处理后文本,达到了在出现多
个相邻的标点符号的情况下最终只保留一个标点符号的目的,从而对使用错误的标点符号
进行了纠正,并且操作简单,易于实现,使纠正后的文本易于阅读,方便理解,进而解决了现
有技术中用户由于手误等原因而使文本中出现多个连续的标点符号导致文本中标点符号
使用错误的技术问题。
的标点符号是否是相同的标点符号。
样的标点符号,如果多个相邻的标点符号中有一个标点符号与其他的标点符号不同,就确
定多个相邻的标点符号不是相同的标点符号。
符号中的其他标点符号删除,包括:步骤S302,保留多个相邻的标点符号中任意一个标点符
号,并将多个相邻的标点符号中的其他标点符号删除。
中任意一个标点符号,并将多个相邻的标点符号中的其他标点符号删除,最终只剩下一个
标点符号,例如,在出现多个句号的情况下,经过步骤S302的处理,最终只剩下一个句号。
点符号中的其他标点符号删除,包括:步骤S402,从预设的标点符号保留数据库中查找与多
个相邻的标点符号匹配的标点符号保留方案,其中,标点符号保留数据库包括至少一组由
多个标点符号构成的标点符号组合以及与标点符号组合匹配的标点符号保留方案,标点符
号保留方案为保留多个相邻的标点符号中的一个标点符号的方案;和/或步骤S404,使用自
然语言处理技术对待处理文本中多个相邻的标点符号前的语句进行分析,得到分析结果,
根据分析结果得到保留多个相邻的标点符号中的一个标点符号的方案。
保留数据库,标点符号保留数据库中存储有标点符号组合以及针对该标点符号组合的标点
符号保留方案,也就是最终保留多个相邻的标点符号中哪一个标点符号的方案,因此,在知
道了多个相邻的标点符号的情况下,根据标点符号保留数据库,就可以找出匹配的标点符
号保留方案,例如对于连续出现一个句号一个逗号的标点符号组合,标点符号保留数据库
中可以规定该情况的标点符号保留方案为保留逗号,删除句号。
标点符号保留方案可以不仅仅是一个方案,可以为多个方案,本发明可以提供给用户多个
方案来供用户选择。
号前的语句进行的分析可以是语气分析、语义分析等,语气分析的分析结果可能是疑问句、
感叹句、陈述句等,如果是疑问句则优选为保留多个相邻的标点符号中的问号,如果是感叹
句则优选为保留多个相邻的标点符号中的感叹号,如果是陈述句则优选为保留多个相邻的
标点符号中的问号,此处需要说明的是,在得到分析结果后,根据分析结果得到保留多个相
邻的标点符号中的一个标点符号的方案可以不仅仅是一个方案,可以是多个方案,例如,如
果是疑问句也可以保留多个相邻的标点符号中的句号,如果是感叹句也可以保留多个相邻
的标点符号中的句号,如果是陈述句也可以保留多个相邻的标点符号中的逗号,因此可以
提供给用户多个方案来供用户选择。
位置信息。步骤S106中得到处理后文本之后,还包括:步骤S504,接收对已删除的标点符号
的撤回命令。步骤S506,根据撤回命令和待处理文本,或者根据撤回命令和已删除的标点符
号在待处理文本中的位置信息,将处理后文本恢复为待处理文本。
就是待处理文本,在将多个相邻的标点符号中的其他标点符号删除后,需要存储待处理文
本和/或从待处理文本中删除的标点符号在待处理文本中的位置信息,在接收到用户的撤
回命令时候,可以执行将处理后文本恢复为待处理文本的操作,具体的,可以在操作界面上
设置撤回键,当用户点击该撤回键时,即可发送撤回命令。
时,既可开始进行检测待处理文本中的标点符号,确定是否有多个相邻的标点符号的情况
出现,在待处理文本中有多个相邻的标点符号的情况下,确定并且显示不属于预设标点符
号组合集的多个相邻的标点符号,标点符号处理的操作界面也可以设置对使用错误的标点
符号一次性全部处理以及单独处理的按键,如果用户选择了全部处理的按键,则针对待处
理文本中使用错误的标点符号一次性全部处理,也就是针对待处理文本中所有不属于预设
标点符号组合集中的多个相邻的标点符号,保留每一处多个相邻的标点符号中的一个标点
符号,在执行全部处理操作前,可以由用户确认每一处多个相邻的标点符号的标点符号保
留方案;如果用户选择了单独处理按键,则可以按照不属于预设标点符号组合集的多个相
邻的标点符号在待处理文本中出现的顺序,由用户确认针对每一处多个相邻的标点符号的
标点符号保留方案,然后逐个进行处理,无论用户选择哪种处理方式,均可实现对待处理文
本中不属于预设标点符号组合集的多个相邻的标点符号进行纠正,使每一处多个相邻的标
点符号最终只保留一个标点符号的目的。
103和处理模块105。
点符号是否属于预设标点符号组合集,其中,预设标点符号组合集包括至少一组由多个标
点符号构成的标点符号组合;处理模块105,用于在多个相邻的标点符号不属于预设标点符
号组合集的情况下,保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符
号中的其他标点符号删除,得到处理后文本。
况下,第二确定模块103确定多个相邻的标点符号是否属于预设标点符号组合集,在多个相
邻的标点符号不属于预设标点符号组合集的情况下,说明标点符号使用错误,处理模块105
保留多个相邻的标点符号中的一个标点符号,并将多个相邻的标点符号中的其他标点符号
删除,最终得到处理后文本,达到了在出现多个相邻的标点符号的情况下最终只保留一个
标点符号的目的,从而对使用错误的标点符号进行了纠正,并且操作简单,易于实现,使纠
正后的文本易于阅读,方便理解,进而解决了现有技术中用户由于手误等原因而使文本中
出现多个连续的标点符号导致文本中标点符号使用错误的技术问题。
同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以
在诸如一组计算机可执行指令的计算机系统中执行。
标点符号删除之前,确定多个相邻的标点符号是否是相同的标点符号。
说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中
执行。
点符号,并将多个相邻的标点符号中的其他标点符号删除。
说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中
执行。
的情况下,从预设的标点符号保留数据库中查找与多个相邻的标点符号匹配的标点符号保
留方案,其中,标点符号保留数据库包括至少一组由多个标点符号构成的标点符号组合以
及与标点符号组合匹配的标点符号保留方案,标点符号保留方案为保留多个相邻的标点符
号中的一个标点符号的方案;第三处理模块403,用于在多个相邻的标点符号不是相同的标
点符号的情况下,使用自然语言处理技术对待处理文本中多个相邻的标点符号前的语句进
行分析,得到分析结果,根据分析结果得到保留多个相邻的标点符号中的一个标点符号的
方案。
述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算
机可执行指令的计算机系统中执行。
符号删除后,存储待处理文本和/或已删除的标点符号在待处理文本中的位置信息;接收模
块503,用于在处理模块105得到处理后文本之后,接收对已删除的标点符号的撤回命令;撤
回模块505,用于根据撤回命令和待处理文本,或者根据撤回命令和已删除的标点符号在待
处理文本中的位置信息,将处理后文本恢复为待处理文本。
于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组
计算机可执行指令的计算机系统中执行。
一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或
者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互
之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连
接,可以是电性或其它的形式。
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或
部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑Only Memory)、随机存取存
储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的
介质。
视为本发明的保护范围。