一种信息处理方法及装置转让专利

申请号 : CN201911044241.5

文献号 : CN110781227B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李亚梦王泽林叶晓斌刘永生

申请人 : 中国联合网络通信集团有限公司

摘要 :

本发明实施例提供一种信息处理方法及装置,涉及计算机技术领域,用于确定信息数据库中每一信息的目标特征信息,包括:获取信息数据库中每一信息的当前特征信息;计算信息数据库中任意两个信息之间的相似度,以得到至少一个相似度;对于信息数据库中的第一信息而言,根据上述获取到的当前特征信息和至少一个相似度,确定第一信息的目标特征信息,最后将第一信息的当前特征信息更新为第一信息的目标特征信息,有效地减少了错误特征信息。

权利要求 :

1.一种信息处理方法,其特征在于,包括:

获取信息数据库中每一信息的当前特征信息;

计算所述信息数据库中任意两个信息之间的相似度,以得到至少一个相似度;

对于所述信息数据库中的第一信息而言,根据获取到的所述当前特征信息和所述至少一个相似度,确定所述第一信息的目标特征信息,以及将所述第一信息的当前特征信息更新为所述第一信息的目标特征信息;所述第一信息为所述信息数据库中的任意一个信息;

所述根据获取到的所述当前特征信息和所述至少一个相似度,确定所述第一信息的目标特征信息,包括:根据所述至少一个相似度,确定所述第一信息与所述信息数据库中除所述第一信息以外的每个信息之间的相似权重值,得到至少一个相似权重值;

根据所述至少一个相似权重值和所述信息数据库中每一信息的当前特征信息,确定所述第一信息的目标特征信息;

所述根据所述至少一个相似度,确定所述第一信息与所述信息数据库中除所述第一信息以外的每个信息之间的相似权重值,得到至少一个相似权重值,包括:对所述信息数据库中除所述第一信息以外的每个信息均执行下述操作,以确定至少一个相似权重值:对于所述信息数据库中的第二信息而言,确定所述第一信息和所述第二信息的关系级别,所述第二信息为所述信息数据库中除所述第一信息以外的任意一个信息,所述关系级别包括:第一级别和第二级别,所述第一级别和所述第二级别用于表示所述第一信息和所述第二信息之间的相关性,所述第二级别低于所述第一级别,所述第一信息与所述第二信息之间的关系包括相关和不相关,所述相关表示所述第一级别,所述不相关表示所述第二级别,当第一集合包括所述第二信息,并且第二集合包括所述第一信息时,所述第一信息和所述第二信息之间的关系为相关,当所述第一集合不包括所述第一信息,和/或所述第二集合不包括所述第二信息时,所述第一信息和所述第二信息之间的关系为不相关;

若所述第一信息和所述第二信息的关系级别为所述第一级别,则将所述第一信息与所述第二信息之间的相似度,确定为所述第一信息与所述第二信息之间的相似权重值;

若所述第一信息和所述第二信息的关系级别为所述第二级别,则确定所述第一信息与所述第二信息之间的相似权重值为零。

2.根据权利要求1所述的信息处理方法,其特征在于,所述确定所述第一信息和所述第二信息的关系级别,包括:确定第一集合,所述第一集合包括m个第一候选信息,所述m个第一候选信息包括:按照由大到小的顺序排列在前m位的第一相似度对应的信息;所述第一相似度为所述至少一个相似度中与所述第一信息对应的相似度,所述第一候选信息不包括所述第一信息,m为正整数;

确定第二集合,所述第二集合包括m个第二候选信息,所述m个第二候选信息包括:按照由大到小的顺序排列在前m位的第二相似度对应的信息;所述第二相似度为所述至少一个相似度中与所述第二信息对应的相似度,所述第二候选信息不包括所述第二信息;

若所述第一集合包括所述第二信息,且所述第二集合包括所述第一信息,则确定所述第一信息和所述第二信息的关系级别为所述第一级别;反之,确定所述第一信息和所述第二信息的关系级别为所述第二级别。

3.根据权利要求1或2中任意一项所述的信息处理方法,其特征在于,所述根据所述至少一个相似权重值和所述信息数据库中每一信息的当前特征信息,确定所述第一信息的目标特征信息,包括:建立图模型,所述图模型用于表示所述信息数据库中任意两个信息之间的相似度;所述图模型包括多个节点,每个节点用于表示所述信息数据库中的一个信息,将所述信息数据库中所述相似权重值不为零的任意两个信息对应的节点之间相连;

根据所述图模型的能量函数,确定所述第一信息的目标特征信息;所述能量函数为:

其中,E表示所述能量函数,i和j分别表示所述图模型中的一个节点,j为i的一个相邻节点,Xi表示所述节点i对应的信息的当前特征信息,Yi表示所述节点i对应的信息的目标特征信息,Yj表示所述节点j对应的信息的当前特征信息,Ys表示所述节点i的全部相邻节点的集合,NA表示所述图模型中的特殊节点,YNA表示所述节点i对应的信息的当前特征信息,不属于所述节点i任意一个的相似节点对应的信息的当前特征信息所属类别的概率,Wij表示所述节点i和所述节点j之间的相似权重值, 表示所述Yi的转置,α≥0,β≥0。

4.一种信息处理装置,其特征在于,包括:获取单元、计算单元和处理单元;

所述获取单元,用于获取信息数据库中每一信息的当前特征信息;

所述计算单元,用于计算所述获取单元获取的所述信息数据库中任意两个信息之间的相似度,以得到至少一个相似度;

对于所述信息数据库中的第一信息而言,所述处理单元,用于根据所述获取单元获取到的所述当前特征信息和所述计算单元计算的所述至少一个相似度,确定所述第一信息的目标特征信息,以及将所述第一信息的当前特征信息更新为所述第一信息的目标特征信息;所述第一信息为所述信息数据库中的任意一个信息;

所述处理单元,具体用于:

根据所述至少一个相似度,确定所述第一信息与所述信息数据库中除所述第一信息以外的每个信息之间的相似权重值,得到至少一个相似权重值;

根据所述至少一个相似权重值和所述信息数据库中每一信息的当前特征信息,确定所述第一信息的目标特征信息;

所述处理单元,具体还用于:

对所述信息数据库中除所述第一信息以外的每个信息均执行下述操作,以确定至少一个相似权重值:对于所述信息数据库中的第二信息而言,确定所述第一信息和所述第二信息的关系级别,所述第二信息为所述信息数据库中除所述第一信息以外的任意一个信息,所述关系级别包括:第一级别和第二级别,所述第一级别和所述第二级别用于表示所述第一信息和所述第二信息之间的相关性,所述第二级别低于所述第一级别,所述第一信息与所述第二信息之间的关系包括相关和不相关,所述相关表示所述第一级别,所述不相关表示所述第二级别,当第一集合包括所述第二信息,并且第二集合包括所述第一信息时,所述第一信息和所述第二信息之间的关系为相关,当所述第一集合不包括所述第一信息,和/或所述第二集合不包括所述第二信息时,所述第一信息和所述第二信息之间的关系为不相关;

若所述第一信息和所述第二信息的关系级别为所述第一级别,则将所述第一信息与所述第二信息之间的相似度,确定为所述第一信息与所述第二信息之间的相似权重值;

若所述第一信息和所述第二信息的关系级别为所述第二级别,则确定所述第一信息与所述第二信息之间的相似权重值为零。

5.根据权利要求4所述的信息处理装置,其特征在于,所述处理单元,具体用于:

确定第一集合,所述第一集合包括m个第一候选信息,所述m个第一候选信息包括:按照由大到小的顺序排列在前m位的第一相似度对应的信息;所述第一相似度为所述至少一个相似度中与所述第一信息对应的相似度,所述第一候选信息不包括所述第一信息,m为正整数;

确定第二集合,所述第二集合包括m个第二候选信息,所述m个第二候选信息包括:按照由大到小的顺序排列在前m位的第二相似度对应的信息;所述第二相似度为所述至少一个相似度中与所述第二信息对应的相似度,所述第二候选信息不包括所述第二信息;

若所述第一集合包括所述第二信息,且所述第二集合包括所述第一信息,则确定所述第一信息和所述第二信息的关系级别为所述第一级别;反之,确定所述第一信息和所述第二信息的关系级别为所述第二级别。

6.根据权利要求4或5中任意一项所述的信息处理装置,其特征在于,所述处理单元,具体用于:建立图模型,所述图模型用于表示所述信息数据库中任意两个信息之间的相似度;所述图模型包括多个节点,每个节点用于表示所述信息数据库中的一个信息,将所述信息数据库中所述相似权重值不为零的任意两个信息对应的节点之间相连;

根据所述图模型的能量函数,确定所述第一信息的目标特征信息;所述能量函数为:

其中,E表示所述能量函数,i和j分别表示所述图模型中的一个节点,j为i的一个相邻节点,Xi表示所述节点i对应的信息的当前特征信息,Yi表示所述节点i对应的信息的目标特征信息,Yj表示所述节点j对应的信息的当前特征信息,Ys表示所述节点i的全部相邻节点的集合,NA表示所述图模型中的特殊节点,YNA表示所述节点i对应的信息的当前特征信息,不属于所述节点i任意一个的相似节点对应的信息的当前特征信息所属类别的概率,Wij表示所述节点i和所述节点j之间的相似权重值, 表示所述Yi的转置,α≥0,β≥0。

7.一种信息处理装置,其特征在于,包括存储器和处理器;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过总线连接;当所述信息处理装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述信息处理装置执行如权利要求1‑

3任一项所述的信息处理方法。

8.一种计算机存储介质,其特征在于,所述计算机存储介质包括计算机执行指令,当所述计算机执行指令在计算机上运行时,使得所述计算机执行如权利要求1‑3任一项所述的信息处理方法。

说明书 :

一种信息处理方法及装置

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种信息处理方法及装置。

背景技术

[0002] 在自然语言处理技术中,通常需要为数据添加标签,以便于理解该数据的语义。携带有标签的数据可用于神经网络等模型的训练。标签的正确与否对模型的训练至关重要。
[0003] 用于训练模型的数据往往包括有错误标签。采用这样的数据无法训练出有效的模型。因此,如何快速、有效地减少错误标签是亟需解决的问题。

发明内容

[0004] 本发明实施例提供一种信息处理方法及装置,用于快速、有效地减少数据中的错误标签。
[0005] 为达到上述目的,本发明实施例采用如下技术方案:
[0006] 第一方面,提供一种信息处理方法,包括:首先获取信息数据库中每一信息的当前特征信息;然后计算信息数据库中任意两个信息之间的相似度,以得到至少一个相似度;然后,对于信息数据库中的第一信息而言,根据上述获取到的当前特征信息和至少一个相似度,确定第一信息的目标特征信息,最后将第一信息的当前特征信息更新为第一信息的目标特征信息;该第一信息为信息数据库中的任意一个信息。
[0007] 可以看出,本发明实施例中,信息处理装置根据数据库中的每一信息的当前特征信息,以及信息数据库中任意两个信息之间的相似度确定信息数据库中每一信息的目标特征信息。相比现有技术,由于本发明实施例提供的方案中,通过计算任意两个信息之间的相似度确定信息数据库中每一信息的目标特征信息,因此,本发明实施例可以快速、准确地确定出信息数据库中每一信息的特征信息,有效地减少了错误特征信息。
[0008] 第二方面,提供一种信息处理装置,包括:获取单元、计算单元和处理单元;获取单元,用于获取信息数据库中每一信息的当前特征信息;计算单元,用于计算获取单元获取的信息数据库中任意两个信息之间的相似度,以得到至少一个相似度;对于信息数据库中的第一信息而言,处理单元,用于根据获取单元获取到的当前特征信息和计算单元计算的至少一个相似度,确定第一信息的目标特征信息,以及将第一信息的当前特征信息更新为第一信息的目标特征信息;第一信息为信息数据库中的任意一个信息。
[0009] 第三方面,提供一种信息处理装置,包括存储器和处理器;存储器用于存储计算机执行指令,处理器与存储器通过总线连接;当信息处理装置运行时,处理器执行存储器存储的计算机执行指令,以使信息处理装置执行第一方面所述的信息处理方法。
[0010] 该信息处理装置可以是网络设备,也可以是网络设备中的一部分装置,例如网络设备中的芯片系统。该芯片系统用于支持网络设备实现第一方面及其任意一种可能的实现方式中所涉及的功能,例如,接收、确定、分流上述信息处理方法中所涉及的数据和/或信息。该芯片系统包括芯片,也可以包括其他分立器件或电路结构。
[0011] 第四方面,提供一种计算机存储介质,计算机存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得该计算机执行第一方面所述的信息处理方法。
[0012] 第五方面,还提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在信息处理装置上运行时,使得信息处理装置执行如上述第一方面所述的信息处理方法。
[0013] 需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机存储介质上。其中,第一计算机存储介质可以与信息处理装置的处理器封装在一起的,也可以与信息处理装置的处理器单独封装,本发明实施例对此不作限定。
[0014] 本发明中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述;并且,第二方面、第三方面、第四方面以及第五方面的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
[0015] 在本发明实施例中,上述信息处理装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本发明类似,属于本发明权利要求及其等同技术的范围之内。
[0016] 本发明的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

[0017] 图1为本发明实施例提供的信息处理装置的硬件结构示意图;
[0018] 图2为本发明实施例提供的一种信息处理方法的流程示意图;
[0019] 图3为本发明实施例提供的一种信息数据库的图模型的结构示意图;
[0020] 图4为本发明实施例提供的一种更新信息数据库的图模型的流程示意图;
[0021] 图5为本发明实施例提供的又一种信息处理方法的流程示意图;
[0022] 图6为本发明实施例提供的信息处理装置的流程示意图。

具体实施方式

[0023] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024] 需要说明的是,本发明实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
[0025] 为了便于清楚描述本发明实施例的技术方案,在本发明实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
[0026] 本发明实施例提供了一种信息处理方法及装置。信息处理装置获取信息数据库中每一信息的当前特征信息,并计算信息数据库中任意两个信息之间的相似度,后续,根据获取到的当前特征信息和计算得到的相似度,确定每一信息的目标特征信息。这样,信息处理装置可以快速、准确地确定出信息数据库中每一信息的特征信息,有效地减少了错误特征信息。
[0027] 上述信息处理装置为用于对信息处理的设备,也可以为该设备中的芯片,还可以为该设备中的片上系统。
[0028] 可选的,该设备可以是物理机,例如:台式电脑,又称台式机或桌面机(desktop computer)、手机、平板电脑、笔记本电脑、超级移动个人计算机(Ultra‑mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal DigitalAssistant,PDA)等终端设备。
[0029] 可选的,上述信息处理装置也可以通过部署在物理机上的虚拟机(virtual machine,VM),以实现上述信息处理装置所要实现的功能。
[0030] 为了便于理解,现在对本发明实施例中的信息处理装置的结构进行描述。
[0031] 如图1所示,为本发明实施例提供的信息处理装置的一种硬件结构示意图。该信息处理装置包括处理器21,存储器22、通信接口23、总线24。处理器21,存储器22以及通信接口23之间可以通过总线24连接。
[0032] 处理器21是信息处理装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器21可以是一个通用中央处理单元(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
[0033] 作为一种实施例,处理器21可以包括一个或多个CPU,例如图1中所示的CPU 0和CPU 1。
[0034] 存储器22可以是只读存储器(read‑only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read‑only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0035] 一种可能的实现方式中,存储器22可以独立于处理器21存在,存储器22可以通过总线24与处理器21相连接,用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时,能够实现本发明下述实施例提供的信息处理方法。
[0036] 在本发明实施例中,对于处理模块11、映射模块12、训练模块13和更新模块14而言,存储器22中存储的软件程序不同,所以处理模块11、映射模块12、训练模块13和更新模块14实现的功能不同。关于各设备所执行的功能将结合下面的流程图进行描述。
[0037] 另一种可能的实现方式中,存储器22也可以和处理器21集成在一起。
[0038] 通信接口23,用于信息处理装置与其他设备通过通信网络连接,所述通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。通信接口23可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
[0039] 总线24,可以是工业标准体系结构(industry standard architecture,ISA)总线、外部设备互连(peripheral component interconnect,PCI)总线或扩展工业标准体系结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0040] 需要指出的是,图1中示出的结构并不构成对该信息处理装置的限定,除图1所示部件之外,该信息处理装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0041] 如图2所示,为本发明实施例提供的一种信息处理方法的流程示意图。在本发明实施例中,信息处理装置以计算机为例,对信息处理方法进行说明。下述所有步骤可以由计算机执行。该信息处理方法包括:S301‑S304;
[0042] S301、计算机获取信息数据库中每一信息的当前特征信息。
[0043] 在计算机中,包括至少一个信息数据库,每个信息数据库中包括多个信息,每一信息均配置有一个或多个标记(例如文本信息的标签)。其中,标记用于标识信息,以使标记能简单表述信息的含义。例如:信息E为:我到了中国的首都北京。由于信息E主要想表达的意思为我到了北京,因此可以为信息E配置一个标记为:北京。由于中国的首都是北京,因此,也可以为信息E配置第二个标记为:首都。
[0044] 在本发明实施例中,计算机将信息数据库中的每一信息的标记转换为对应的特征信息。可选的,计算机可以通过独热码(one‑hot code)算法对信息数据库中的每一信息的标记进行转换,也可以通过其他算法对信息数据库中的每一信息的标记进行转换,在此不做限定。独热码算法用于将信息数据库中的每一信息的标记转换为01向量,该01向量即为信息的标记对应的特征信息。
[0045] 本发明实施例将计算机首次或初次确定出的特征信息称为初始特征信息。也就是说,某一信息的初始特征信息是该信息最原始的特征信息。
[0046] 在信息数据库中,某一信息的特征信息对应的标记可能会准确的表达该信息的含义,也可能会对该信息的含义产生歧义。例如:信息E为:我到了中国的首都北京。若信息E的特征信息对应的标记为“北京”,则根据“北京”可以将信息E理解为:中国的首都。此时,标记“北京”能够准确地表达信息E的含义。若信息E的特征信息对应的标记为“首都”,则根据“首都”可以将信息E理解为:除中国以外的其他国家的首都。这样,标记“首都”不能准确地表示信息E的含义。
[0047] 基于此,信息数据库中的每一信息的特征信息可以保持不变(如:当标记能准确地表达信息的含义时,该信息的特征信息可以保持不变),也可以根据实际需求发生变化。当信息的特征信息对应的标记可能会对该信息的含义产生歧义时,采用本发明实施例提供的方法更新该信息的特征信息,以使更新后的信息的特征信息对应的标记准确表达该信息的含义。
[0048] 由于信息数据库中每一信息的特征信息可能发生变化,因此,在本实施例中,采用信息的当前特征信息表示在某一时间段内该信息的特征信息。信息的当前特征信息具体可以为初始特征信息,也可以为对初始特征信息进行一次更新后获得的特征信息,也可以为对初始特征信息进行多次更新后获得的特征信息。在该时间段的前一时间段(若当前特征信息为初始特征信息,则不存在前一时间段)或后一时间段内,信息的特征信息与所述当前特征信息可以相同,也可以不同。
[0049] 本发明实施例涉及到的信息可以是文本信息,也可以是图片信息或者语音信息等,在此不做限定。相应的,信息数据库可以为文本数据库,也可以是图片数据库或语音数据库等。
[0050] S302、计算机计算信息数据库中任意两个信息之间的相似度,以得到至少一个相似度。
[0051] 计算机对任意两个信息的处理方式(计算相似度的方式)均相同。为了便于描述,在此主要以第一信息和第二信息为例进行说明。其中,第一信息和第二信息为信息数据库中的任意两个不同的信息。
[0052] 可选的,以信息为文本信息为例,相应的,信息数据库为文本数据库。计算机分别确定第一文本信息的目标词语标记 和第二文本信息的目标词语标记 并根据公式确定第一文本信息和第二文本信息之间的相似度S。
[0053] 具体的,在确定第一文本信息的目标词语标记 时,计算机先根据第二预设算法(例如:计算机程序设计语言Python)对第一文本信息进行分词处理,得到一个分词列表。然后,计算机对分词列表进行过滤,去除类似“的”“了”的停用词,得到一个目标分词列表,以使目标分词列表中的词语可以充分表达第一文本信息的意思。再然后,计算机根据第三预设算法(例如:词频‑逆文本频率指数算法(term frequency–inverse document frequency,TF‑IDF))确定第一文本信息的目标分词列表中,每个词语的词频率。最后,计算机选取词频率最高的词语作为第一文本信息的目标词语,并将该目标词语转换为目标词语标记
[0054] 计算机可以采用上述“确定目标词语标记 ”方式,确定第二文本信息的目标词语标记
[0055] S303、计算机根据获取到的当前特征信息和至少一个相似度,确定第一信息的目标特征信息。
[0056] 在确定出第一信息的至少一个相似度后,计算机根据至少一个相似度,得到第一信息的至少一个相似权重值,并根据得到的至少一个相似权重值和S301中获取到的第一信息的当前特征信息,确定第一信息的目标特征信息。
[0057] 具体的,计算机确定第一信息的第一集合以及第二信息的第二集合。之后,计算机判断第一集合是否包括第二信息,第二集合是否包括第一信息。若第一集合包括第二信息,且第二集合包括第一信息,则计算机确定第一信息和第二信息的关系级别为第一级别,且第一信息与第二信息之间的相似权重值为第一信息与第二信息之间的相似度。若第一集合不包括第二信息,或者第二集合不包括第一信息,则计算机确定第一信息和第二信息的关系级别为第二级别,且第一信息与第二信息之间的相似权重值为零。
[0058] 上述第一集合可以包括m个第一候选信息,m个第一候选信息包括:按照由大到小的顺序排列在前m位的第一相似度对应的信息;第一相似度为至少一个相似度中与第一信息对应的相似度,第一候选信息不包括第一信息,m为正整数。
[0059] 计算机可以采用上述“确定第一集合”方式,确定第二集合。
[0060] 示例性的,当信息数据库中包括信息E、信息F、信息G和信息H四个信息,且第一集合为信息E对应的集合时,获取信息E与信息F之间的相似度E1,获取信息E与信息G之间的相似度E2,获取信息E与信息H之间的相似度E3。然后,将相似度E1、相似度E2和相似度E3按照由大到小的顺序排序。当m=2时,取前2位相似度对应的信息。当E1>E2>E3时,即取相似度E1对应的信息F和相似度E2对应的信息G,组成的集合即为信息E对应的第一集合。当第二集合为信息F对应的集合时,获取信息F与信息E之间的相似度F1,获取信息F与信息G之间的相似度F2,获取信息F与信息H之间的相似度F3。然后将相似度F1、相似度F2和相似度F3按照由大到小的顺序排序,由于m=2,因此,取前2位相似度对应的信息。当F2>F1>F3时,即取相似度F2对应的信息G和相似度F1对应的信息E,组成的集合即为信息F对应的第二集合。由于第二集合包括信息E和信息G,且第一集合包括信息F和信息G时,所以,确定信息E和信息F都在彼此对应的集合中,即信息E和信息F的关系级别为第一级别;反之,则确定信息E和信息F的关系级别为第二级别。
[0061] 第一级别和第二级别均用于表示第一信息和第二信息之间的相关性,且第二级别低于第一级别。
[0062] 示例性的,第一信息与第二信息之间的关系分为“相关”和“不相关”,“相关”可以表示第一级别,“不相关”可以表示第二级别。当第一集合包括第二信息,且第二集合包括第一信息时,则第一信息与第二信息之间的关系为“相关”。反之,第一信息与第二信息之间的关系为“不相关”。
[0063] 在确定出至少一个相似权重值后,计算机根据至少一个相似权重值和第一信息的当前特征信息建立用于表示信息数据库中任意两个信息之间的相似度的图模型。后续,计算机可以根据图模型的能量函数,确定第一信息的目标特征信息。
[0064] 具体的,计算机将信息数据库中的每个信息均采用一个节点表示,并通过直线对节点之间进行连接,以生成图模型。由于相似权重值不为零的任意两个信息所对应的节点之间连接,相似权重值为零的任意两个信息所对应的节点之间不连接,因此,图模型能够用于表示任意两个信息之间的相似度。
[0065] 示例性的,如图3所示,为本发明实施例提供的一种信息数据库的图模型的结构示意图,信息数据库中包括信息E、信息F、信息G和信息H四个信息,分别对应节点E、节点F、节点G和节点H四个节点,每个节点中包括该节点对应的初始特征信息:e0、f0、g0和h0。其中,信息E分别与信息F和信息G之间的相似权重值不为零,信息F分别与信息G和信息H之间的相似权重值不为零,信息G与信息H之间的相似权重值不为零。因此,节点E分别与节点F和节点G相连,节点F分别与节点G和节点H相连,节点G与节点H相连。即节点E的相邻节点为节点F和节点G,节点F的相邻节点为节点E、节点G和节点H,节点G的相邻节点为节点E、节点F和节点H,节点H的相邻节点为节点F和节点G。
[0066] 上述图模型的能量函数可以采用下述公式表示:
[0067]
[0068] 其中,i和j分别表示图模型中的一个节点,j为i的一个相邻节点,Xi为节点i对应的信息的当前特征信息,Yi为节点i对应的信息的目标特征信息,Yj为节点j对应的信息的当前特征信息,Ys表示节点i的全部相邻节点的集合,NA表示图模型中的特殊节点,YNA表示节点i对应的信息的当前特征信息,不属于节点i任意一个的相似节点对应的信息的当前特征T信息所属类别的概率,Wij表示节点i和节点j之间的相似权重值,Yi表示Yi的转置,α≥0,β≥
0。
[0069] 以信息为文本信息为例,相应的,信息数据库为文本数据库。计算机可以将文本数据库中的文本信息划分为多个类别。例如:城市类、运动类和电影类等。当文本数据库中的某个文本信息为“我来到了中国美丽的首都北京”时,计算机可以根据该文本信息的当前特征信息确定该文本信息的类别属于城市类。在上述图模型中,当一个节点的相似节点对应的当前特征信息的类别均为A类时,那该节点对应的当前特征信息的类别很可能属于A类。当一个节点的相似节点对应的当前特征信息的类别均匀分布在A类、B类和C类的多种类别之间时,该节点对应的当前特征信息的类别可能并不属于某一类,而是:其他类。在具体文本分类任务中,比如训练城市类、电影类、运动类等类别时,很有可能某一个文本信息对应的当前特征信息并不属于任意一类,而应该被归为其他类。本发明实施例中,YNA表示节点i对应的文本信息的当前特征信息,不属于节点i任意一个的相似节点对应的文本信息的当前特征信息所属类别的概率。
[0070] 上述图模型中,E表示能量函数,能量函数用于表示上述图模型的稳定性,能量函数越低表示图模型越稳定,通过求取能量函数最低的情况可以获取图模型最稳定的状态,当图模型处于最稳定的状态时,则表明图模型中的节点对应的目标特征信息无变化。即当能量函数E取最小值时,Yi为节点i对应的信息的目标特征信息。对于信息数据库中的第一信息而言,当i=1时,Y1为第一信息的目标特征信息。
[0071] 计算机可以采用上述“确定第一信息的目标特征信息”方式,确定信息数据库中每个信息的目标特征信息。
[0072] S304、计算机将第一信息的当前特征信息更新为第一信息的目标特征信息。
[0073] 在确定出第一信息的目标特征信息后,计算机将信息数据库中第一信息的当前特征信息更新为目标特征信息,以使信息数据库中的第一信息的错误标签进行更新。
[0074] 当然,对于信息数据库中的每一信息而言,均可采用S303‑S304的方法确定出目标特征信息。
[0075] 为了进一步地提升准确性,计算机可以重复执行上述操作,多次确定每个信息的目标特征信息。以第一信息为例,计算机重复执行上述步骤,直到第n次确定出的第一信息的目标特征信息和第n‑1次确定出的第一信息的目标特征信息(对于第n次而言,该目标特征信息为当前特征信息)相同为止。n为大于1的自然数。
[0076] 示例性的,如图4所示,为本发明实施例提供的一种更新信息数据库的图模型的流程示意图,对图3所示的信息数据库的图模型进行更新。第一次更新,根据信息E、信息F、信息G和信息H的初始特征信息e0、f0、g0和h0,以及信息E、信息F、信息G和信息H之间的相似度,确定信息E、信息F、信息G和信息H第一次更新后的特征信息e1、f1、g1和h1。以此类推,直到第n‑1次更新,得到信息E、信息F、信息G和信息H第n‑1次更新后的特征信息e(n‑1)、f(n‑1)、g(n‑1)和h(n‑1)。第n次更新,得到信息E、信息F、信息G和信息H第n次更新后的特征信息en、fn、gn和hn。其中,en=e(n‑1),fn=f(n‑1),gn≠g(n‑1),fn≠f(n‑1),则确定信息E第n次更新后的特征信息en为信息E对应的目标特征信息,确定信息F第n次更新后的特征信息fn为信息F对应的目标特征信息。由于gn≠g(n‑1),fn≠f(n‑1),则继续更新,直到第m‑1次更新,得到信息G和信息H第m‑1次更新后的特征信息g(m‑1)和h(m‑1)。第m次更新,得到信息G和信息H第m次更新后的特征信息gm和hm。其中,gm=g(m‑1),hm=h(m‑1),则确定信息G第m次更新后的特征信息gm为信息G对应的目标特征信息,确定信息H第m次更新后的特征信息hm为信息H对应的目标特征信息。信息数据库全部更新完成。其中,m>n>2,且m和n为整数。
[0077] 本发明实施例中,信息处理装置根据数据库中的每一信息的当前特征信息,以及信息数据库中任意两个信息之间的相似度确定信息数据库中每一信息的目标特征信息。相比现有技术,由于本发明实施例提供的方案中,通过计算任意两个信息之间的相似度确定信息数据库中每一信息的目标特征信息,因此,本发明实施例可以快速、准确地确定出信息数据库中每一信息的特征信息,有效地减少了错误特征信息。
[0078] 可选的,结合上述图2,如图5所示,上述S303可以替换为S600~S605。
[0079] S600、计算机根据第一信息的至少一个相似度确定第一集合。
[0080] S601、计算机根据第二信息的至少一个相似度确定第二集合。
[0081] S602、计算机根据第一集合和第二集合确定第一信息和第二信息的关系级别。
[0082] S603、计算机根据第一信息和第二信息的关系级别确定第一信息和第二信息的相似权重值。
[0083] S604、计算机根据至少一个相似权重值和信息数据库中每一信息的当前特征信息建立图模型。
[0084] S605、计算机根据图模型的能量函数确定第一信息的目标特征信息。
[0085] 上述主要从方法的角度对本发明实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0086] 本发明实施例可以根据上述方法示例对终端进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0087] 如图6所示,为本发明实施例提供的一种信息处理装置(记为信息处理装置700)的结构示意图。该信息处理装置700可以用于执行图2或图5所示的信息处理方法。图6所示信息处理装置700包括:获取单元701、计算单元702和处理单元703。
[0088] 获取单元701,用于获取信息数据库中每一信息的当前特征信息。例如,结合图2,获取单元701可以用于执行S301。
[0089] 计算单元702,用于计算获取单元701获取的信息数据库中任意两个信息之间的相似度,以得到至少一个相似度。例如,结合图2,计算单元702可以用于执行S302。
[0090] 对于信息数据库中的第一信息而言,处理单元703,用于根据获取单元701获取到的当前特征信息和计算单元702计算的至少一个相似度,确定第一信息的目标特征信息,以及将第一信息的当前特征信息更新为第一信息的目标特征信息;第一信息为信息数据库中的任意一个信息。例如,结合图2,处理单元703可以用于执行S303和S304。
[0091] 可选的,处理单元701,具体用于:根据计算单元702计算的至少一个相似度,确定第一信息与信息数据库中除第一信息以外的每个信息之间的相似权重值,得到至少一个相似权重值;根据至少一个相似权重值和信息数据库中每一信息的当前特征信息,确定第一信息的目标特征信息。
[0092] 可选的,处理单元701,具体用于:对信息数据库中除第一信息以外的每个信息均执行下述操作,以确定至少一个相似权重值:对于信息数据库中的第二信息而言,确定第一信息和第二信息的关系级别,第二信息为信息数据库中除第一信息以外的任意一个信息,关系级别包括:第一级别和第二级别;若第一信息和第二信息的关系级别为第一级别,则将第一信息与第二信息之间的相似度,确定为第一信息与第二信息之间的相似权重值;若第一信息和第二信息的关系级别为第二级别,则确定第一信息与第二信息之间的相似权重值为零。例如,结合图5,处理单元703可以用于执行S603。
[0093] 可选的,处理单元701,具体用于:确定第一集合,第一集合包括m个第一候选信息,m个第一候选信息包括:按照由大到小的顺序排列在前m位的第一相似度对应的信息;第一相似度为至少一个相似度中与第一信息对应的相似度,第一候选信息不包括第一信息,m为正整数;确定第二集合,第二集合包括m个第二候选信息,m个第二候选信息包括:按照由大到小的顺序排列在前m位的第二相似度对应的信息;第二相似度为至少一个相似度中与第二信息对应的相似度,第二候选信息不包括第二信息;若第一集合包括第二信息,且第二集合包括第一信息,则确定第一信息和第二信息的关系级别为第一级别;反之,确定第一信息和第二信息的关系级别为第二级别。例如,结合图5,处理单元703可以用于执行S600、S601和S602。
[0094] 可选的,处理单元701,具体用于:建立图模型,图模型用于表示信息数据库中任意两个信息之间的相似度;图模型包括多个节点,每个节点用于表示信息数据库中的一个信息,将信息数据库中相似权重值不为零的任意两个信息对应的节点之间相连;根据图模型的能量函数,确定第一信息的目标特征信息;能量函数为:
[0095]
[0096] 其中,E表示能量函数,i和j分别表示图模型中的一个节点,j为i的一个相邻节点,Xi表示节点i对应的信息的当前特征信息,Yi表示节点i对应的信息的目标特征信息,Yj表示节点j对应的信息的当前特征信息,Ys表示节点i的全部相邻节点的集合,NA表示图模型中的特殊节点,YNA表示节点i对应的信息的当前特征信息,不属于节点i任意一个的相似节点T对应的信息的当前特征信息所属类别的概率,Wij表示节点i和节点j之间的相似权重值,Yi表示Yi的转置,α≥0,β≥0。例如,结合图5,处理单元703可以用于执行S604和S605。
[0097] 本发明实施例还提供一种计算机存储介质,计算机存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行如上述实施例提供的信息处理方法。
[0098] 本发明实施例还提供一种计算机程序,该计算机程序可直接加载到存储器中,并含有软件代码,该计算机程序经由计算机载入并执行后能够实现上述实施例提供的信息处理方法。
[0099] 本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0100] 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0101] 在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0102] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0103] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。