分析系统转让专利

申请号 : CN201880003912.0

文献号 : CN109844742B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 横山淳

申请人 : 艾梅崔克斯持株公司株式会社

摘要 :

提供利用了能够分析节点间复杂关联性的图表理论的分析方法。本发明的利用了图表理论的分析方法包含如下步骤:根据字典数据计算表示节点间的关联性的N维矢量;以及制成由计算出的N维矢量进行矢量化后的图表数据。

权利要求 :

1.一种分析系统,其利用表示节点间的关联性的图表理论来分析节点间的关联性,其中,该分析系统包含:

输入单元,其输入评价用的文档数据,该评价用的文档数据包含表示节点间的关联性的单词;

计算单元,其通过处理学习用的文档数据,生成将单词的语义矢量化后的矢量数据,并将所生成的矢量数据存储于字典,所述字典存储单词的N维的矢量数据,并且所述矢量数据是数值化的矢量,该计算单元从所述评价用的文档数据中提取单词,根据将提取出的单词的语义矢量化后的矢量数据,计算节点间的关系矢量,从所述字典中提取与该关系矢量最接近的矢量数据;以及制成单元,其根据提取出的矢量数据制成表示节点间的关联性的N维的矢量化图表数据,所述分析系统利用根据所述矢量化图表数据从所述字典中提取出的单词,来分析节点间的关联性,并从显示单元输出节点间的关联性的分析结果。

2.根据权利要求1所述的分析系统,其中,所述关系矢量是提取出的单词的矢量的平均矢量。

3.根据权利要求1所述的分析系统,其中,所述分析系统根据所述矢量化图表数据来计算节点间的所有矢量的平均矢量,从所述字典中提取与该平均矢量相似的矢量数据所对应的单词。

4.根据权利要求1所述的分析系统,其中,该分析系统还包含转换单元,该转换单元将所述矢量化图表数据转换为用于其他图表理论的图表数据。

5.根据权利要求1所述的分析系统,其中,所述评价用的文档数据是电子邮件,各节点是发送者和接收者。

6.根据权利要求4所述的分析系统,其中,所述转换单元将所述矢量化图表数据转换为加权图表数据。

7.根据权利要求1所述的分析系统,其中,所述计算单元通过词矢量对文档数据进行处理。

说明书 :

分析系统

技术领域

[0001] 本发明涉及利用了图表理论的分析方法,涉及根据图表理论来分析多义或复杂的关联性的方法。

背景技术

[0002] 作为用于提取用户的偏好的方法,有从作为分析对象的文章数据中提取用户感兴趣的单词等的方法。例如,专利文献1公开了从多个用户制成的文章中统一地提取表示偏好的数据的方法。另外,专利文献2公开了如下方法:利用单词彼此意思越近则单词彼此的距离越近的语义空间,根据多个单词在语义空间中的分布来估计表示对象的概率分布,并计算相似度。
[0003] 现有技术文献
[0004] 专利文献
[0005] 专利文献1:日本特开2017-27168号公报
[0006] 专利文献2:日本特开2017-27106号公报

发明内容

[0007] 发明要解决的课题
[0008] 作为自然语言的分析方法,有预先定义要评价的单词,将有无其出现作为数据的“词袋(Bag of Words)”这样的方法。该方法由于要判断有无预先定义的单词的出现,因此无法处理没有定义的单词,另外,无法考虑语序等。例如,将图1所示的“这是一支笔(This is a pen)”的文本数据按每个单词切分,如果“这个(this)”是被定义的单词,生成表示其命中的数据“1”。
[0009] 另外,有将文本数据按每N个字符划分(N为1以上的整数),将有无它们的出现作为数据的“N元模型(N-gram)”这样的自然语言的分析方法。例如,在用2元模型分析图1所示的“这是一支笔(This is a pen)”的情况下,该文本数据像“Th”、“hi”、“is”那样按每2个字符被切分,生成表示它们命中的数据“1”。
[0010] 并且,有使用机器学习技术对单词进行矢量化的分析方法。例如,可以将图1所示的“这是一支笔(This is a pen)”的单词与字典进行比较,用矢量表示单词间的语义上的相似关系。这样的单词的矢量化是反映了单词的语义特征的语义矢量或者分布表示,可以通过实施词矢量(word2vec)那样的技术来生成。作为词矢量的特征,(1)相似的单词成为相似的矢量,(2)矢量成分具有意义,(3)能够进行矢量彼此的运算。例如,可以进行“国王-男人+女人=女王”这样的运算。另外,除了词矢量这样的将单词矢量化的方法之外,还有将文档、产品、提问等矢量化的sent2vec、product2vec、query2vec、med2vec等。
[0011] 另外,作为数据结构的分析方法,公知有图表理论。图表理论是由节点(顶点)和边缘(边)的集合构成的图表,通过该图表能够表示各种事件的关联性。例如,如图2的(A)所示,节点A、B、C、D通过各边缘而连接,边缘的方向表示节点间的关联性的方向。将该图表数据化后的结果如图2的(B)所示。图3所示的加权图表理论是对边缘进行了加权的理论,即对边缘进行了定量化的理论。例如,表示从节点A向节点B的关联性的权重WAB用0.8表示,表示从节点B向节点C的关联性的权重WBC用0.2表示。
[0012] 图表理论和加权图表理论仅能够用有无边缘或一个值(标量)唯一地表现节点间的关系,因此缺乏节点间的关系的记述性。很难表现节点间的多义性关系或复杂的关系。
[0013] 本发明是为了解决这样的以往的课题而提出的,其目的在于提供一种分析方法,该分析方法利用了能够分析复杂的关联性的图表理论。
[0014] 用于解决课题的手段
[0015] 本发明的分析方法利用表示节点间的关联性的图表理论来分析节点间的关联性,该分析方法包含如下步骤:所述分析系统根据包含矢量数据的字典数据计算表示节点间的关联性的N维矢量,该矢量数据用于使用N维对表示节点间的关联性的单词进行矢量化;以及所述分析系统制成由计算出的N维矢量进行矢量化后的图表数据。
[0016] 在某一实施方式中,在进行所述计算的步骤中,从包含节点间的关联性的文本数据中提取单词,计算表示提取出的单词间的语义相似度的关系矢量,从所述字典数据中提取与该关系矢量最接近的矢量数据,由此计算所述N维矢量。在某一实施方式中,所述字典数据包含表示单词间的相似度的矢量数据。在某一实施方式中,进行所述计算的步骤包含如下处理:通过词矢量对包含由各种单词构成的文本数据在内的学习用数据进行处理,从而生成表示单词间的相似度的矢量数据,并将生成的矢量数据保存在所述字典数据中。在某一实施方式中,在进行所述计算的步骤中,对分析对象的数据进行词素分析,根据分析出的单词的平均矢量来预测节点间的关系。在某一实施方式中,所述分析对象的数据是电子邮件。在某一实施方式中,分析方法还包括如下步骤:所述分析系统将矢量化后的图表数据转换为其他图表数据。在某一实施方式中,所述转换的步骤包含如下处理:通过计算矢量化后的图表数据的矢量的内积而转换为加权后的图表数据。在某一实施方式中,分析方法还包含如下步骤:由所述分析系统根据矢量化后的图表数据来分析节点间的关联性。在某一实施方式中,所述节点表示人物,所述分析的系统分析所述节点间的人际关系。在某一实施方式中,在所述分析的步骤中,根据矢量化后的图表数据计算节点间的所有矢量的平均矢量,从所述字典数据中选择与平均矢量相似的相似矢量,提取所选择的相似矢量的单词。
[0017] 本发明的分析程序是由计算机装置执行的、使用表示节点间的关联性的图表理论来分析节点间的关联性的分析程序,该分析程序包含如下步骤:根据包含矢量数据的字典数据计算表示节点间的关联性的N维矢量,该矢量数据用于使用N维对表示节点间的关联性的单词进行矢量化;以及制成由计算出的N维矢量进行矢量化后的图表数据。
[0018] 本发明的分析系统使用表示节点间的关联性的图表理论来分析节点间的关联性,该分析系统包含计算单元,其根据包含矢量数据的字典数据计算表示节点间的关联性的N维矢量,该矢量数据用于使用N维对表示节点间的关联性的单词进行矢量化;以及制成单元,其制成由计算出的N维矢量进行矢量化后的图表数据。在某一实施方式中,分析系统还包含用于将矢量化后的图表数据转换为其他图表数据的转换单元。
[0019] 发明效果
[0020] 根据本发明,由于通过N维矢量来定义图表理论中的节点间的关联性,因此能够表示并分析节点间的复杂的关联性。

附图说明

[0021] 图1是说明现有的自然语言的分析例的图。
[0022] 图2是说明一般的图表理论的图。
[0023] 图3是说明加权图表理论的图。
[0024] 图4是说明本发明的矢量化图表理论的图。
[0025] 图5是示出将本发明的矢量化图表理论应用于人际关系的例子的图。
[0026] 图6是示出从本发明的矢量化图表理论中提取特定的关系的例子的图。
[0027] 图7是说明从本发明的矢量化图表理论中提取强度的例子的图。
[0028] 图8是说明本发明的矢量化图表理论中的向其他图表的转换例的图。
[0029] 图9是示出基于本发明的矢量化图表理论的同一层次的复杂关系的记述例的图。
[0030] 图10是示出基于本发明的矢量化图表理论的其他层次的关系的记述例的图。
[0031] 图11是示出本发明的实施例的利用了矢量化图表理论的分析系统的结构例的图。
[0032] 图12的(A)是学习用数据的一例,图12的(B)是评价用数据的一例。
[0033] 图13的(A)是字典数据的一例,图13的(B)是说明矢量化图表数据的图。
[0034] 图14是本实施例的矢量化模块的动作流程。
[0035] 图15的(A)是通常的图表数据,图15的(B)是加权后的加权图表数据的例示。
[0036] 图16是示出本实施例的矢量化模块的具体例的动作流程。
[0037] 图17是本实施例的图表转换模块的动作流程,图17的(A)是关系提取时的动作流程,图17的(B)是提取关系强度时的动作流程。
[0038] 图18是本实施例的图表分析模块的动作流程的一例。
[0039] 图19是本实施例的矢量化图表分析模块的动作流程的一例。

具体实施方式

[0040] 接下来,参照附图对本发明的利用了图表理论的分析装置的实施方式进行详细说明。图4是说明本发明的矢量化图表理论的概要的图,图4的(A)是包含节点和边缘的图表的一例,图4的(B)是用N维对节点间的关联性进行矢量化后的例子,图4的(C)是N维矢量化图表数据的一例。
[0041] 如图4的(A)所示,节点A、B、C、D分别通过边缘来表示关系性。边缘是表示从某个节点向某个节点的关联性的矢量,例如,从节点A向节点B的干预用矢量XAB表示,从节点D向节点A的干预用XDA表示。这里,将矢量的出发点的节点设为“源”,将到达点的节点设为“目的地”。
[0042] 在本发明的矢量化图表理论中,如图4的(B)所示,通过N维矢量来定义源与目的地的关联性(N为2以上的整数)。N维矢量可以表示源与目的地之间的复杂关系、多义性关系、不同层次之间的关系等。N维矢量例如可以是表示源与目的地的语义相似关系的、数值化后的语义矢量、或者将源与目的地的语义相似关系数值化后的分布表示。在通过N维矢量来定义源与目的地的关系时,可以获得图4的(C)所示那样的矢量化图表数据。
[0043] 图5是通过本发明的矢量化图表理论来表示人际关系的例子。在该图的(A)中,节点A~D表示人物或与人物等价的事物,各节点通过表示人际关系的矢量而连结。例如,示出节点A对节点B有“喜欢”这样的情感,节点B对节点D有“嫉妒”这样的情感,节点D对节点A有“讨厌”这样的情感,节点B和节点C分别有相互信赖这样的情感。该图的(B)是用表示图5的(A)的关系的N维矢量表现的矢量化图表数据。例如,“喜欢”这样的情感也有各种各样,即,包含“喜欢”的程度(“很喜欢”、“稍微喜欢”等)、喜欢的对象(“喜欢脸”、“喜欢眼睛”)“喜欢性格”等)等各种含义。N维矢量也可以说是从多个多义性的观点将这样的“喜欢”这一概念数值化后的矢量。在本例的情况下,从节点A向节点B的“喜欢”、节点B与节点C之间的“信赖”、从节点D向节点A的“讨厌”、从节点B向节点D的“嫉妒”例如由图5的(B)的“喜欢”、“信赖”、“讨厌”、“嫉妒”的N维矢量来定义关联性。
[0044] 矢量化图表理论除了表示人际关系的关联性之外,例如也可以在互联网的网络中将网页的链接关系矢量化、或者可以在用户与商品的关系中将用户的购买动机矢量化。
[0045] 利用本发明的矢量化图表理论生成的矢量化图表数据可以被转换为用于其他图表理论的图表数据。例如,参照矢量化图表数据,对表示该节点间的矢量进行某种内积计算,由此能够计算出用于加权图表理论的图表数据。另外,通过计算加权图表理论的图表数据的阈值,能够计算出用于通常的图表理论的图表数据。在图6中示出该变化的一例。取各关系矢量与信赖矢量内积,将得到的标量作为各关系的信赖值,由此能够进行从图6的(A)所示那样的矢量化图表理论向表示图6的(B)所示的信赖的加权图表理论的转换。此时,信赖矢量可以使用在计算词矢量等矢量数据的过程中得到的矢量。由此,能够得到表示信赖程度的加权图表。同样地,在向图6的(C)所示的讨厌的图表转换的情况下,通过取各关系与讨厌的矢量的内积,能够得到表示讨厌的程度的图表。这里,节点A、B之间的矢量是“喜欢”,与“讨厌”正相反,因此两者的矢量的内积变小。这样,能够从矢量化图表转换为表示各种关系的图表。
[0046] 并且,本发明的矢量化图表理论也可以转换成表示情感和关系的强度的图表理论。例如,在存在图7的(A)所示那样的矢量化图表时,通过取各关系矢量与自身的内积,能够仅提取出图7的(B)所示那样的节点间的情感和关系的强度。
[0047] 图8是说明本发明的矢量化图表理论的转换关系的图。如该图所示,通过对本发明的矢量化图表10进行某种内积计算,能够转换为加权图表20,加权图表20可以通过阈值计算而被转换为通常的图表30。应注意到该转换可以从上位朝向下位,而无法从下位转换为上位。
[0048] 由于本发明的矢量化图表理论能够记述复杂的或多义性的关系,因此也能够记述现有的图表理论中困难的跨越多个层次的关系。图9是跨越三个层次的情况下的关系图。例如,考虑了下位层(节点40-7、40-8、40-9)为硬件,中间层(节点40-4、40-5、40-6)为软件,上位层(节点40-1、40-2、40-3)为用户等的情况。
[0049] 在图10中示出上述跨越多个层次的矢量化图表理论的具体例。例如,用户A操作浏览器,该浏览器预安装在个人计算机PC的操作系统OS上,操作系统安装在个人计算机PC中,个人计算机PC与服务器进行通信,另外,音频/视频AV监视操作系统OS。并且,用户A操作应用程序,该应用程序安装在智能手机A上。用户B操作应用程序,该应用程序安装在智能手机B上,在智能手机A、B间进行无线通信,用户C管理服务器。能够通过矢量化图表理论来表示这样的多个层次间的关联性。
[0050] 本发明的矢量化图表理论通过1个或多个计算机装置、或者经由网络连接的计算机装置或服务器中的硬件,软件、或者软件与硬件的组合来实施。
[0051] 实施例
[0052] 接下来,对本发明的实施例进行说明。图11是示出本发明的实施例的利用了矢量化图表理论的分析系统的整体结构的框图。本实施例的分析系统100包含学习用数据110、评价用数据120、矢量化模块130、矢量化图表数据140、矢量化图表分析模块150、图表转换模块160、图表数据170以及图表分析模块180。在某一实施方式中,分析系统100通过通用的计算机装置来实施,该计算机装置具有存储器等存储介质、用于执行软件/程序等的处理器等。另外,在某一实施方式中,在分析系统100中,一个或多个计算机装置经由网络等与一个或多个服务器连接,从而计算机装置能够与保存在服务器中的功能协作,来对各种事件执行利用了图表理论的分析。在一个实施方式中,计算机装置能够执行用于执行矢量化模块130、图表转换模块160、矢量化图表分析模块150以及图表分析模块180的功能的软件/程序,并从显示器等显示单元输出节点间的关联性的分析结果。
[0053] 学习用数据110是用于分析系统100的学习的数据。例如,分析系统100的矢量化模块130获取学习用数据110,通过对获取到的学习用数据进行机器学习处理,生成从词矢量等得到的矢量数据(例如,用矢量表示单词间的语义相似关系的数据),并将该矢量数据保存在字典中。通过执行各种学习功能,提高了分析效率和分析精度。例如,在分析系统100对复杂的人际关系等进行分析的情况下,期望对为此而需要的学习用数据进行处理,并具有为此的矢量数据。学习用数据110是从数据库或存储介质中读出、或者从外部(例如,经由存储装置或网络的资源等)取入的数据。学习数据110例如是用于生成上述N维矢量的文档数据。例如,如图12的(A)所示,使用蓝天文库的文章、维基百科(wikipedia)的文档、语料库等各种信息和介质。
[0054] 另一方面,评价用数据120是由分析系统100进行分析的数据,从存储介质读出、或者从外部(例如,经由存储装置或网络的资源等)取入。作为一例,在进行人际关系的分析的情况下,评价用数据120例如像图12的(B)所示那样是出现多个人物并在其中记载了各种信息的交换的电子邮件(或者是SNS或公告板等的聊天或写入)。
[0055] 矢量化模块130根据评价用数据120进行人际关系的类推。使用所生成的N维矢量数据将该类推后的关系矢量化。在一个例子中,对从A先生向B先生的邮件进行词素分析,将全部单词的平均矢量视为A先生与B先生的关系以及关系矢量。从保存在上述字典中的矢量数据中提取与该关系矢量最接近的矢量,将该矢量所表示的关系视为A先生与B先生的关系。由于是从A先生向B先生的邮件,因此假定在邮件的全部文章中使用了与两者的关系相关的单词。因此,根据所有单词的平均矢量类推A先生和B先生的关系。另外,从A先生向B先生的邮件例如也可以通过从多个接收邮件中识别发送者的姓名、接收者的姓名来提取。
[0056] 在由矢量化模块130处理学习用数据110时,其学习结果作为矢量数据保存在字典中。在图13的(A)中示出保存在字典中的矢量数据的一例。字典数据包含用于用N维对表示节点间的关联性的单词进行矢量化的矢量数据。例如,参照保存在字典中的“喜欢”这样的单词的N维矢量数据,生成图13的(B)所示那样的表示源与目的地的节点间的关系的N维矢量化图表数据。
[0057] 在由矢量化模块130处理评价用数据120时,矢量化模块130参照保存在字典中的矢量数据,提取表示评价用数据120的节点间的关联性的N维矢量,即,生成用N维对源与目的地的关系进行矢量化后的矢量化图表数据。图13的(B)是矢量化图表数据的一例,由N维矢量定义源和目的地。生成的矢量化图表数据保存在存储介质中,然后,由矢量化图表分析模块150进行分析。
[0058] 在图14中示出矢量化模块130的动作流程。在分析系统100执行学习功能的情况下,矢量化模块130收集学习用数据110(S100),根据收集到的数据生成矢量数据(S102),将生成的矢量数据保存在字典中(S104)。
[0059] 另一方面,在分析系统100对评价用数据进行分析的情况下,矢量化模块130收集评价用数据120(S110),根据收集到的数据制成现有型的图表数据(S112)。现有型的图表例如是像图15的(A)所示那样表示源与目的地的关系的图表、或者是像图15的(B)所示那样用加权表示源与目的地的关系的加权图表,是未用N维进行矢量化的图表。接下来,矢量化模块130参照保存在字典中的矢量数据,对节点间的预测的关系进行矢量化(S116),将该矢量分配给已制成的现有型的图表,生成N维矢量化图表数据(S118)。所生成的矢量化图表数据被提供给矢量化图表分析模块150,在那里进行分析。
[0060] 在图16中示出了矢量化模块130的具体动作流程。在执行学习功能时,矢量化模块130收集学习用文本文件(S200)。执行词矢量而生成矢量数据(S202),将生成的矢量数据保存在字典中(S204)。另外,在执行分析时,矢量化模块130收集评价用电子邮件(S210),制成发送者与接收者之间的图表(S212)。根据发送者与接收者间的电子邮件的文章来预测关系(S214),参照字典将预测的关系矢量化(S216),将关系矢量分配给已制成的图表,生成矢量化图表(S218)。
[0061] 接下来,对图表转换模块160进行说明。图17的(A)是通过图表转换模块160提取关系时的动作流程。关系的提取例如是图6的(B)、的(C)所示那样的信赖图表或讨厌图表的提取。图表转换模块160输入从由矢量化模块130生成的矢量数据中提取的提取矢量(S300)。提取矢量例如在生成信赖图表的情况下,是图6的(A)的信赖矢量。接下来,图表转换模块
160计算提取矢量与全部关系矢量的内积(S302),制成以上述内积作为权重的加权图表(S304)。
[0062] 图17的(B)是通过图表转换模块160提取关系强度时的动作流程。关系强度的提取例如是图7所示那样的仅情感强度的提取。在该情况下,图表转换模块160计算各关系矢量与自身的内积(S310),接下来,制成以上述内积作为权重的加权图表(S312)。
[0063] 图表转换模块160的转换结果作为图表数据170保存在存储介质中。如图15的(A)、图15的(B)所示,图表数据170是未被矢量化的通常的图表数据、加权后的加权图表数据。
[0064] 图表分析模块180根据图表数据170来分析图表。在图18中示出图表分析模块180的动作流程的一例。在图表理论中,有“密度”这样的指标,图18是对其进行计算的流程。图表分析模块180输入图表数据170(S400),根据所输入的图表数据获取节点数(S402),并且获取边缘数(S404),根据上述节点数和边缘数计算密度(S406)。密度的计算用density=m/n(n-1)表示。n是节点数,m是边缘数。
[0065] 矢量化图表分析模块150根据矢量化图表数据140来分析矢量化图表。在图19中示出本实施例的矢量化图表分析模块190的动作流程的一例。这里,是求出取全部关系矢量的平均而得的平均矢量的例子。例如,在分析对象是组织内的人际关系时,根据平均矢量可知组织内的均衡后的关系。
[0066] 矢量化图表分析模块150输入矢量化图表数据140(S500),根据输入的矢量化图表数据计算全部关系矢量的平均矢量(S502)。关系矢量是表示节点间的关系的矢量。接下来,矢量化图表分析模块150从字典数据中获取与上述平均矢量相似的矢量(S504),提取相似的矢量的单词(S506)。根据该单词,例如可知组织内的平均关系。
[0067] 本发明的矢量化图表理论除了上述说明以外,还可以进行向现有的图表理论的应用。例如,关于指数,可以应用于节点(次数)、部分/根(次数、距离)、图表(密度、相互性、推移性)、图表间(同型),关于问题,可以应用于节点(排序问题、分类)、部分/根(聚类、链路预测、最小生成树问题、最短路径问题)、图表(顶点着色问题)。
[0068] 以上,对本发明的优选实施方式进行了详细说明,但本发明并不限于特定的实施方式,在权利要求书所记载的发明的主旨的范围内可以进行各种变形、变更。
[0069] 标号说明
[0070] 100:分析系统;110:学习用数据;120:评价用数据;130:矢量化模块(模块);140:矢量化图表数据;150:矢量化图表模块;160:图表转换模块;170:图表数据;180:图表分析模块。