一种文档主题确定方法及装置转让专利

申请号 : CN201710301661.1

文献号 : CN107193892B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 赵耕弘张霞赵立军崔朝辉

申请人 : 东软集团股份有限公司

摘要 :

本申请实施例公开了一种文档主题确定方法和装置,实现对目标文档主题的确定。该方法预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词‑标签”条件概率集合,根据所述训练单词集合得到单词概率集合;然后获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词‑标签”条件概率集合中,查找所述目标单词对应的“单词‑标签”条件概率;从所述单词概率集合中,查找所述目标单词对应的词频;根据目标单词对应的“单词‑标签”条件概率和词频,得到所述目标文档对应的“标签‑目标文档”条件概率;根据所述目标文档对应的“标签‑目标文档”条件概率确定所述目标文档的主题。

权利要求 :

1.一种文档主题确定方法,其特征在于,

预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;

所述方法包括:

获取待确定主题的目标文档,以及所述目标文档中的目标单词;

从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;

从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;

根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;

根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题;

其中,所述根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率包括:根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练单词集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;所述每个标签的概率为每个标签在所述标签集合中出现的概率;

根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。

2.根据权利要求1所述的方法,其特征在于,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的抽样概率得到;所述“标签-文档”条件概率包括在所述训练文档集合中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。

3.根据权利要求2所述的方法,其特征在于,所述每个训练文档的抽样概率均为1。

4.根据权利要求1至3任意一项所述的方法,其特征在于,所述根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题包括:从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。

5.一种文档主题确定装置,其特征在于,所述装置包括:

训练单元、获取单元、第一查找单元、第二查找单元、条件概率确定单元和主题确定单元;

其中,所述训练单元,用于预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;

所述获取单元,用于获取待确定主题的目标文档,以及所述目标文档中的目标单词;

所述第一查找单元,用于从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;

所述第二查找单元,用于从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;

所述条件概率确定单元,用于根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;

所述主题确定单元,用于根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题;

其中,所述条件概率确定单元包括:

第一条件概率确定子单元和第二条件概率确定子单元;

其中,所述第一条件概率确定子单元,用于根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练单词集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;所述每个标签的概率为每个标签在所述标签集合中出现的概率;

所述第二条件概率确定子单元,用于根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。

6.根据权利要求5所述的装置,其特征在于,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的抽样概率得到;所述“标签-文档”条件概率包括在所述训练文档集合中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。

7.根据权利要求6所述的装置,其特征在于,所述每个训练文档的抽样概率均为1。

8.根据权利要求5至7任意一项所述的装置,其特征在于,所述主题确定单元,具体用于从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。

说明书 :

一种文档主题确定方法及装置

技术领域

[0001] 本申请涉及大数据领域,尤其涉及一种文档主题确定方法及装置。

背景技术

[0002] 随着信息技术的飞速发展,信息传输的瓶颈已被打破,人们可以方便的接触到海量的信息内容,如何从中快速的了解信息内容,成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,面对大量的文档信息,如何能够通过对文档进行归类,使得用户能够尽快的根据文档的类别找到感兴趣文档,是目前对文档处理的核心内容。
[0003] 文档的主题是对文档进行归类的依据。那么,如何确定一篇文档的主题是目前需要解决的问题。

发明内容

[0004] 为了解决现有技术存在的技术问题,本申请提供一种文档主题确定方法及装置,实现确定文档主题的目的。
[0005] 本申请提供了一种文档主题确定方法,
[0006] 预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
[0007] 所述方法包括:
[0008] 获取待确定主题的目标文档,以及所述目标文档中的目标单词;
[0009] 从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
[0010] 从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
[0011] 根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
[0012] 根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
[0013] 可选的,所述根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率包括:
[0014] 根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;
[0015] 根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
[0016] 可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
[0017] 可选的,所述每个训练文档的概率均为1。
[0018] 可选的,所述根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题包括:
[0019] 从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
[0020] 本申请实施例提供了一种文档主题确定装置,所述装置包括:
[0021] 训练单元、获取单元、第一查找单元、第二查找单元、条件概率确定单元和主题确定单元;
[0022] 其中,所述训练单元,用于预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
[0023] 所述获取单元,用于获取待确定主题的目标文档,以及所述目标文档中的目标单词;
[0024] 所述第一查找单元,用于从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
[0025] 所述第二查找单元,用于从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
[0026] 所述条件概率确定单元,用于根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
[0027] 所述主题确定单元,用于根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
[0028] 可选的,所述条件概率确定单元包括:
[0029] 第一条件概率确定子单元和第二条件概率确定子单元;
[0030] 其中,所述第一条件概率确定子单元,用于根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;
[0031] 所述第二条件概率确定子单元,用于根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
[0032] 可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
[0033] 可选的,所述每个训练文档的概率均为1。
[0034] 可选的,所述主题确定单元,具体用于从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
[0035] 本申请通过预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合。然后,获取待确定主题的目标文档,以及所述目标文档中的目标单词。从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,从所述单词概率集合中,查找所述目标单词对应的词频。接着,根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。最后根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题,实现了对目标文档的主题的确定。

附图说明

[0036] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0037] 图1为本申请实施例一提供的一种文档主题确定方法的流程图;
[0038] 图2为本申请实施例二提供的一种文档主题确定装置的结构框图。

具体实施方式

[0039] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0040] 实施例一:
[0041] 参见图1,该图为本申请实施例一提供的一种文档主题确定方法的流程图。
[0042] 本实施例提供的文档主题确定方法包括如下步骤:
[0043] 步骤S101:预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合和单词概率集合。
[0044] 在本实施例中,文档是指可读的文本,例如网站中的文本信息。文档中的文字不限于中文,还可以为其他语言的文字,例如英文、法文、日文、韩文等等。
[0045] 在本实施例中,文档分为目标文档和训练文档,其中,目标文档为待确定主题的文档,或者说未被进行标签标记的文档;训练文档为携带有标签的文档,即已经确定了其对应主题的文档。所述标签或主题一般用于表示文档的属性、主旨等信息。为了确定所述目标文档的主题,首先需要对训练文档进行训练,以便利用训练得到的结果来确定所述目标文档的主题。
[0046] 对训练文档进行训练所采用的模型为Labeled LDA(Labeled Latent Dirichlet Allocation,附加类别标签的隐含狄利克雷分布)模型,Labeled LDA模型属于主题模型的一种。
[0047] 下面介绍一下主题模型的含义:
[0048] 传统的判断两个文档关联性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF(term frequency–inverse document frequency,词频-逆向文档频率)等。但是这种方法并没有考虑到文字背后的语义关联,有可能两个文档共同出现的单词很少甚至没有,但是两个文档在语义上是关联的。例如,假设有两个句子,这两个句子各自分别表示一个文档。第一个句子是“乔布斯离我们而去了”,第二个句子是“苹果手机的价格会不会降?”。这两个句子虽然并没有相同的单词,但是二者在语义上是相关联的,即都属于主题“苹果公司”。所以,通过对文档语义进行挖掘来获取文档的主题的主题模型应运而生。
[0049] 主题和文档中的单词是相关的,一个单词若在语义上表达一个主题的程度越高,则P(单词|主题)越大;一个单词若在语义上表达一个主题的程度越低,则P(单词|主题)越小。其中P(单词|主题)的含义是在随机选择了某个主题的条件下,某个单词在语义上表达该主题的概率。
[0050] 一篇文档中往往包含若干个单词,每个单词在语义上可以仅与一个主题相关,也可以与多个主题相关。主题模型的基本假设是一篇文档中每个单词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择了该单词”这样一个过程得到的。如果要生成一篇文档,那么它里面的每个单词出现的概率为:
[0051]
[0052] 其中,P(单词|文档)的含义是在随机选择了某个文档的条件下,某个单词出现在该文档中的概率,P(主题|文档)的含义是在随机选择了某个文档的条件下,某个主题属于该文档的主题的概率。
[0053] 上面这个公式可以用矩阵乘法来表示,即C=Φ×θ,其中矩阵C由P(单词|文档)组成,矩阵Φ由P(单词|主题)组成,矩阵θ由P(主题|文档)组成。对于任意一篇文档,由于P(单词|文档)等于P(单词-文档)除以P(文档),P(单词-文档)为某个单词在某篇文档中的词频,P(文档)是随机选择的文档为该文档的概率,通常为1。因此,P(单词|文档)是已知的,而P(单词|主题)和P(主题|文档)未知。主题模型就是通过对大量的文档进行训练,得到矩阵Φ和矩阵θ。
[0054] 在Labeled LDA模型中,需要获取大量的携带有标签的训练文档,形成训练文档集合,其中的标签就相当于训练文档的主题。所述携带有标签的训练文档可以从互联网的网站中爬取得到,例如从某个网站的体育分类中爬取到关于体育的新闻,而这些新闻对应的标签就是体育。一篇训练文档对应的标签可以是一个,也可以是多个。若是多个,那么标签之间在语义上的关系可以是包含关系,也可以是并列关系。举个例子,假设一篇训练文档讲述的有关奥运会给当地带来的经济效益,那么,该训练文档对应的标签可以是“经济”和“体育”两个标签,这两个标签之间在语义上为并列关系。再举个例子,假设另一篇训练文档讲述的与欧冠相关的内容,那么该训练文档对应的标签可以是“体育”和“足球”两个标签,这两个标签在语义上就是包含关系,“体育”包含“足球”。
[0055] 由训练文档携带的标签形成的集合为标签集合。
[0056] 当得到这些训练文档后,获取训练文档的单词,形成单词集合。如果训练文档为中文,则需要对所述训练文档进行分词,以得到训练文档的单词;如果训练文档为英文,则可以直接从训练文档中提取单词。为了提高计算效率,可以将训练文档中的一些没有实际意义的单词删除,例如副词、介词、连词、助词、语气词等,仅保留有实际意义的单词,例如名词、动词、形容词等。
[0057] 根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,可以得到“单词-标签”条件概率集合(即P(单词|标签))和“标签-文档”条件概率集合(即P(标签|文档))。
[0058] 其中,所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率。例如,P(单词A|标签B)的含义是在所述标签集合中随机选取的标签为标签B的条件下,训练单词A在语义上能够表达标签B的概率。假设训练单词A为“奥巴马”,训练单词S为“罗纳尔多”,标签B为美国政治,那么训练单词A“奥巴马”在语义上能够表达标签B的概率高于训练单词S“罗纳尔多”在语义上能够表达标签B的概率。
[0059] 所述“标签-文档”条件概率集合包括在训练文档集合中随机选择的训练文档分别为各个训练文档的条件下,各个标签分别属于各个训练文档的概率。例如,P(标签B|文档C)的含义是在所述训练文档集合中随机选取的训练文档为训练文档C的条件下,标签B为训练文档C的标签的概率。
[0060] 需要说明的是,在基于Labeled LDA模型的训练过程中,每个标签均有表达各个训练文档的可能性,即假设训练文档C的标签仅为标签B,那么在训练过程中,标签B为训练文档C的标签的概率也不会是100%,因为其他标签为训练文档C的标签的概率可能会大于0。例如,一篇与欧冠相关内容的训练文档C,获取该训练文档的时候携带的标签为“体育”,基于训练得到的大于0的P(标签B|文档C)中的标签B,可能不仅包括“体育”,还可能包括“经济”、“足球”等标签。
[0061] 此外,根据所述训练单词集合还可以得到单词概率集合,所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频。例如,若训练单词集合中一共有100个单词,其中有20个训练单词A,则训练单词A的词频为20%。
[0062] 在训练文档被训练完成之后,就可以利用训练得到的结果对目标文档的主题进行确定。
[0063] 步骤S102:获取待确定主题的目标文档,以及所述目标文档中的目标单词。
[0064] 如前文所述,所述目标文档为待确定主题的文档,也就是没有携带有标签的文档。在获取所述目标文档的目标单词时,若所述目标文档为中文,则需要通过分词获得所述目标单词;若所述目标文档为英文,则直接从中提取即可。为了提高计算效率,所述目标单词可以仅包括有实际意义的单词,不包括没有实际意义的单词。
[0065] 步骤S103:从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率。
[0066] 步骤S101中的训练结果中包括“单词-标签”条件概率集合,所以在本步骤中,从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率。
[0067] 所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率。
[0068] 例如,所述目标单词为“奥巴马”,那么从“单词-标签”条件概率集合中查找所有与“奥巴马”对应的“单词-标签”条件概率,即在所述标签集合中随机选择的标签分别为各个标签的条件下,“奥巴马”在语义上能够分别表达标签集合中各个标签的概率。
[0069] 步骤S104:从所述单词概率集合中,查找所述目标单词对应的词频。
[0070] 步骤S101中,根据所述训练单词集合可以得到单词概率集合,所以在本步骤中,从所述单词概率集合中,查找所述目标单词对应的词频。所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频。
[0071] 需要注意的是,若一个根据目标文档得到的单词在训练单词集合中找不到,则该单词不为目标单词,不参与目标文档主题的确定。
[0072] 步骤S105:根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。
[0073] 在本实施例中,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率。
[0074] 具体的,可以首先根据所述目标单词对应的“单词-标签”条件概率P(w|label)、所述目标单词的词频P(w)和每个标签的概率P(label)(w为目标单词,label为标签),得到每个标签的对应的“标签-单词”条件概率P(label|w)。所述“标签-单词”条件概率P(label|w)为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率。需要注意的是,这里的“随机选择”是指服从狄利克雷分布的随机选择。
[0075] 根据贝叶斯公式可以得到:
[0076]
[0077] 其中,所述每个标签的概率P(label)可以根据每个训练文档对应的“标签-文档”条件概率P(label|d)和每个训练文档的概率P(d)得到,即:
[0078] P(label)=∑d∈DP(label|d)P(d)       (2)
[0079] 其中,d表示目标文档,D训练文档集合。
[0080] 所述“标签-文档”条件概率P(label|d)是所述步骤S101训练得到的结果之一。而训练文档的概率P(d)可以先验的被认为服从独立分布(independent and identically distributed,简称i.i.d.),也就是说,每个训练文档的概率相同。为了方便计算,可以将P(d)赋值为1。
[0081] 在计算得到每个标签的对应的“标签-单词”条件概率P(label|w)后,可以根据P(label|w)得到所述目标文档对应的“标签-目标文档”条件概率P(label|d')。具体的,基于贝叶斯理论可以得到如下公式:
[0082]
[0083] 其中,wi为所述目标文档d'中的每个目标单词。
[0084] 步骤S106:根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
[0085] 在本实施例中,可以从所述目标文档对应的“标签-目标文档”条件概率P(label|d')中,选取最大概率对应的标签作为所述目标文档的主题,也可以选择几个较大概率对应的几个标签作为所述目标文档的主题,也就是说,所述目标文档的主题可以是一个,也可以是多个。
[0086] 本实施例通过预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合。然后,获取待确定主题的目标文档,以及所述目标文档中的目标单词。从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,从所述单词概率集合中,查找所述目标单词对应的词频。接着,根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。最后根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题,实现了对目标文档的主题的确定。
[0087] 需要注意的是,上述步骤的执行顺序并不构成对本申请的限定,本领域技术人员还可以根据实际需要自行安排,例如将所述步骤S103和所述步骤S104进行置换。
[0088] 此外,发明人采用央视新闻网站中的目标文档对本实施例提供的文档主题确定方法进行实验,计算通过该方法对目标文档确定的主题以及该央视新闻网站自己对目标文档设置的标签之间的近似程度,最终得到近似程度为92%的结果,表明通过本实施例提供的文档主题确定方法是一个准确率较高的方法。
[0089] 基于以上实施例提供的一种文档主题确定方法,本申请实施例还提供了一种文档主题确定装置,下面结合附图来详细说明其工作原理。
[0090] 实施例二
[0091] 参见图2,该图为本申请实施例二提供的一种文档主题确定装置的结构框图。
[0092] 本实施例提供的文档主题确定装置包括:
[0093] 训练单元101、获取单元102、第一查找单元103、第二查找单元104、条件概率确定单元105和主题确定单元106;
[0094] 其中,所述训练单元101,用于预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;
[0095] 所述获取单元102,用于获取待确定主题的目标文档,以及所述目标文档中的目标单词;
[0096] 所述第一查找单元103,用于从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;
[0097] 所述第二查找单元104,用于从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;
[0098] 所述条件概率确定单元105,用于根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;
[0099] 所述主题确定单元106,用于根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。
[0100] 本实施例通过预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合。然后,获取待确定主题的目标文档,以及所述目标文档中的目标单词。从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,从所述单词概率集合中,查找所述目标单词对应的词频。接着,根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。最后根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题,实现了对目标文档的主题的确定。
[0101] 可选的,所述条件概率确定单元105包括:
[0102] 第一条件概率确定子单元和第二条件概率确定子单元;
[0103] 其中,所述第一条件概率确定子单元,用于根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;
[0104] 所述第二条件概率确定子单元,用于根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。
[0105] 可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。
[0106] 可选的,所述每个训练文档的概率均为1。
[0107] 可选的,所述主题确定单元106,具体用于从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。
[0108] 当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
[0109] 需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0110] 本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0111] 以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。