UGC质量的监控方法、装置、终端设备及存储介质转让专利

申请号 : CN202010719157.5

文献号 : CN111797238A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘慧芳

申请人 : 深圳壹账通智能科技有限公司

摘要 :

本申请适用于人工智能技术领域,提供了UGC质量的监控方法、装置、终端设备及存储介质,包括:获取目标用户的UGC数据;提取UGC数据的文本特征和非文本特征;将文本特征和非文本特征组成联合特征;将联合特征输入训练后的预设分类器,得到预设分类器输出的分类结果;根据分类结果与UGC质量的预设对应关系,确定UGC数据的UGC质量。通过将文本特征和非文本特征组成联合特征,有效避免当前采用关键词监控UGC质量的方式所导致的特征稀疏性问题,提高UGC质量结果的准确度,并结合SVM分类器等解决非线性分类问题,使得监控结果更加准确。

权利要求 :

1.一种UGC质量的监控方法,其特征在于,包括:获取目标用户的UGC数据;

提取所述UGC数据的文本特征和非文本特征,所述文本特征包括词语特征和主题特征,所述非文本特征包括语言学特征和社会学特征;

将所述文本特征和所述非文本特征组成联合特征;

将所述联合特征输入训练后的预设分类器,得到所述预设分类器输出的分类结果;

根据所述分类结果与UGC质量的预设对应关系,确定所述UGC数据的UGC质量。

2.如权利要求1所述的监控方法,其特征在于,所述UGC数据包括UGC文本数据和UGC行为数据,所述获取目标用户的UGC数据,包括:获取目标用户的账号信息;

根据所述账号信息,获取记录在所述账号信息上的所述UGC文本数据,以及获取描述所述UGC文本数据的数据属性的UGC行为数据。

3.如权利要求2所述的监控方法,其特征在于,所述提取所述UGC数据的文本特征和非文本特征,包括:对所述UGC数据中的UGC文本数据进行特征提取,获得所述UGC数据的词语特征和主题特征;

对所述UGC数据中的UGC文本数据进行统计学分析,提取所述UGC数据的语言学特征;

对所述UGC数据中的UGC行为数据进行统计学分析,提取所述UGC数据的社会学特征。

4.如权利要求1所述的监控方法,其特征在于,所述将所述文本特征和所述非文本特征组成联合特征,包括:将所述文本特征和所述非文本特征映射到预设的高维特征空间;

将在所述高维特征空间中的所述文本特征和所述非文本特征进行连接,得到所述联合特征。

5.如权利要求1所述的监控方法,其特征在于,所述将所述文本特征和所述非文本特征组成联合特征之前,还包括:对所述文本特征和所述非文本特征进行去噪处理;

若去噪后的文本特征和去噪后的非文本特征均符合预设条件,则将所述文本特征和非文本特征组成联合特征,所述预设条件为所述文本特征包含预设关键字或所述非文本特征包含预设属性。

6.如权利要求1-5任一项所述的监控方法,其特征在于,所述预设分类器的训练过程,包括:获取由多个用户的UGC数据组成的训练集;

对预设数量的所述用户的所述UGC数据进行标注,得到标注训练集和未标注训练集,所述预设数量小于所述用户的总数量;

S1,基于所述标注训练集,对预设的第一分类器进行训练,得到第二分类器;

S2,通过所述第二分类器对所述未标注训练集中的UGC数据进行分类,将所述第二分类器所分类的置信度大于预设置信度的UGC数据加入所述标注训练集,得到新的标注训练集;

重复执行所述S1和S2,直至所述未标注训练集全部被标注为新的标注训练集,得到所述训练后的预设分类器。

7.如权利要求6所述的监控方法,其特征在于,所述通过所述第二分类器对所述未标注训练集中的UGC数据进行分类,将所述第二分类器所分类的置信度大于预设置信度的UGC数据加入所述标注训练集,得到新的标注训练集,包括:将所述未标注训练集中的UGC数据输入所述第二分类器,输出分类结果;

将所述分类结果中置信度最高的若干个正例和置信度最高的若干个负例加入到标注训练集,得到所述新的标准训练集。

8.一种UGC质量的监控装置,其特征在于,包括:获取模块,用于获取目标用户的UGC数据;

提取模块,用于提取所述UGC数据的文本特征和非文本特征,所述文本特征包括词语特征和主题特征,所述非文本特征包括语言学特征和社会学特征;

组成模块,用于将所述文本特征和所述非文本特征组成联合特征;

分类模块,用于将所述联合特征输入训练后的预设分类器,得到所述预设分类器输出的分类结果;

确定模块,用于根据所述分类结果与UGC质量的预设对应关系,确定所述UGC数据的UGC质量。

9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。

说明书 :

UGC质量的监控方法、装置、终端设备及存储介质

技术领域

[0001] 本申请属于人工智能技术领域,尤其涉及UGC质量的监控方法、装置、终端设备及存储介质。

背景技术

[0002] 用户生成内容(User Generated Content,UGC)为用户通过互联网平台进行展示或者提供给其他用户的内容。为保证互联网的健康发展,社交平台会对UGC质量进行监控。目前,主要通过识别UGC的关键词来对UGC质量进行监控,如识别UGC是否存在反动、辱骂等不和谐含义的关键词,但这样得到的UGC质量监控结果的准确性非常低。若设置过多的关键词,这样很容易将高质量UGC识别为低质量UGC,非常影响用户体验;若设置过少的关键词,则无法全面识别低质量UGC,依然影响用户体验。

发明内容

[0003] 本申请实施例提供了UGC质量的监控方法、装置、终端设备及存储介质,可以解决UGC质量监控结果的准确性低的问题。
[0004] 第一方面,本申请实施例提供了一种UGC质量的监控方法,包括:
[0005] 获取目标用户的UGC数据;
[0006] 提取UGC数据的文本特征和非文本特征,文本特征包括词语特征和主题特征,非文本特征包括语言学特征和社会学特征;
[0007] 将文本特征和非文本特征组成联合特征;
[0008] 将联合特征输入训练后的预设分类器,得到预设分类器输出的分类结果;
[0009] 根据分类结果与UGC质量的预设对应关系,确定UGC数据的UGC质量。
[0010] 本申请实施例通过提取UGC数据的文本特征和非文本特征,将文本特征和非文本特征组成联合特征,从而提取UGC数据的线性特征和非线性特征,并将线性特征与非线性特征结合,进而有效避免当前采用关键词监控UGC质量的方式所导致的特征稀疏性问题,提高UGC质量结果的准确度;将联合特征输入训练后的预设分类器,得到预设分类器输出的分类得分,根据分类得分与UGC质量的预设对应关系,确定UGC数据的UGC质量,从而可以结合SVM分类器等解决非线性分类问题,使得监控结果更加准确。
[0011] 第二方面,本申请实施例提供了一种UGC质量的监控装置,包括:
[0012] 获取模块,用于获取目标用户的UGC数据;
[0013] 提取模块,用于提取UGC数据的文本特征和非文本特征,文本特征包括词语特征和主题特征,非文本特征包括语言学特征和社会学特征;
[0014] 组成模块,用于将文本特征和非文本特征组成联合特征;
[0015] 分类模块,用于将联合特征输入训练后的预设分类器,得到预设分类器输出的分类结果;
[0016] 确定模块,用于根据分类结果与UGC质量的预设对应关系,确定UGC数据的UGC质量。
[0017] 第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的UGC质量的监控方法。
[0018] 第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的UGC质量的监控方法。
[0019] 第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的UGC质量的监控方法。
[0020] 可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

附图说明

[0021] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0022] 图1是本申请一实施例提供的UGC质量的监控方法的流程示意图;
[0023] 图2是本申请另一实施例提供的UGC质量的监控方法的流程示意图;
[0024] 图3是本申请一实施例提供的预设分类器的训练过程的流程示意图;
[0025] 图4是本申请一实施例提供的分类结果示意图;
[0026] 图5是本申请实施例提供的UGC质量的监控装置的结构示意图;
[0027] 图6是本申请实施例提供的终端设备的结构示意图。

具体实施方式

[0028] 以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0029] 应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0030] 还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0031] 如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0032] 另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0033] 在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0034] 如背景技术相关记载,目前主要通过提取UGC中的关键词并根据关键词对UGC质量进行监控。但是关键词只是UGC的一个显性特征,其无法涵盖UGC的所有特征信息,而且若设置过多的关键词,很容易将高质量UGC识别为低质量UGC,非常影响用户体验,若设置过少的关键词,则无法全面识别低质量UGC,依然影响用户体验。因此只根据关键词监控UGC质量会存在特征稀疏性问题,从而得到的UGC质量监控结果的准确性差。
[0035] 因此,本申请实施例提出一种UGC质量的监控方法,实现将UGC数据的文本特征和非文本特征组成联合特征,从而提取UGC数据的线性特征和非线性特征,并将线性特征与非线性特征结合,进而有效避免当前采用关键词监控UGC质量的方式所导致的特征稀疏性问题,提高UGC质量结果的准确度;将联合特征输入训练后的预设分类器,得到预设分类器输出的分类得分,根据分类得分与UGC质量的预设对应关系,确定UGC数据的UGC质量,从而可以结合SVM分类器等解决非线性分类问题,使得监控结果更加准确
[0036] 图1示出了本申请提供的UGC质量的监控方法的示意性流程图,作为示例而非限定,该方法可以应用于终端设备,该终端设备包括但不限于手机、平板电脑、可穿戴设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或个人数字助理(personal digital assistant,PDA)、服务器等终端设备,本申请实施例对终端设备的具体类型不作任何限制。
[0037] S101,获取目标用户的UGC数据;
[0038] 在上述S101中,上述UGC数据包括用户在使用互联网时进行内容创建、发布、转发、评论、收藏等行为相关的UGC总和。可选地,可根据目标用户的账号信息,获取目标用户在互联网上作出所有互联网行为分别对应的UGC数据,也可以只获取目标用户在互联网上的部分互联网行为对应的UGC数据。进一步地,可以通过独热编码方式将UGC数据编码为UGC向量,从而使得采用文字、数字等字符表示的UGC数据变成向量矩阵表示,以便于后续特征提取。
[0039] S102,提取UGC数据的文本特征和非文本特征,文本特征包括词语特征和主题特征,非文本特征包括语言学特征和社会学特征;
[0040] 在上述S102中,上述文本特征可以包括词语特征和主题特征。词语特征为UGC文本中的关键词所表示的特征,其可以用于识别UGC是否存在反动、辱骂等不和谐的敏感词汇。主题特征为UGC文本的主题所表示的特征,其可以用于识别UGC是否涉及敏感主题,如政治、历史、经济等,其中政治主题出现反动含义的UGC的概率比较大。其中词语特征可以通过向量空间模型提取得到,主题特征可以通过LDA主题模型提取得到。应理解,上述向量空间模型和LDA主题模型不作为本申请的限定。
[0041] 上述非文本特征可以包括语言学特征和社会学特征。语言学特征为UGC文本所的字符数量所表示的特征,如文本长度、词密度、高频词数量、重复词数量等,其可以用于识别UGC数据是否出现转发或广告宣传等信息。社会学特征为UGC数据对应的用户所反映的特征,如用户发布UGC数据的时间和方式、该用户的信誉等,其可以用于识别发布该UGC数据的用户是否为机器人。其中上述语言学特征和社会学特征可以通过统计学模型统计得到。
[0042] S103,将文本特征和非文本特征组成联合特征;
[0043] 在上述S103中,由于文本特征与非文本特征是描述同一UGC的两种不同属性的特征,为了使两种特征更好的协同监控UGC质量,所以需要将文本特征与非文本特征融合为新的特征。文本特征与非文本特征之间存在非线性关系,为了使非线性特征可分,可选地,可通过将文本特征和非文本特征映射到一个新的特征空间,将在该新的特征空间中的文本特征和非文本特征进行连接后得到联合特征。
[0044] S104,将联合特征输入训练后的预设分类器,得到预设分类器输出的分类结果;
[0045] 在上述S104中,上述预设分类器可以是支持向量机(Support VectorMachine,SVM)分类器,也可以是逻辑回归(Logistic Regression,LR)分类器。优选为SVM分类器,其可以很好的解决UGC数据中的非线性问题,使得分类结果更加准确。其中上述SVM分类器包括线性SVM分类器和非线性SVM分类器,线性SVM分类器对低维度的UGC数据进行分类,非线性SVM分类器对高维度的UGC数据进行分类。可以理解的是,低维度为UGC数据中的属性数量小于预设值,高维度为UGC数据的属性数量大于等于预设值。例如,UGC数据为:用户A发布的一条微博动态“小明是个神经病”,该UGC数据包含对象(用户A)和情感特征(小明是个神经病)2个属性;又例如,UGC数据为:用户A在下午3点用手机发布一条微博动态“小明是个神经病”,该UGC数据包含对象(用户A)、时间(下午3点)、发布方式(手机)、情感特征(小明是个神经病)4个属性。通过线性SVM分类器对低维度UGC数据进行分类,可以提高UGC数据的分类速度;通过非线性SVM分类器对高维度UGC数据进行分类,可以避免随着数据维度的增加,计算量呈指数倍增长,从而避免计算成本的增长,解决了高维度数据带来的维度灾难问题。
[0046] 上述分类结果为一个分类值,具体为特定区间内的一个数值,例如,线性SVM分类器的分类结果为[-1,1]区间内的值。
[0047] S105,根据分类结果与UGC质量的预设对应关系,确定UGC数据的UGC质量。
[0048] 在上述S105中,对UGC质量划分质量等级,每个质量等级对应一个分类值范围,根据分类值所在的分类值范围确定UGC数据的质量等级。
[0049] 在一种可能实现的方式中,上述UGC数据包括UGC文本数据和用于表征发布UGC文本数据的用户行为的UGC行为数据,上述S101包括S1011和S1012。
[0050] S1011,获取目标用户的账号信息;
[0051] S1012,根据账号信息,获取记录在账号信息上的UGC文本数据,以及获取描述所述UGC文本数据的数据属性的UGC行为数据。
[0052] 在上述S1011和S1012中,上述数据属性为描述UGC文本的发布时间、发布方式、发布地点等发布行为的数据属性。一般而言,由于用户对他人的内容进行评论时的评论内容没有作为单独的UGC数据出现在用户本人的社交账号上,所以为了降低采集某个用户的UGC数据时的复杂性,UGC数据优选为出现于用户的社账号上的UGC行为的总和,即内容原创、内容转发并评论的行为。应理解,当目标用户的账户信息上记录了所有UGC数据(即还包括用户对他人的内容进行评论时的评论内容),也可以获取所有的UGC数据。
[0053] 图2示出了本申请实施例提供的另一种UGC质量的监控方法的流程性示意图,需要说明的是,与图1实施例相同的步骤,此处不再赘述。
[0054] 如图2所示,在一种可能实现的方式中,上述UGC数据包括UGC文本数据和用于表征发布所述UGC文本数据的用户行为的UGC行为数据,文本特征包括词语特征和主题特征,非文本特征包括语言学特征和社会学特征;相应地,上述S102包括S201至S203:
[0055] S201,对UGC数据中的UGC文本数据进行特征提取,获得UGC数据的词语特征和主题特征;
[0056] 在上述S201中,特征提取可以包括语义分析和语法分析。可以通过向量空间模型对UGC文本进行语法分析,得到词语特征。例如设文本集合D={di|i=1,2,...,m},词表W={wj|j=1,2,...,n},其中m和n分别表示文本数目和词表大小,因此每个文本的向量空间模型可以表示为di={wi1,wi2,...,wij},其中wij表示第i个文本中的第j个词语的特征权重。
[0057] 可以通过LDA主题模型对UGC文本进行语义分析,得到主题特征。其将文本看做是若干个主题的多项分布,而每个主题又是文本集合中词语的多项分布,并且主题分布和词语分布符合狄里克莱分布。
[0058] S202,对UGC数据中的UGC文本数据进行统计学分析,提取UGC数据的语言学特征;
[0059] 在上述S202中,可以在经过上述语法分析和/或语义分析后,通过数理统计的方式统计UGC数据中文本的文本长度、关键词个数、词密度、句子个数、高频主题词汇个数、重复词汇个数等等,可选地,对统计后得到的结果进行向量编码,得到语言学特征。
[0060] S203,对UGC数据中的UGC行为数据进行统计学分析,提取UGC数据的社会学特征。
[0061] 在上述S203中,可以通过统计的方式统计UGC数据对应的用户行为的社会学特征,如用户发布UGC的时间、地点和方式、发布该UGC的用户的信誉等等。具体地,社会学特征可以如下表的行为属性所示。
[0062]
[0063]
[0064] 如图2所示,在一种可能实现的方式中,上述S103,包括S204和S205。
[0065] S204,将文本特征和非文本特征映射到预设的高维特征空间;
[0066] S205,将在高维特征空间中的文本特征和非文本特征进行连接,得到联合特征。
[0067] 在上述S204和S205中,由于文本特征和非文本特征存在非线性相关,在低维特征空间内难于对两者进行分类,因此将两者映射到高维特征空间,以在高维特征空间内对两者进行分类。具体地,可通过非线性映射函数将文本特征和非文本特征映射到高维空间,映射函数 : 其中 表示更高维的希尔伯特空间(Hilbertspace)。为了避免维度灾难问题,通过核函数将文本特征和非文本特征进行连接,K(xi,x)为Mercer理论的核函数K,即 和 是非线性映射函数 将x映射到高维特
征空间后的数据,核函数K能够避免高维空间点积 的复杂运算。
[0068] 在一种可能实现的方式中,上述S103之前,还包括S1031和S1032。
[0069] S1031,对文本特征和非文本特征进行去噪处理;
[0070] S1032,若去噪后的文本特征和去噪后的非文本特征均符合预设条件,则将文本特征和非文本特征组成联合特征,预设条件为文本特征包含预设关键字或非文本特征包含预设属性。
[0071] 在上述S1031中,上述去噪处理为根据UGC特征初步识别UGC数据是否存在不符合规范的内容,若是,则判定符合预设条件。上述预设关键字可以是与辱骂、政治等相关的敏感词汇,上述预设属性为描述文本特征的发布时间、发布方式、发布地点等属性。如UGC数据中包含的广告、抄袭他人信息、辱骂他人和低俗信息等内容时,判定UGC数据存在不符合规范的内容。例如UGC数据为用户A原创的一条微博动态:小明是个神经病,则可以根据关键词“神经病”初步识别出该动态含有辱骂他人的信息,并判定该动态存在不符合规范的内容,或者根据与广告相关的关键词初步识别出含有广告信息的UGC数据。
[0072] 在上述S1032中,若文本特征和非文本特征在初步识别后存在上述不符合规范的内容,则文本特征和非文本特征均符合预设条件。本实施例通过预处理实现对UGC数据进行初步UGC质量识别,可以有针对性的对特定的UGC数据进行UGC质量识别,从而提高识别效率和降低计算量。
[0073] 图3示出了本申请实施例提供的预设分类器的训练过程的流程性示意图。应理解,与图1实施例相同的步骤,此处不再赘述。
[0074] S301,获取由多个用户的UGC数据组成的训练集;
[0075] 在上述S301中,优选地,由于用户对他人的内容进行评论时的评论内容没有作为单独的UGC出现在用户本人的社交账号上,所以为了降低采集某个用户的UGC数据时的复杂性,UGC数据优选为出现于用户的社账号上的UGC行为的总和,即内容原创、内容转发并评论的行为。应理解,还可以获取用户对他人的内容进行评论时的评论内容作为UGC数据的一部分。
[0076] S302,对预设数量的用户的UGC数据进行标注,得到标注训练集和未标注训练集,所述预设数量小于所述用户的总数量;
[0077] 在上述S302中,由于人工标注导致用户工作量变大和准确度降低,因此采用协同训练的方式对部分训练集进行人工标注,并通过分类器对人工标注后的训练集进行训练,再通过训练过标注训练集的分类器对未标注的训练集进行标注。
[0078] S303,基于标注训练集,对预设的第一分类器进行训练,得到第二分类器;
[0079] 在上述S303中,第一分类器可以是支持向量机(Support Vector Machine,SVM)分类器,也可以是逻辑回归(Logistic Regression,LR)分类器。其中SVM分类器包括线性SVM分类器和非线性SVM分类器。根据第一分类器对标注训练集进行训练,从而更新第一分类器的模型参数(即w和b),得到第二分类器。
[0080] 具体地,上述线性SVM分类器包括超平面g(x)=w·x+b=0,由最优超平面定义的分类决策函数f(x)=sgn(g(x)),对所有样本正确分类的约束条件yi[(w·xi)+b]-1≥0,i=1,…,n;其中x为UGC数据,xi∈Rd,R为实数,d为维度,y为学习目标二元变量(即线性SVM分类器的分类结果),y∈{-1,1},i为用户数量,w为超平面的法向量,b为超平面的常数项,w和b在分类器进行模型训练时得到,通过模型训练得到最优的w和b决定了分类超平面的最优超平面。
[0081] 具体地,如图4所示,线性SVM分类器将UGC数据所在的特征空间作为决策边界的超平面(w·xi)+b=0,将(w·xi)+b=1和(w·xi)+b=-1作为间隔边界,超平面将异常UGC和正常UGC分开,其中间隔边界(w·xi)+b=-1以下的为异常UGC(即图4中的空心圆圈所表示的UGC数据为不符合规范的UGC数据)。
[0082] 上述非线性SVM分类器为将非线性数据集映射到高维特征空间,在高维特征空间实现数据的线性可分,其判别函数可以为:
[0083]
[0084] 进一步地,本实施例在解决线性不可分问题时,通过引入一个非负的松弛因子ξi∈R实现问题的求解,即 s.t.yi(w·xi+b)≥1-ξi,i=1,2,…,n.式中,C表示惩罚系数,其值越大表示对错误分类的惩罚越大,上式的求解可通过如下的二次规划来实现:
其中,αi表示(1)第i个约束的拉格朗日
乘子。
[0085] S304,通过第二分类器对未标注训练集中的UGC数据进行分类,将第二分类器所分类的置信度大于预设置信度的UGC数据加入所述标准训练集,得到新的标注训练集;
[0086] 在上述S304中,根据第二分类器对未标注训练集中的UGC数据进行预判性分类,从而实现对UGC数据进行标注。具体地,将未标注训练集中的UGC数据输入第二分类器,第二分类器对UGC数据进行分类,得到分类结果,并计算该分类结果的置信度,将置信度最高的分类结果作为该UGC数据的标注,并将该UGC数据根据分类结果标注后加入到标注训练集,得到新的标注训练集。
[0087] S305,重复执行S303和S304,直至未标注训练集全部被标注为新的标注训练集,得到训练后的预设分类器。
[0088] 在上述S305中,将新的标注训练集通过更新后的第一分类器(即第二分类器)进行训练,并再次更新第一分类器的模型参数,得到新的第二分类器,新的第二分类器对未标注训练集进行标注,得到新的标注训练集,多次循环训练和标注,直至未标注训练集全部被标注为新的标注训练集,得到训练后的预设分类器。
[0089] 可选地,上述S304包括S3041和S3042。
[0090] S3041,将未标注训练集中的UGC数据输入第二分类器,输出分类结果;
[0091] S3042,将分类结果中置信度最高的若干个正例和置信度最高的若干个负例加入到标注训练集,得到新的标准训练集。
[0092] 在上述S3041和S3042中,上述正例为分类结果是非异常UGC数据(即符合上述规范),负例为分类结果是异常UGC数据(即不符合上述规范),置信度最高即分类结果的最可信程度。其中,上述正例和负例的数量由输入到第二分类器的UGC数据的数量确定,即正例数量+负例数量=输入第二分类器的UGC数据的数量。
[0093] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
[0094] 对应于上文实施例所述的UGC质量的监控方法,图5示出了本申请实施例提供的UGC质量的监控装置500的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
[0095] 参照图5,该装置包括:
[0096] 获取模块501,用于获取目标用户的UGC数据;
[0097] 提取模块502,用于提取UGC数据的文本特征和非文本特征,文本特征包括词语特征和主题特征,非文本特征包括语言学特征和社会学特征;
[0098] 组成模块503,用于将文本特征和非文本特征组成联合特征;
[0099] 分类模块504,用于将联合特征输入训练后的预设分类器,得到预设分类器输出的分类结果;
[0100] 确定模块505,用于根据分类结果与UGC质量的预设对应关系,确定UGC数据的UGC质量。
[0101] 需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0102] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0103] 图6为本申请一实施例提供的终端设备的结构示意图。如图6所示,该实施例的终端设备6包括:至少一个处理器60(图6中仅示出一个)处理器、存储器61以及存储在所述存储器61中并可在所述至少一个处理器60上运行的计算机程序62,所述处理器60执行所述计算机程序62时实现上述任意方法实施例中的步骤。
[0104] 所述终端设备6可以是手机、桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括但不仅限于处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的举例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
[0105] 所称处理器60可以是中央处理单元(Central Processing Unit,CPU),该处理器60还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0106] 所述存储器61在一些实施例中可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61在另一些实施例中也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
[0107] 本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
[0108] 本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
[0109] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
[0110] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0111] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0112] 在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0113] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0114] 以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。