一种异常账号确定方法和相关装置转让专利

申请号 : CN202010953034.8

文献号 : CN112104642B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘刚

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本申请实施例公开了一种异常账号确定方法和相关装置,至少涉及人工智能中的自然语言处理技术和机器学习/深度学习,以及云计算中的并行数据计算,通过获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,确定所述账号描述信息对应的账号特征,以及所述目标内容对应的内容特征。基于所述账号特征和所述内容特征计算出相似度信息。由此根据待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定出待识别账号是否为异常账号。基于此,通过自动化识别平台内自媒体账号中这类由于发布内容导致定位发散的异常账号,降低了识别成本,提升了识别效率和精度,对平台的整体环境以及订阅用户的阅读体验带来了促进。

权利要求 :

1.一种异常账号确定方法,其特征在于,所述方法包括:获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,所述目标内容为所述待识别账号所发布内容中的一个,所述账号描述信息包括账号名称、账号简介以及账号标签中的任意一个或多个;

确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征,所述账号特征标识待识别账号本身所涉及内容领域的定位特征,所述内容特征标识待识别账号所发布目标内容的内容特征;

计算所述账号特征和所述内容特征间的相似度信息,所述相似度信息标识待识别账号所发布目标内容与账号自身定位的相符程度;

根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号。

2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号,包括:若所述相似度信息不满足第一阈值条件,确定所述目标内容与所述待识别账号的定位不相符;

根据所述待识别账号所发布内容中与所述待识别账号的定位不相符的第一内容数量,确定所述待识别账号是否为异常账号。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述相似度信息满足所述第一阈值条件,确定所述目标内容与所述待识别账号的定位相符;

所述根据所述待识别账号所发布内容中与所述待识别账号的定位不相符的第一内容数量,确定所述待识别账号是否为异常账号,包括:根据所述第一内容数量,和所述待识别账号所发布内容中与所述待识别账号的定位相符的第二内容数量,确定所述待识别账号是否为异常账号。

4.根据权利要求1所述的方法,其特征在于,所述根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号,包括:根据所述待识别账号所发布内容分别对应的相似度信息,确定处于多个相似度区间的内容数量,不同的相似度区间具有分别对应的异常数量阈值;

根据相似度区间分别对应的内容数量,以及分别对应的异常数量阈值,确定所述待识别账号是否为异常账号。

5.根据权利要求4所述的方法,其特征在于,目标区间为所述多个相似度区间中的一个相似度区间,所述根据所述相似度区间分别对应的内容数量,以及分别对应的异常数量阈值,确定所述待识别账号是否为异常账号,包括:若处于目标相似度区间的目标数量达到所述目标区间对应的异常数量阈值,确定所述待识别账号为异常账号。

6.根据权利要求4所述的方法,其特征在于,所述多个相似度区间至少包括第一相似度区间和第二相似度区间,所述第一相似度区间所标识的相似度数值小于所述第二相似度区间所标识的相似度数值,所述第一相似度区间对应的异常数量阈值小于所述第二相似度区间对应的异常数量阈值。

7.根据权利要求1所述的方法,其特征在于,所述确定所述目标内容对应的内容特征,包括:

根据所述目标内容的关键信息,确定所述目标内容对应的内容特征,所述关键信息包括所述目标内容的关键词集合、所述目标内容的标题及分类标签中任意一种或多种的组合。

8.根据权利要求7所述的方法,其特征在于,所述确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征,包括:通过特征匹配模型中的账号提取子模型,确定所述账号描述信息对应的账号特征;

通过所述特征匹配模型中的内容提取子模型,根据所述关键信息确定所述目标内容对应的内容特征;

所述计算所述账号特征和所述内容特征间的相似度信息,包括:通过所述特征匹配模型中的匹配子模型,计算所述账号特征和所述内容特征间的相似度信息。

9.根据权利要求2所述的方法,其特征在于,所述根据所述待识别账号所发布内容中与所述待识别账号的定位不相符的第一内容数量,确定所述待识别账号是否为异常账号,包括:

确定所述待识别账号在考核周期内所发布内容的目标数量,所述考核周期是预先设定或者是根据所述待识别账号的类型确定的;

从所述目标数量的内容中确定与所述待识别账号的定位不相符的第一内容数量,并根据所述第一内容数量确定所述待识别账号是否为异常账号。

10.根据权利要求1‑9任意一项所述的方法,其特征在于,所述方法还包括:获取所述待识别账号所发布的历史内容;

根据所述历史内容对应的历史内容特征,确定与指定账号集合中账号的待定账号特征间的相似度信息,所述指定账号集合中包括所述待识别账号和与所述待识别账号相关的待定账号;

若根据确定的相似度信息所确定的前N个账号中不包括所述待识别账号,将所述待识别账号的历史不匹配数加一;

若所述历史不匹配数符合第二阈值条件,确定所述待识别账号为异常账号。

11.根据权利要求10所述的方法,其特征在于,所述方法还包括:通过特征匹配模型中的账号提取子模型,确定所述指定账号集合中账号对应的待定账号特征;

通过所述特征匹配模型中的内容提取子模型,确定所述历史内容对应的历史内容特征。

12.根据权利要求8所述的方法,其特征在于,所述方法还包括:根据目标账号以及训练内容确定训练样本,所述训练样本中所述训练内容与所述目标账号的定位是否相符是通过样本标签标识的;

根据所述训练样本对所述特征匹配模型进行训练;

在训练过程中,通过所述账号提取子模型确定所述目标账号的目标账号特征,通过内容提取子模型确定所述训练内容的训练内容特征,并通过所述匹配子模型,计算所述目标账号特征和所述训练内容特征间的相似度信息,若根据计算出的相似度信息所确定的定位是否相符结果与所述样本标签不一致,对应调整所述特征匹配模型的模型参数。

13.一种异常账号确定装置,其特征在于,所述装置包括获取单元、确定单元和计算单元:

所述获取单元,用于获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,所述目标内容为所述待识别账号所发布内容中的一个,所述账号描述信息包括账号名称、账号简介以及账号标签中的任意一个或多个;

所述确定单元,用于确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征,所述账号特征标识待识别账号本身所涉及内容领域的定位特征,所述内容特征标识待识别账号所发布目标内容的内容特征;

所述计算单元,用于计算所述账号特征和所述内容特征间的相似度信息,所述相似度信息标识待识别账号所发布目标内容与账号自身定位的相符程度;

所述确定单元,还用于根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号。

14.一种用于异常账号确定的设备,其特征在于,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行权利要求1‑8任意一项所述的方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1‑8任意一项所述的方法。

说明书 :

一种异常账号确定方法和相关装置

技术领域

[0001] 本申请涉及数据处理领域,特别是涉及一种异常账号确定方法和相关装置。

背景技术

[0002] 随着互联网的快速发展,移动社交的新媒体时代应运而生,在新媒体平台中,为用户提供了发声、分享、吐槽、传播的途径,用户可以在平台上发布他们自己原创和搬运来的
内容,这就是自媒体的传播方式。
[0003] 作为内容生产者的用户可以通过自己的自媒体账号在新媒体平台中上传内容,以吸引其他用户的注意力,为平台带来巨大的流量,尤其是优质的内容生产者包括其背后优
质的内容成为这些平台相互追逐的对象。平台为了鼓励优质内容的产生,平台会为自媒体
账号发布的内容,基于内容质量给与相应的激励。
[0004] 在激励的诱惑下,导致自媒体账号会搬运各种热门内容来进行发布,快速换取用户的阅读、转发等来兑换激励。但是,由于自媒体账号本身是具有所涉及内容领域的定位
的,例如军事、育儿、美食等,可很多自媒体账号在发布内容时只关注是否能换取激励,并不
在乎内容本身是否与本账号定位相符,从而导致自媒体账号所发布内容定位发散,非常影
响平台的整体环境和订阅用户的阅读体验。
[0005] 相关技术中,主要通过用户投诉和举报来发现这种定位发散的异常账号,但是处理核实的过程只能通过人工,效率低下。而且,即使被封号,重新注册自媒体账号的门槛也
很低,从而导致这类异常账号难以根除。

发明内容

[0006] 为了解决上述技术问题,本申请提供了一种异常账号确定方法和相关装置,提高了对于经常出现发布内容与账号定位不相符的自媒体账号的识别效率。
[0007] 本申请实施例公开了如下技术方案:
[0008] 一方面,本申请实施例提供了一种异常账号确定方法,所述方法包括:
[0009] 获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,所述目标内容为所述待识别账号所发布内容中的一个;
[0010] 确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征;
[0011] 计算所述账号特征和所述内容特征间的相似度信息;
[0012] 根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号。
[0013] 另一方面,本申请实施例提供了一种异常账号确定装置,其特征在于,所述装置包括获取单元、确定单元和计算单元:
[0014] 所述获取单元,用于获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,所述目标内容为所述待识别账号所发布内容中的一个;
[0015] 所述确定单元,用于确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征;
[0016] 所述计算单元,用于计算所述账号特征和所述内容特征间的相似度信息;
[0017] 所述确定单元,还用于根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号。
[0018] 另一方面,本申请实施例提供了一种用于异常账号确定的设备,所述设备包括处理器以及存储器:
[0019] 所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0020] 所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
[0021] 另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
[0022] 另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使
得该计算机设备执行上述方面所述的方法。
[0023] 由上述技术方案可以看出,通过获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,确定所述账号描述信息对应的账号特征,以及所述目标内容对应的内
容特征。由于该账号特征标识了待识别账号本身所涉及内容领域的定位特征,该内容特征
标识了待识别账号所发布目标内容的内容特征,因此,基于所述账号特征和所述内容特征
计算出的相似度信息标识了待识别账号所发布目标内容与账号自身定位的相符程度。由此
根据待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定出待识别账号是
否为异常账号。基于此,通过自动化识别平台内自媒体账号中这类由于发布内容导致定位
发散的异常账号,降低了识别成本,提升了识别效率和精度,对平台的整体环境以及订阅用
户的阅读体验带来了促进。

附图说明

[0024] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
[0025] 图1为本申请实施例提供的一种异常账号确定方法的应用场景示意图;
[0026] 图2为本申请实施例提供的一种异常账号确定方法的流程示意图;
[0027] 图3为本申请实施例提供的一种特征匹配模型的结构示意图;
[0028] 图4为本申请实施例提供的一种特征匹配模型训练方法的流程示意图;
[0029] 图5为本申请实施例提供的一种异常账号确定系统的结构示意图;
[0030] 图6为本申请实施例提供的一种异常账号确定装置的结构示意图;
[0031] 图7为本申请实施例提供的服务器的结构示意图;
[0032] 图8为本申请实施例提供的终端设备的结构示意图。

具体实施方式

[0033] 下面结合附图,对本申请的实施例进行描述。
[0034] 为了提高对于发布内容导致定位发散的异常账号的识别效率,本申请提供了一种异常账号确定方法和相关装置。
[0035] 本申请实施例提供的异常账号确定方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸
和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用
系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产
出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能
机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0036] 人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0037] 在本申请实施例中,主要涉及的人工智能软件技术包括上述自然语言处理、机器学习/深度学习等方向。例如,可以涉及自然语言处理(Nature Language processing,NLP)
中的文本预处理(Text preprocessing)、语义理解(Semantic understanding),也可以涉
及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网
络(Artificial Neural Network,ANN)。
[0038] 本申请提供的异常账号确定方法可以应用于具有数据处理能力的异常账号确定设备,如终端设备、服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务
器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是
智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终
端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做
限制。
[0039] 该异常账号确定设备可以具备实施自然语言处理的能力,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究
能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门
融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们
日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文
本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中,异常账号
确定设备可以通过自然语言处理中的文本预处理、语义理解等技术对账号描述信息和账号
所发布内容进行处理。
[0040] 该异常账号确定设备可以具备机器学习能力。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模
拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改
善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及
人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
[0041] 在本申请实施例提供的异常账号确定方法中采用的人工智能模型主要涉及对神经网络的应用,通过神经网络实现对异常账号进行识别。
[0042] 此外,本申请实施例提供的异常账号确定设备还具备云计算能力。云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需
资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服
务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid 
Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效
用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化
(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
[0043] 随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计
算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
[0044] 在本申请实施例中,异常账号确定设备可以利用云计算技术,对待识别账号的账号描述信息和待识别账号发布的内容进行处理,以便根据处理得到的信息确定该待识别账
号是否为异常账号。
[0045] 为了便于理解本申请的技术方案,下面结合实际应用场景,以服务器作为异常账号确定设备对本申请实施例提供的异常账号确定方法进行介绍。
[0046] 参见图1,图1为本申请实施例提供的异常账号确定方法的应用场景示意图。在图1所示的应用场景中,包括服务器101和用户A使用的终端设备102。其中,服务器101作为前述
异常账号确定设备。
[0047] 在实际应用中,用户A可以利用终端设备102使用已注册的自媒体账号,在平台内发布内容,例如,文章、视频等。如图1所示,用户A的自媒体账号的账号名称为“军事通”,该
自媒体账号在平台中已发布84条内容。
[0048] 若将用户A所使用的自媒体账号作为待识别账号,服务器101可以通过网络,获取该自媒体账号的账号描述信息以及该自媒体账号对应的所有发布内容。其中,账号描述信
息包括但不限于账号名称、账号简介、账号标签。在图1所示的场景中,可以将自媒体账号的
账号名称“军事通”作为账号描述信息。
[0049] 在异常账号确定过程中,服务器101可以对账号描述信息(“军事通”)进行特征提取,得到账号特征,该账号特征标识了待识别账号本身所涉及内容领域的定位特征。
[0050] 若将用户A通过自媒体账号“军事通”最新发布的一篇文章“在一个月内减掉10斤”作为目标内容,则服务器101对该目标内容进行特征提取,得到内容特征,该内容特征标识
了待识别账号所发布目标内容的内容特征。
[0051] 继而,服务器101可以计算出上述账号特征和内容特征的相似度信息,该相似度信息标识了待识别账号所发布目标内容与账号自身定位的相符程度。从而,可以通过判断相
似度信息是否满足第一阈值条件,确定目标内容与待识别账号的定位是否相符。
[0052] 在图1所示的场景中,服务器101先计算出上述账号特征与内容特征的相似度信息,由于该相似度信息不满足第一阈值条件,因此,可以确定出自媒体账号“军事通”最新发
布的文章“在一个月内减掉10斤”和该自媒体账号自身定位并不相符。
[0053] 基于上述,服务器101针对自媒体账号“军事通”所发布的84条内容,统计出与该自媒体账号定位不相符的第一内容数量,为52条,从而可以确定出该自媒体账号“军事通”属
于异常账号。
[0054] 上述通过自动化识别平台内自媒体账号中这类由于发布内容导致定位发散的异常账号,降低了识别成本,提升了识别效率和精度,对平台的整体环境以及订阅用户的阅读
体验带来了促进。
[0055] 下面以服务器作为异常账号确定设备对本申请实施例提供的异常账号确定方法进行具体介绍。
[0056] 参见图2,图2为本申请实施例提供的一种异常账号确定方法。如图2所示,该异常账号确定方法包括以下步骤:
[0057] S201:获取待识别账号的账号描述信息和所述待识别账号发布的目标内容。
[0058] 在新媒体时代,能够让用户自己发声、分享、吐槽和传播的平台被称为“自媒体”。用户可以利用终端程序和/或服务器端程序,通过自媒体账号在平台上发布内容。针对平台
中的自媒体账号,服务器可以将平台中任意一个自媒体账号作为待识别账号,通过获取该
待识别账号的账号描述信息和待识别账号发布的目标内容,对该待识别账号进行异常账号
识别。
[0059] 其中,账号描述信息用于标识待识别账号,包括但不限于账号名称、账号简介或账号标签中的任意一种或多种组合。例如,待识别账号的账号名称为“电影工厂”,其账号简介
为“推荐各种影视动漫精品!”,账号标签为“电影”。
[0060] 目标内容是指待识别账号在平台中所发布的内容,可以是待识别账号所发布内容中的任意一个,其展示形式包括但不限于文章和视频。其中,文章可能包括图像、音频和视
频中的任意一种或多种组合,文章被编辑好后,用户可以通过自媒体账号在平台上发布提
供给平台上的其他用户阅读。视频包括竖版的视频和横版的视频,用户可以通过自媒体账
号在平台上发布,以Feeds流的形式提供给平台上的其他用户观看。
[0061] 在实际应用中,针对待识别账号,服务器可以将账号名称、账号简介和账号标签中的任意一个或多个作为账号描述信息,并且将通过该待识别账号发布的任意一条内容作为
目标内容,对该待识别账号进行识别。
[0062] 需要说明的是,上述终端程序是指运行在终端设备上的各种可接受消息及消息来源(Feeds)流信息的应用。服务端程序是指部署在多组服务器上,专门为终端程序提供远程
网络服务的服务器程序。
[0063] Feeds,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文:web feed、news feed、syndicated feed)是一种资料格式,网站透过它将最新资讯传播给用户,
通常以时间轴(Timeline)方式排列,时间轴是Feeds最原始最直觉也最基本的展示形式。用
户能够订阅网站的先决条件是,网站提供了消息来源。将Feeds汇流于一处称为聚合
(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是
专门用来订阅网站的软件,一般亦称为RSS阅读器(Rich Site Summary Reader)、feed阅读
器、新闻阅读器等。
[0064] S202:确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征。
[0065] 由上述S201获取待识别账号的账号描述信息和目标内容,服务器可以对所述账号描述信息进行特征提取,确定出对应的账号特征,还可以对所述目标内容进行特征提取,确
定出对应的内容特征。其中,账号特征标识了待识别账号本身所涉及内容领域的定位特征,
内容特征标识了待识别账号所发布目标内容的内容特征。基于该账号特征和内容特征,服
务器可以确定该待识别账号所发布目标内容与账号自身定位的相符程度。
[0066] 可以理解的是,服务器在对平台内的自媒体账号进行异常账号识别时,所需处理的数据量往往较大,导致对于服务器的处理性能有一定的要求。
[0067] 鉴于此,本申请实施例提供了一种可能的实现方式中,可以根据所述目标内容的关键信息,确定目标内容对应的内容特征。其中,关键信息是指对目标内容所传达的含义起
到关键作用的信息,包括所述目标内容的关键词集合、所述目标内容的标题及分类标签中
的任意一种或多种组合。
[0068] 例如,在图1所示的应用场景中,自媒体账号“军事通”最新发布的文章“在一个月内减掉10斤”,其关键信息可以包括关键词集合(“减肥”)、该文章标题(“在一个月内减掉10
斤”)或分类标签(“健身”)中的任意一种或多种组合。
[0069] 由于关键信息起到了传达目标内容所传达的含义,相较于目标内容,关键信息所包括的信息量一般较少,因此,利用关键信息标识目标内容,保证了目标内容所传达的含义
的同时,还降低了数据处理量,有益于提高对于异常账号的识别效率。
[0070] S203:计算所述账号特征和所述内容特征间的相似度信息。
[0071] 基于上述S202,服务器可以计算出上述账号特征和内容特征间的相似度信息。其中,相似度的大小标识了待识别账号所发布目标内容与账号自身定位的相符程度。相似度
越大,表明待识别账号所发布目标内容与账号自身定位的相符程度越高;相似度越小,表明
待识别账号所发布目标内容与账号自身定位的相符程度越低。在实际应用中,可以利用余
弦相似性(cosine)函数计算账号特征和内容特征的相似度信息。
[0072] 针对上述S202和S203利用账号描述信息和目标内容,计算相似度信息的过程,在一种可能的实现方式中,可以利用机器学习技术构建特征匹配模型实现。其中,特征匹配模
型包括账号提取子模型、内容提取子模型和匹配子模型。
[0073] 在应用过程中,可以通过特征匹配模型中的账号提取子模型,确定所述账号描述信息对应的账号特征,并且通过所述特征匹配模型中的内容提取子模型,根据所述关键信
息确定所述目标内容对应的内容特征。然后,可以通过所述特征匹配模型中的匹配子模型,
计算所述账号特征和所述内容特征间的相似度信息。
[0074] 实际应用过程中,上述账号提取子模型和内容提取子模型可以构成一个双塔模型。其中,双塔模型包括账号塔(Account Tower)和文本塔(Content Tower),账号提取子模
型作为账号塔,内容子模型作为文本塔,再结合匹配子模型共同构成一个特征匹配模型。
[0075] 参见图3,图3为本申请实施例提供的一种特征匹配模型的结构示意图。如图3所示,右边的账号塔和左边的文本塔对输入并行处理,再结合匹配子模型对左右两个塔的输
出进行串行处理,从而实现了对于待识别账号的账号描述信息与目标内容之间的相似度计
算。
[0076] 具体的,在账号塔部分,即对于账号提取子模型,输入待识别账号的账号描述信息,经过账号嵌入(account embedding)操作,得到账号特征。其中,账号提取子模型可以为
词转向量(Word to Vector,Word2vec)模型或双向转换编码器(Bidirectional Encoder 
Representation from Transformers,Bert)模型。如图3所示,将账号名称和账号标签(又
可以称为垂类)输入Bert模型中进行特征提取,得到账号特征。
[0077] 在文本塔部分,即对于内容提取子模型,可以将待识别账号的目标内容作为输入,进行特征提取,确定内容特征。其中,内容提取子模型也可以是句子转换为向量(Document 
to Vector,Doc2vec)模型或Bert模型。如图3所示,将目标内容的标题(title)以及目标内
容的3个分类标签(tag)输入Bert模型中进行特征提取,得到文档向量,即内容特征。
[0078] 如图3所示,为了便于计算上述账号特征与内容特征间的相似度信息,在双塔模型的左端输出账号特征后,可以对账号特征进行全连接操作,并且在双塔模型的右端输出内
容特征后,对内容特征同样进行全连接操作,统一账号特征与内容特征的向量维度。基于
此,再对全连接后的账号特征和内容特征进行相似度计算。
[0079] 如图3所示,可以利用cosine函数,来度量账号特征与内容特征之间的相似性,从而确定目标内容与待识别账号的定位是否相符。cosine函数值的大小标识了目标内容与待
识别账号的定位相符程度。其中,cosine函数值越大,表明目标内容与待识别账号的定位相
符程度越高;cosine函数值越小,表明目标内容与待识别账号的定位相符程度越低。
[0080] 上述特征匹配模型利用账号提取子模型和内容提取子模型分别进行特征提取,实现了对于账号描述信息和目标内容的并行处理,提高了对于待识别账号相关信息的处理效
率,从而提高了对于异常账号的识别效率。此外,通过匹配子模型对账号特征和内容特征进
行相似度计算,为后续利用相似度信息识别待识别账号是否为异常账号提供了基础。这种
基于机器学习双塔模型的建模方法,能够提取账号描述信息和目标内容的语义信息,提高
了计算相似度信息的准确度,还提高了对于平台自媒体账号进行异常识别的处理量以及处
理效率。
[0081] S204:根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号。
[0082] 在实际应用中,可以针对待识别账号所发布的所有内容,通过执行上述S201‑S203,确定出每个内容所对应的相似度信息,并结合待识别账号所发布内容的总数量,确定
待识别账号是否为异常账号。
[0083] 由于相似度信息标识了待识别账号所发布内容与待识别账号自身定位相符程度,因此,若待识别账号所发布内容中与账号自身定位相符程度较低的内容数量较多,说明待
识别账号所发布内容中存在较多与自身定位不相符的内容,因此,可以将该待识别账号确
定为异常账号。
[0084] 在一种可能的实现方式中,若所述相似度信息不满足第一阈值条件,确定所述目标内容与所述待识别账号的定位不相符,然后,根据所述待识别账号所发布内容中与所述
待识别账号的定位不相符的第一内容数量,确定所述待识别账号是否为异常账号。
[0085] 在实际应用中,确定出目标内容对应的相似度信息后,再判断该相似度信息是否满足第一阈值条件,从而确定目标内容与待识别账号的定位是否相符。若相似度信息满足
第一阈值条件,表明目标内容与待识别账号的定位相符。若相似度信息不满足第一阈值条
件,表明目标内容与待识别账号的定位不相符。其中,第一阈值条件可以是预先设定的,也
可以是根据自媒体账号的相似度信息进行调整。在实际应用中,可以根据具体应用场景进
行设定,在此不作任何限定。
[0086] 针对待识别账号所发布的其他任意一个内容,将其作为目标内容,重复执行上述步骤,直至确定出待识别账号所发布内容中与所述待识别账号的定位不相符的所有内容,
并统计出对应的第一内容数量,从而可以根据该第一内容数量确定出该待识别账号是否为
异常账号。
[0087] 在实际应用中,可以设定异常阈值,判断第一内容数量是否大于第一阈值。若是,可以确定待识别账号为异常账号,且重度变异;若否,可以确定待识别账号不为异常账号。
其中,异常阈值可以是预先设定的,也可以是根据平台自媒体账号的具体情况设定的,在此
不作任何限定。
[0088] 上述通过自动化识别平台内自媒体账号中这类由于发布内容导致定位发散的异常账号,降低了通过人工审核的识别成本,提升了对于平台内异常账号的识别效率和精度,
使得整个平台形成健康的内容生态环境,并进入良性循环状态。
[0089] 例如,在图1所示的场景中,自媒体账号“军事通”所发布的84条内容中,有52条内容与自媒体账号“军事通”的定位不相符,即第一内容数量为52,有32条内容与自媒体账号
“军事通”的定位相符,即第二内容数量为32。
[0090] 在实际应用中,可以确定待识别账号的第一内容数量与第二内容数量的比值,然后判断该比值是否大于比例阈值。若是,可以确定该待识别账号为异常账号。若否,可以确
定该待识别账号不为异常账号。其中,比例阈值可以预先设定,也可以根据实际情况调整,
在此不作任何限定。
[0091] 上述在利用第一内容数量识别待识别账号是否为异常账号的过程中,增加了发布内容与定位相符的第二内容数量,完善了反映待识别账号所发布的所有内容与自身定位是
否相符的整体情况,提高了对于发布内容定位发散的自媒体账号的识别精度。
[0092] 在实际应用中,本申请提供了另一种可能的实现方式,即可以通过确定所述待识别账号在考核周期内所发布内容的目标数量,然后,从所述目标数量的内容中确定与所述
待识别账号的定位不相符的第一内容数量,并根据所述第一内容数量确定所述待识别账号
是否为异常账号。
[0093] 其中,所述考核周期是预先设定的,例如,设定考核周期为1个月。考核周期也可以根据所述待识别账号的类型确定。例如,对于娱乐类的自媒体账号,其发布内容相对频繁,
可以将考核周期设置的短一些,比如2个星期;对于其他小众领域的自媒体账号,发布内容
的数量有限,可以将考核周期设置的长一些,比如2个月。在实际应用中,可以根据业务策略
定期调整考核周期,在此不作任何限定。
[0094] 上述通过设定考核周期,对自媒体账号在考核周期内所发布内容与自身定位是否相符进行判断,有助于平台针对同一考核周期内的不同自媒体账号是否为异常账号进行识
别,还有助于平台对于由于发布内容导致定位发散的异常账号的识别和管理,以此提升平
台的整体环境以及订阅用户的阅读体验。
[0095] 在另一种可能的实现方式中,可以根据所述待识别账号所发布内容分别对应的相似度信息,确定处于多个相似度区间的内容数量,不同的相似度区间具有分别对应的异常
数量阈值,然后,根据相似度区间分别对应的内容数量,以及分别对应的异常数量阈值,确
定所述待识别账号是否为异常账号。
[0096] 其中,相似度区间用于量化账号特征和内容特征之间的相似度程度的区间。相似度区间对应的异常数量阈值,用于标识待识别账号为非异常账号时,待识别账号所发布内
容的相似度信息在该相似度区间内的最大值。在实际应用中,相似度区间以及相似度区间
对应的异常数量阈值可以预先设定,也可以根据待识别账号或应用场景进行调整,在此不
作任何限定。
[0097] 例如,划分3个相似度区间,并设定各自对应的异常阈值数量,分别为区间1:[0,10%),异常阈值数量为1、区间2:[10%,50%),异常阈值数量为5以及区间3:[50%,
100%],异常阈值数量为无穷大。
[0098] 在实际应用中,针对待识别账号所发布的所有内容,确定出每个内容相似度信息对应的相似度区间,并统计每个相似度区间对应的内容数量,从而可以根据该内容数量以
及相似度区间对应的异常数量阈值,确定出待识别账号是否为异常账号。
[0099] 上述基于相似度信息确定异常账号的方式,通过统计相似度区间对应的内容数量,判断待识别账号是否为异常账号,简化了根据相似度信息对不相符内容的标识过程,提
高了对于异常账号的识别效率。
[0100] 若目标区间为上述多个相似度区间中的任意一个相似度区间,则在利用相似度区间对应的内容数量以及相似度区间对应的异常数量阈值,判断待识别账号是否为异常账号
的过程中,可以通过判断处于目标相似度区间的目标数量达到所述目标区间对应的异常数
量阈值,确定所述待识别账号为异常账号。
[0101] 例如,待识别账号发布了10个内容,分别确定这10个内容各自对应的相似度区间,并统计每个相似度区间的内容数量,结果为:区间1([0,10%))的内容数量为0,区间2([0,
10%))的内容数量为7,区间3([50%,100%])的内容数量为3。由于区间2对应的内容数量
大于区间2对应的异常数量阈值,因此,确定该待识别账号为异常账号。
[0102] 由于不同相似度区间标识了待识别账号所发布内容与待识别账号定位不相符程度,而相似度区间的异常数量阈值标识了待识别账号所发布内容中与待识别账号定位不相
符的内容数量的上限值,因此,通过相似度区间结合对应的异常数量阈值对待识别账号的
变异情况进行识别,提高了对于异常账号的识别效率。
[0103] 可以理解的是,不同的相似度区间,其标识待识别账号所发布内容与待识别账号自身定位不相符的程度不同。若上述多个相似度区间至少包括第一相似度区间和第二相似
度区间,且第一相似度区间所标识的相似度数值小于第二相似度区间所标识的相似度数
值,表明相似度信息在第一相似度区间的内容与待识别账号定位不相符程度要大于相似度
信息在第二相似度区间的内容,故此,可以设定第一相似度区间对应的异常数量阈值小于
第二相似度区间对应的异常数量阈值。
[0104] 例如,上述区间1:[0,10%)和区间2:[10%,50%),区间1所标识的相似度数值小于区间2所标识的相似度数值,表明对应区间1的内容与账号定位不相符程度大于区间2的
内容,可以设定区间1的异常阈值数量为1,区间2的异常阈值数量为5。因此,若待识别账号
所发布内容中,有1个内容的相似度信息在区间1内,即小于10%,可以确定该待识别账号为
异常账号,和/或,有5个内容的相似度信息在区间2内,即不小于10%但小于50%,可以确定
该待识别账号为异常账号。
[0105] 上述通过设定相似度区间以及对应的异常数量阈值,对待识别账号所发布内容进行异常账号识别,实现了自动化识别发布内容与账号自身识别不相符的异常账号,提高了
对于异常账号的识别效率。
[0106] 在实际应用中,可以根据待识别账号所发布内容确定待识别账号的变异程度。其中,变异程度可以包括轻度变异和重度变异。举例说明如下:
[0107] 轻度变异:
[0108] (1)非娱乐、军事、搞笑等分类账号发布娱乐八卦、军事、搞笑类内容,例如:
[0109] 自媒体账号“汽车情报局”,定位为汽车类账号,发布娱乐八卦类内容;
[0110] 自媒体账号“全球美食排行榜”,定位为美食类账号,发布搞笑类内容。
[0111] (2)故意发布低质量社会新闻:例如育儿类账号发布儿童患病、孕妇难产类惊悚内容,生活类账号发布拼凑捏造的社会新闻;
[0112] 自媒体账号“生活快讯榜”,定位为生活类账号,发布低质量社会新闻;
[0113] 自媒体账号“十二生肖”,定位为星座类账号,发布低质量社会新闻。
[0114] 重度变异:
[0115] (1)恶意变异色情大尺度图片或低俗社会新闻,例如:
[0116] 自媒体账号“图个明白”,定位为健康类账号,发布低俗、色情擦边类内容。
[0117] (2)非专业性自媒体恶意变异,发布低质量财经、股评等投资类内容:
[0118] 自媒体账号“天天猎奇吧”,定位为猎奇类账号,发布财经类内容。
[0119] 可以理解的是,不同的自媒体账号所发布内容的总数量存在差异。为了进一步提高对于异常账号的识别精度,在一种可能的实现方式中,通过执行上述S204,即若相似度信
息满足阈值第一阈值条件,可以确定目标内容与待识别账号的定位相符。基于此,可以确定
出待识别账号所发布内容中与待识别账号的定位相符的第二内容数量,从而根据第一内容
数量和第二内容数量,确定待识别账号是否为异常账号。
[0120] 可以发现的是,各个平台不缺自媒体账号,缺的是优质内容。对于一些优质的内容,平台的各种激励会非常的丰厚。在激励诱惑下,原创成本很高,由此产生了大量的搬运
账号,什么内容热门,就搬运什么,从而导致自媒体账号发布的内容不聚焦,即账号定位发
散,影响了平台用户的阅读体验。这种大规模的搬运对平台长期的发展非常不利,严重影响
了平台的环境。
[0121] 鉴于此,本申请实施例提供了一种可能的实现方式,即获取所述待识别账号所发布的历史内容,然后,根据所述历史内容对应的历史内容特征,确定与指定账号集合中账号
的待定账号特征间的相似度信息,其中,所述指定账号集合中包括所述待识别账号和与所
述待识别账号相关的待定账号。若根据确定的相似度信息所确定的前N个账号中不包括所
述待识别账号,将所述待识别账号的历史不匹配数加一,若所述历史不匹配数符合第二阈
值条件,确定所述待识别账号为异常账号。
[0122] 在实际应用中,可以利用平台内的M个自媒体账号构建为一个指定账号集合,通过获取指定账号集合中账号的账号描述信息,利用上述特征匹配模型中的账号塔对账号描述
信息进行特征提取,得到指定账号集合中M个自媒体账号对应的特定账号特征。其中,M大于
等于1,指定账号集合中包括待识别账号和与待识别账号相关的待定账号。一般的,所述待
定账号是与待识别账号属于同一类型的自媒体账号。
[0123] 对于待识别账号所发布的历史内容,可以利用特征匹配模型中的文本塔对待识别账号所发布的历史内容进行特征提取,得到历史内容特征。然后,再利用特征匹配模型中的
匹配子模型,计算上述历史内容特征与指定账号集合中待定账号的待定账号之间的相似度
信息。
[0124] 在实际应用中,可以按照上述M个待定账号的相似度大小进行排序,取前N(topN)个自媒体账号,即所述历史内容与指定账号集合中账号定位最相符的前N个自媒体账号,N
小于等于M。
[0125] 若上述N个自媒体账号中不包括待识别账号,说明所述历史内容与待识别账号的定位间的相符程度较低,可以将待识别账号的历史不匹配数加一。
[0126] 针对待识别账号所发布的所有历史内容,重复上述过程,最终确定待识别账号的历史不匹配数。然后,判断该历史不匹配数是否满足第二阈值条件。若是,可以确定该待识
别账号为异常账号;若否,可以确定该待识别账号不为异常账号。
[0127] 基于上述方法可以有效地识别出平台内自媒体账号所发布内容与定位不相符的异常账号,使得平台能够激励自媒体账号更多地聚焦在自身定位的领域中,发布与自身定
位相符的内容,从而能够向用户更准确地推荐优质自媒体账号,提高平台用户的使用体验。
[0128] 可以理解的是,平台中一般存在大量的自媒体账号及其已经发布的历史内容。对于这些已存在的自媒体账号和历史内容,可以利用上述方式,结合搜索服务对自媒体账号
所发布的历史内容进行回溯处理。
[0129] 在具体处理过程中,利用上述特征匹配模型中的账号提取子模型对平台内各个自媒体账号对应的账号描述信息进行特征提取,并将获得的账号特征部署在搜索服务中。
[0130] 若将平台中的任意一个自媒体账号作为待识别账号,则对该待识别账号所发布的历史内容,利用特征匹配模型中的内容提取子模型对历史内容进行特征提取,得到历史内
容特征,并作为搜索信息(记为Key)。
[0131] 根据上述搜索信息,通过搜索服务进行搜索,选取其中topN个自媒体账号,即选取与搜索信息相似度较高的前N个自媒体账号。其中,N可以按照业务定义来取,比如取3。
[0132] 然后,确定上述N个自媒体账号中是否包括待识别账号,如果没有则将该待识别账号的历史不匹配数加1。在统计历史不匹配数的过程中,可以设定考核周期,即针对考核周
期内待识别账号所发布的历史内容,统计对应的历史不匹配数,比如1个月。若待识别账号
在1个月内,历史不匹配数越大,待识别账号为异常账号的可能性越大,其变异程度越高,越
需要被封禁或打压。
[0133] 上述实施例提供的异常账号确定方法,通过获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,确定所述账号描述信息对应的账号特征,以及所述目标内
容对应的内容特征。由于该账号特征标识了待识别账号本身所涉及内容领域的定位特征,
该内容特征标识了待识别账号所发布目标内容的内容特征,因此,基于所述账号特征和所
述内容特征计算出的相似度信息标识了待识别账号所发布目标内容与账号自身定位的相
符程度。由此根据待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定出
待识别账号是否为异常账号。基于此,通过自动化识别平台内自媒体账号中这类由于发布
内容导致定位发散的异常账号,降低了识别成本,提升了识别效率和精度,对平台的整体环
境以及订阅用户的阅读体验带来了促进。
[0134] 针对上述实施例提供的特征匹配模型,下面结合附图,对特征匹配模型的训练过程进行介绍。
[0135] 参见图4,图4为本申请实施例提供的一种特征匹配模型训练方法的流程示意图。如图4所示,该训练方法包括以下步骤:
[0136] S401:根据目标账号以及训练内容确定训练样本。
[0137] 在实际应用中,可以将平台中任意一个自媒体账号作为目标账号,并获取该目标账号的账号描述信息,并且获取该目标账号发布的历史内容作为训练内容。然后,可以通过
样本标签标识历史内容与目标账号是否相符,从而得到训练样本,即训练样本包括目标账
号的账号描述信息、训练内容及该训练内容对应的样本标签。
[0138] S402:根据所述训练样本对所述特征匹配模型进行训练。
[0139] 基于上述S401得到训练样本后,就可以利用训练样本对预先构建好的特征匹配模型进行训练。其中,特征匹配模型包括账号提取子模型、内容提取子模型和匹配子模型。
[0140] S403:在训练过程中,通过所述账号提取子模型确定所述目标账号的目标账号特征,通过内容提取子模型确定所述训练内容的训练内容特征,并通过所述匹配子模型,计算
所述目标账号特征和所述训练内容特征间的相似度信息,若根据计算出的相似度信息所确
定的定位是否相符结果与所述样本标签不一致,对应调整所述特征匹配模型的模型参数。
[0141] 在实际应用中,将上述账号描述信息作为账号提取子模型的输入,通过账号提取子模型确定目标账号的目标账号特征。将上述训练内容作为内容提取子模型的输入,通过
内容提取子模型确定训练内容的训练内容特征。基于此,再利用匹配子模型,计算出目标账
号特征和训练内容特征间的相似度信息。继而,判断该相似度信息是否与样本标签一致,若
不一致,通过损失函数计算损失,利用反向传播算法对特征匹配模型中的模型参数进行调
整。
[0142] 通过上述训练过程,使得特征匹配模型具备特征提取以及相似度计算的能力,基于此,可以利用训练后的特征匹配模型对平台中的自媒体账号进行异常账号识别,以此提
高对于发布内容与定位不相符的自媒体账号识别效率以及识别成本。
[0143] 为了更好的理解本申请实施例提供的异常账号确定方法,本申请实施例还提供了一种异常账号确定系统。下面对本申请实施例提供的异常账号确定系统进行介绍。
[0144] 参见图5,图5为本申请实施例提供的一种异常识别系统。如图5所示,该异常识别系统包括C端发布系统或者web发布系统端(生产端)501、内容消费端502、上下行内容接口
服务器503、内容出口服务504、内容数据库505、调度中心506、人工审核系统507、排重服务
508、统计上报接口服务器509、特征匹配模型510、异常账号识别服务511、统计数据库512和
推荐分发系统513:
[0145] 所述C端发布系统或者web发布系统端(生产端)501,用于:
[0146] (1)专业生产内容(Professional Generated Content,PGC)、用户原创内容(User Generated Content,UGC)、专业用户原创内容(Professional User Generated Content,
PUGC)或者多频道网络(Multi‑Channel Network,MCN)的内容生产者,通过应用程序接口
(Application Programming Interface,API),提供本地或者web发布系统提供的图文内容
或者上传视频内容包括短视频和小视频,这些都是分发内容的主要内容来源;
[0147] (2)通过和上下行内容接口服务器503的通讯,先获取上传服务器接口地址,然后再发布内容。
[0148] 其中,MCN是一种多频道网络的产品形态,将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
[0149] PGC,互联网术语,指专业生产内容(视频网站)、专家生产内容(微博)。用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。也称为PPC(Professionally‑
produced Content)。
[0150] 用户原创内容(User Generated Content,UGC)指的是伴随着以提倡个性化为主要特点的Web2.0概念而兴起的。它并不是某一种具体的业务,而是一种用户使用互联网的
新方式,即由原来的以下载为主变成下载和上传并重。PUGC是以UGC形式,产出的相对接近
PGC的专业音频内容。
[0151] 所述内容消费端502,用于:
[0152] (1)作为消费者,和上下行内容接口服务器503通讯,获取访问内容的索引信息,然后和上下行内容接口服务器503和内容出口服务504通讯直接消费内容,消费的前提通过
Feeds推荐分发获得内容的索引;
[0153] (2)Feeds及用户点击行为和环境上报模块,收集用户当前网络环境及用户对Feeds中间信息的点击操作行为和Feeds内容的曝光数据,上报给统计上报接口服务器509;
[0154] (3)如果是视频内容上报视频播放过长的播放时长,缓存时间及内容的各种互动行为比如转发,分享,收藏,点赞等。
[0155] 所述上下行内容接口服务器503
[0156] (1)和C端发布系统或者web发布系统端(生产端)501直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图,发布时间,将内容存储数据库;
[0157] (2)在内容入库处依据发布者的账号来源,通过运营的配置设定账号的初审账号等级,这个主要是和运营策略密切相关的;
[0158] (3)同时给统计接口服务器509上报每个账号的发文流水信息,包括发文时间,内容类型,同时也把自媒体号主提供内容标记信息比如分类,标签,选择的封面图,标题作为
扩展信息保存在内容数据库当中。
[0159] 所述内容出口服务504,用于:
[0160] (1)和推荐分发系统513通讯,获取推荐分发的结果,下发到内容消费端502展示在用户的Feeds列表当中;
[0161] (2)通常是一组地域上就近部署在用户附近的接入服务。
[0162] 所述内容数据库505,用于:
[0163] (1)作为内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信,比如大小,封面图链接,标题,发布时间,账号作者,来源
渠道,入库实践,还包括人工审核过程中对内容的分类(包括一,二,三级别分类和标签信
息,比如一篇讲解xx品牌手机的文章,一级分科是科技,二级分类是智能手机,三级分类是
国内手机,标签信息是xx品牌,xx型号);
[0164] (2)在人工审核系统507中,会读取内容数据库505当中的信息,同时人工审核的结果和状态也会回传进入内容数据库505当中保存,人工审核结果也是后续衡量算法过滤模
型效率的一个重要依据;
[0165] (3)整个业务流程当中内容处理主要包括机器处理和人工审核处理,依据不同的内容标记内容数据库505分为不同的内容池,推荐分发系统513的服务器和排重服务508的
服务器,特征匹配模型510对应的服务器构建模型都需要从内容数据库505当中获取内容。
比如图文排重服务器会依据业务需求加载过去一段时间(如一周)已经入库启用的内容,对
于重复重新入库的内容将加上过滤标记不再提供给内容推荐服务输出到用户;
[0166] (4)排重服务508和异常账号识别服务511都是机器处理过程,处理的结果保存在内容数据库505当中。
[0167] 所述调度中心506,用于:
[0168] (1)负责内容流转的整个调度过程,通过上下行内容接口服务器509接收入库的内容,然后从内容数据库505中获取内容的元信息;
[0169] (2)调度排重服务器,对重复入库的内容进行标记和过滤,同时把去重流水信息同步给特征匹配模型510作为输入;
[0170] (3)调度异常账号识别服务511,评估计算每个自媒体账号是否变异(人工已经标记和认证为原创账号的账号可以豁免不经过这个过程),用于后续的人工审核调度或者分
发过程降权等实际应用场景当中;
[0171] (4)对于机器无法处理的内容,比如政治敏感,安全问题需要人工审核的,调用人工审核系统507进行人工审核的处理。
[0172] 所述人工审核系统507,用于:
[0173] (1)需要读取内容数据库505中视频内容本身的原始信息,通常是一个业务复杂的基于web数据库开发的系统,主要是确保推送的内容符合当地法律和政策允许的访问,比如
是否涉及色情,赌博,政治敏感的特性进行一轮初步过滤;
[0174] (2)审核的内容来自自媒体账号主动发布和网络爬虫从公共网络上获取的;
[0175] (3)审核的结果最后通过调度中心506,写入内容数据库505当中。
[0176] 所述排重服务508,用于和内容调度服务器通讯主要包括标题去重,封面图的图片去重,内容正文去重及视频指纹和音频指纹去重,通常是将图文内容标题和正文向量化,采
用文本去重算法(例如SimHash算法)对图片向量去重,以及采用Bert模型对正文向量化,对
于视频内容抽取视频指纹和音频指纹构建向量,然后计算向量之间的距离比如欧式距离来
确定是否重复。
[0177] 所述统计上报接口服务器509,用于:
[0178] (1)接收内容消费端502用户当前网络环境及用户对Feeds中间信息的点击操作行为和Feeds文章的曝光数据的上报;
[0179] (2)将上报的统计数据结果写入统计数据库512;
[0180] (3)接受内容生产入口上报的账号发文原始流水。
[0181] 所述特征匹配模型510,用于:
[0182] (1)按照上面描述的双塔结构,通过内容处理提取账号特征和内容特征,并计算相似度;
[0183] (2)建模的内容数据通过读取内容数据库505当中的内容元数据,统计数据库。
[0184] 所述异常账号识别服务511,用于:
[0185] (1)工程化实现上述的特征匹配模型510的特征结果来进行自媒体账号变异为异常账号的量化评估;
[0186] (2)与调度中心服务506通讯,完成发文账号的变异程度的识别标记。
[0187] 所述统计数据库512,用于:
[0188] (1)接收内容消费端502的统计数据上报,为后续的统计分析和挖掘提供数据支撑;
[0189] (2)接收内容生产端的发文流水上报。
[0190] 上述提供的异常账号确定系统,可以在自媒体生产和发文的主流程链路上,通过调用异常账号识别服务,并依据的不同的场景采用不同的应用策略。对于自媒体账号的识
别结果,可以用在如下几个场景:
[0191] (1)平台中无原创账号或者推荐分发的场景,对于异常账号发布的内容降权分发或者限制分发,乃至取消分发,目的是让用户对自媒体账号和通过自媒体账号发布内容的
一致性能够有良好的感知;
[0192] (2)依据异常账号的变异程度降低异常账号的激励力度,或者根据平台的运营策略,对异常账号取消激励,限制异常账号发布内容;
[0193] (3)在内容审核链路上,由于审核资源的有限,同时为了让原创账号的内容尽快完成处理和分发,对于异常账号在审核调度时候放在审核调度的队列末尾;
[0194] (4)对于发布恶意内容的异常账号(即发布内容与定位方向严重不符,或者是重度变异的异常账号)进行管理,若其发布的多篇内容与定位严重不符,对用户造成了困扰,对
该异常账号进行封号处理。
[0195] 所述推荐分发系统513,用于:
[0196] (1)从内容数据库505进行通讯,从内容数据库505中获取内容,开始进行分发;
[0197] (2)和内容出口服务504通讯,向内容出口服务504分发推荐分发的结果,并下发到内容消费端502展示在用户的Feeds列表当中。
[0198] 上述各种场景都需要对异常账号进行准确的识别。通常平台不限制自媒体账号的发文内容,自媒体账号可以在多个领域发布内容。但是,平台会根据自媒体帐号的入驻分
类,以及用户的使用行为数据,判断出自媒体账号的定位领域。自媒体账号定位领域之外的
内容,帐号的垂直度指数(可以理解为自媒体账号的定位与发布内容的相符程度)会降低,
如果长期发布与账号定位不符的内容,严重影响和误导用户阅读,就会被判定为异常账号。
[0199] 为了更好的理解本申请实施例提供的异常账号确定方法,下面结合具体的应用场景对上述异常账号确定过程进行介绍。
[0200] 平台通过调用异常账号确定系统,对各个自媒体账号进行异常账号识别。针对搞笑类账号,设定考核周期为1个星期,则在1个星期内对搞笑类的自媒体账号分别进行异常
账号识别,并确定出各自对应的第一内容数量和第二内容数量。按照第一内容数量和第二
内容数量的比值由大到小进行排序,确定出排名前三的搞笑类自媒体账号为“搞笑大百
科”、“精选高效排行榜”和“搞笑800”。故此,当用户使用手机登录自媒体平台,订阅搞笑类
自媒体账号时,平台向该用户推荐这3个搞笑类自媒体账号,即“搞笑大百科”、“精选高效排
行榜”和“搞笑800”。
[0201] 上述通过自动化识别平台内自媒体账号中这类由于发布内容导致定位发散的异常账号,降低了人工审核自媒体账号的成本,提升了对于异常账号的识别效率和精度,促进
了平台的整体环境,提升了用户的使用体验。
[0202] 针对上述实施例提供的异常账号确定方法,本申请实施例还提供了一种异常账号确定装置。
[0203] 参见图6,图6为本申请实施例提供的一种异常账号确定装置。如图8所示,该异常账号确定装置600,包括获取单元601、确定单元602和计算单元603:
[0204] 所述获取单元601,用于获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,所述目标内容为所述待识别账号所发布内容中的一个;
[0205] 所述确定单元602,用于确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征;
[0206] 所述计算单元603,用于计算所述账号特征和所述内容特征间的相似度信息;
[0207] 所述确定单元602,还用于根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号。
[0208] 在一种可能的实现方式中,所述确定单元602,用于:
[0209] 若所述相似度信息不满足第一阈值条件,确定所述目标内容与所述待识别账号的定位不相符;
[0210] 根据所述待识别账号所发布内容中与所述待识别账号的定位不相符的第一内容数量,确定所述待识别账号是否为异常账号。
[0211] 在一种可能的实现方式中,所述确定单元602,还用于:
[0212] 若所述相似度信息满足所述第一阈值条件,确定所述目标内容与所述待识别账号的定位相符;
[0213] 根据所述第一内容数量,和所述待识别账号所发布内容中与所述待识别账号的定位相符的第二内容数量,确定所述待识别账号是否为异常账号。、
[0214] 在一种可能的实现方式中,所述确定单元602,用于:
[0215] 根据所述待识别账号所发布内容分别对应的相似度信息,确定处于多个相似度区间的内容数量,不同的相似度区间具有分别对应的异常数量阈值;
[0216] 根据相似度区间分别对应的内容数量,以及分别对应的异常数量阈值,确定所述待识别账号是否为异常账号。
[0217] 在一种可能的实现方式中,目标区间为所述多个相似度区间中的一个相似度区间,所述确定单元602,用于若处于所述目标相似度区间的目标数量达到所述目标区间对应
的异常数量阈值,确定所述待识别账号为异常账号。
[0218] 在一种可能的实现方式中,所述多个相似度区间至少包括第一相似度区间和第二相似度区间,所述第一相似度区间所标识的相似度数值小于所述第二相似度区间所标识的
相似度数值,所述第一相似度区间对应的异常数量阈值小于所述第二相似度区间对应的异
常数量阈值。
[0219] 在一种可能的实现方式中,所述确定单元602,用于:
[0220] 根据所述目标内容的关键信息,确定所述目标内容对应的内容特征,所述关键信息包括所述目标内容的关键词集合、所述目标内容的标题及分类标签中任意一种或多种的
组合。
[0221] 在一种可能的实现方式中,其特征在于,所述确定单元602,用于:
[0222] 通过特征匹配模型中的账号提取子模型,确定所述账号描述信息对应的账号特征;
[0223] 通过所述特征匹配模型中的内容提取子模型,根据所述关键信息确定所述目标内容对应的内容特征;
[0224] 所述计算单元,用于通过所述特征匹配模型中的匹配子模型,计算所述账号特征和所述内容特征间的相似度信息。
[0225] 在一种可能的实现方式中,所述确定单元602,用于:
[0226] 确定所述待识别账号在考核周期内所发布内容的目标数量,所述考核周期是预先设定或者是根据所述待识别账号的类型确定的;
[0227] 从所述目标数量的内容中确定与所述待识别账号的定位不相符的第一内容数量,并根据所述第一内容数量确定所述待识别账号是否为异常账号。
[0228] 在一种可能的实现方式中,所述获取单元601,还用于获取所述待识别账号所发布的历史内容;
[0229] 所述确定单元602,还用于:
[0230] 根据所述历史内容对应的历史内容特征,确定与指定账号集合中账号的待定账号特征间的相似度信息,所述指定账号集合中包括所述待识别账号和与所述待识别账号相关
的待定账号;
[0231] 若根据确定的相似度信息所确定的前N个账号中不包括所述待识别账号,将所述待识别账号的历史不匹配数加一;
[0232] 若所述历史不匹配数符合第二阈值条件,确定所述待识别账号为异常账号。
[0233] 在一种可能的实现方式中,所述确定单元602,还用于:
[0234] 通过特征匹配模型中的账号提取子模型,确定所述指定账号集合中账号对应的待定账号特征;
[0235] 通过所述特征匹配模型中的内容提取子模型,确定所述历史内容对应的历史内容特征。
[0236] 在一种可能的实现方式中,所述确定单元602,还用于:
[0237] 根据目标账号以及训练内容确定训练样本,所述训练样本中所述训练内容与所述目标账号的定位是否相符是通过样本标签标识的;
[0238] 所述装置还包括训练单元:
[0239] 所述训练单元,用于根据所述训练样本对所述特征匹配模型进行训练;
[0240] 在训练过程中,通过所述账号提取子模型确定所述目标账号的目标账号特征,通过内容提取子模型确定所述训练内容的训练内容特征,并通过所述匹配子模型,计算所述
目标账号特征和所述训练内容特征间的相似度信息,若根据计算出的相似度信息所确定的
定位是否相符结果与所述样本标签不一致,对应调整所述特征匹配模型的模型参数。
[0241] 上述实施例提供的异常账号确定装置,通过获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,确定所述账号描述信息对应的账号特征,以及所述目标内
容对应的内容特征。由于该账号特征标识了待识别账号本身所涉及内容领域的定位特征,
该内容特征标识了待识别账号所发布目标内容的内容特征,因此,基于所述账号特征和所
述内容特征计算出的相似度信息标识了待识别账号所发布目标内容与账号自身定位的相
符程度。由此根据待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定出
待识别账号是否为异常账号。基于此,通过自动化识别平台内自媒体账号中这类由于发布
内容导致定位发散的异常账号,降低了识别成本,提升了识别效率和精度,对平台的整体环
境以及订阅用户的阅读体验带来了促进。
[0242] 本申请实施例还提供了一种用于异常账号确定的设备,下面将从硬件实体化的角度对本申请实施例提供的用于异常账号确定的设备进行介绍。
[0243] 参见图7,图7是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central 
processing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以
上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其
中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序
可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令
操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行
存储介质1430中的一系列指令操作。
[0244] 服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例
如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
[0245] 上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。
[0246] 其中,CPU 1422用于执行如下步骤:
[0247] 获取待识别账号的账号描述信息和所述待识别账号发布的目标内容,所述目标内容为所述待识别账号所发布内容中的一个;
[0248] 确定所述账号描述信息对应的账号特征,以及确定所述目标内容对应的内容特征;
[0249] 计算所述账号特征和所述内容特征间的相似度信息;
[0250] 根据所述待识别账号所发布内容的内容数量以及分别对应的相似度信息,确定所述待识别账号是否为异常账号。
[0251] 可选的,CPU 1422还可以执行本申请实施例中异常账号确定方法任一具体实现方式的方法步骤。
[0252] 针对上文描述的异常账号确定方法,本申请实施例还提供了一种用于异常账号确定的终端设备,以使上述异常账号确定方法在实际中实现以及应用。
[0253] 参见图8,图8为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法
部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal  Digital 
Assistant,简称PDA)等任意终端设备,以终端设备为手机为例:
[0254] 图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8,该手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元
1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称
WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图8中示出
的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部
件,或者不同的部件布置。
[0255] 下面结合图8对手机的各个构成部件进行具体的介绍:
[0256] RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路
1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise 
Amplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备
通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统
(Global System of Mobile communication,简称GSM)、通用分组无线服务(General 
Packet Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称
CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进
(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简
称SMS)等。
[0257] 存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现手机的各种功能应用以及数据处理。存储器1520可主
要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的
应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所
创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储
器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固
态存储器件。
[0258] 输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入
设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户
使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操
作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测
装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带
来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它
转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,
可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面
板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括
但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的
一种或多种。
[0259] 显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(Liquid 
Crystal Display,简称LCD)、有机发光二极管(Organic Light‑Emitting Diode,简称
OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控
面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,
随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图8
中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,
但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出
功能。
[0260] 手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线
的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板
1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加
速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏
切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还
可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0261] 音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换
为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560
接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比
如另一手机,或者将音频数据输出至存储器1520以便进一步处理。
[0262] WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了
WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改
变发明的本质的范围内而省略。
[0263] 处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520
内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器
1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理
器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处
理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
[0264] 手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管
理等功能。
[0265] 尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0266] 在本申请实施例中,该手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
[0267] 该手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的异常账号确定方法。
[0268] 本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的异常账号确定方法。
[0269] 本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的
处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算
机设备执行上述方面的各种可选实现方式中提供的异常账号确定方法。
[0270] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在
执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一
种:只读存储器(英文:read‑only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储
程序代码的介质。
[0271] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,
相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性
的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的
部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0272] 以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,
都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围
为准。