一种资源识别方法和相关装置转让专利

申请号 : CN202111184988.8

文献号 : CN113626624B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘刚

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本申请实施例公开了一种资源识别方法和相关装置,涉及人工智能中的机器学习和深度学习等,可应用的领域包括但不限于云技术、人工智能、智慧交通、辅助驾驶等领域,基于第二平台中标识的影响力参数确定优质标识,将优质标识作为判断目标标识是否为潜力优质标识的依据。根据目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互信息构建目标标识向量,根据优质标识的第二标识属性信息和优质标识在第二平台所发布资源对应的第二对象交互信息构建优质标识向量。若优质标识向量与目标标识向量相似度匹配成功,说明目标标识为与优质标识属于同一资源领域的潜力优质标识,提升待审核资源在第一平台中的审核顺序,避免其被积压。

权利要求 :

1.一种资源识别方法,其特征在于,所述方法包括:获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第二平台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;

根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,所述目标标识的目标标识向量表征所述目标标识在其对应的资源领域中的优质特性;根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质标识向量,所述优质标识的优质标识向量表征所述优质标识在其对应的资源领域中的优质特性;

若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标识,并提升所述待审核资源在所述第一平台中的审核顺序。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述待审核资源的第一内容,以及所述优质标识发布资源的第二内容;

所述根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质标识向量,包括:

根据所述第一标识属性信息、所述第一对象交互信息和所述第一内容构建所述目标标识的目标标识向量,根据所述第二标识属性信息、所述第二对象交互信息和所述第二内容构建所述优质标识的优质标识向量。

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述优质标识向量与所述目标标识向量相似度匹配成功,且所述待审核资源与所述优质标识在所述第二平台发布的资源相同,确定所述目标标识为所述优质标识在所述第一平台中的同源标识,并在所述第一平台发布所述待审核资源。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用于体现所述第一平台中标识间关联的标识关联关系;

所述根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,包括:

根据所述第一对象交互信息,确定所述目标标识在所述标识关联关系中的子关联关系;

基于所述第一标识属性信息和所述子关联关系生成所述目标标识的目标标识向量。

5.根据权利要求1所述的方法,其特征在于,所述提升所述待审核资源在所述第一平台中的审核顺序,包括:

获取用于相似度匹配的优质标识集合;

根据所述优质标识所在平台的重要程度参数和所述优质标识的影响力参数确定所述优质标识的优质程度;

根据所述优质标识的优质程度提升所述待审核资源在所述第一平台中的审核顺序。

6.根据权利要求1‑5任意一项所述的方法,其特征在于,所述方法还包括:获取所述第一平台中属于目标资源领域的潜力优质标识的第一数量,以及所述第一平台中属于所述目标资源领域的账号的第二数量;

若所述第一数量与所述第二数量的比值小于占比阈值,提高所述目标资源领域的潜力优质标识在资源推荐时的曝光权重。

7.根据权利要求1‑5任意一项所述的方法,其特征在于,所述方法还包括:获取所述第一平台中用于相似度匹配的标识向量集合;

若所述优质标识向量与所述标识向量集合中所有标识向量相似度匹配失败,发出引入所述优质标识的提示。

8.根据权利要求1‑5任意一项所述的方法,其特征在于,所述方法还包括:在目标时间段内,获取所述第一平台中潜力优质标识的第三数量,以及所述第一平台用于相似度匹配的标识向量的第四数量;

若所述第三数量与所述第四数量的比值小于覆盖阈值,发出引入所述优质标识的提示。

9.一种资源识别装置,其特征在于,所述装置包括:获取单元、构建单元和执行单元;

所述获取单元,用于获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第二平台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;

所述构建单元,用于根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,所述目标标识的目标标识向量表征所述目标标识在其对应的资源领域中的优质特性;根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质标识向量,所述优质标识的优质标识向量表征所述优质标识在其对应的资源领域中的优质特性;

所述执行单元,用于若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标识,并提升所述待审核资源在所述第一平台中的审核顺序。

10.根据权利要求9所述的装置,其特征在于,所述获取单元,还用于:获取所述待审核资源的第一内容,以及所述优质标识发布资源的第二内容;

所述构建单元,用于:

根据所述第一标识属性信息、所述第一对象交互信息和所述第一内容构建所述目标标识的目标标识向量,根据所述第二标识属性信息、所述第二对象交互信息和所述第二内容构建所述优质标识的优质标识向量。

11.根据权利要求10所述的装置,其特征在于,所述执行单元,还用于:若所述优质标识向量与所述目标标识向量相似度匹配成功,且所述待审核资源与所述优质标识在所述第二平台发布的资源相同,确定所述目标标识为所述优质标识在所述第一平台中的同源账号,并在所述第一平台发布所述待审核资源。

12.根据权利要求9所述的装置,其特征在于,所述获取单元,还用于:获取用于体现所述第一平台中账号间关联的标识关联关系;

所述构建单元,用于:

根据所述第一对象交互信息,确定所述目标标识在所述标识关联关系中的子关联关系;

基于所述第一标识属性信息和所述子关联关系生成所述目标标识的目标标识向量。

13.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行权利要求1‑8任意一项所述的方法。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1‑8任意一项所述的方法。

说明书 :

一种资源识别方法和相关装置

技术领域

[0001] 本申请涉及计算机技术领域,特别是涉及一种资源识别方法和相关装置。

背景技术

[0002] 在互联网快速发展的时代,很多网站都允许用户自行上传视频、文字、图片等资源进行展示。随着资源生产的门槛降低,资源的上传量以指数级的速度迅速增长,为了保证分
发资源的安全性,需要在短时间内完成资源的审核,例如,资源中是否涉及敏感内容、对资
源质量和安全性等进行识别和处理等。
[0003] 目前,对资源的审核主要是依赖人工审核,不仅需要耗费大量的人力成本,而且审核效率较低。相关技术中还会辅以机器学习算法和理解算法,通过机器学习算法先过滤掉
明显违反法律的资源,再通过理解算法对未被过滤掉的资源进行识别,如资源属于标题党、
资源的内容描述不客观等,审核人员再结合识别结果按照时间先后顺序继续审核。
[0004] 但是,由于人工审核速度低于资源的上传速度,该种方式依然会造成资源的严重积压,容易造成一些优质资源无法快速审核并展示给公众,导致用户的查看体验较差。

发明内容

[0005] 为了解决上述技术问题,本申请提供了一种资源识别方法和相关装置,用于识别潜力优质标识上传的资源,提高该资源的审核顺序,避免优质资源的积压,提高用户的查看
体验。
[0006] 本申请实施例公开了如下技术方案:
[0007] 一方面,本申请实施例提供一种资源识别方法,所述方法包括:
[0008] 获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第二平台中优质标识的第
二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所
述优质标识是基于所述第二平台中标识的影响力参数确定的;
[0009] 根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质
标识向量;
[0010] 若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标识,并提升所述待审核资
源在所述第一平台中的审核顺序。
[0011] 另一方面,本申请实施例提供一种资源识别装置,所述装置包括:获取单元、构建单元和执行单元;
[0012] 所述获取单元,用于获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第二平
台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第
二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;
[0013] 所述构建单元,用于根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,根据所述第二标识属性信息和所述第二对象交互信息构建所
述优质标识的优质标识向量;
[0014] 所述执行单元,用于若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标识,
并提升所述待审核资源在所述第一平台中的审核顺序。
[0015] 另一方面,本申请实施例提供一种计算机设备,所述设备包括处理器以及存储器:
[0016] 所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0017] 所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
[0018] 另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
[0019] 另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使
得该计算机设备执行上述方面所述的方法。
[0020] 由上述技术方案可以看出,在第一平台中,可以通过确定上传待审核资源的目标标识是否为潜力优质标识,识别出待审核资源是否为优质资源。基于第二平台中标识的影
响力参数确定出优质标识,将优质标识作为判断目标标识是否为潜力优质标识的依据。根
据目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互
信息构建目标标识向量,根据优质标识的第二标识属性信息和优质标识在第二平台所发布
资源对应的第二对象交互信息构建优质标识向量。其中,账号属性信息可以明确账号的资
源领域,对象交互信息可以挖掘账号在用户交互层面针对于优质维度的相似特性。若优质
标识向量与目标标识向量相似度匹配成功,说明目标标识为与优质标识属于同一资源领域
的潜力优质标识,可以提升待审核资源在第一平台中的审核顺序,以便快速审核可能属于
优质资源的待审核资源,避免优质资源被积压,降低审核优质资源的耗时,提高资源审核整
体性能,提高用户的查看体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不
仅提高了账号匹配速度,还缩小了匹配范围,提升了匹配精度。

附图说明

[0021] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
[0022] 图1为本申请实施例提供的一种资源识别方法的应用场景示意图;
[0023] 图2为本申请实施例提供的一种资源识别方法的流程图;
[0024] 图3为本申请实施例提供的一种生成标识向量的示意图;
[0025] 图4为本申请实施例提供的一种资源处理链路的示意图;
[0026] 图5为本申请实施例提供的一种爬取系统的示意图;
[0027] 图6为本申请实施例提供的一种资源识别系统的结构示意图;
[0028] 图7为本申请实施例提供的一种资源识别装置的示意图;
[0029] 图8为本申请实施例提供的服务器的结构示意图;
[0030] 图9为本申请实施例提供的终端设备的结构示意图。

具体实施方式

[0031] 下面结合附图,对本申请的实施例进行描述。
[0032] 随着信息的上传量以指数级的速度迅速增长,即使采用相关技术中的审核方式依然会造成资源的积压。尤其对于积压资源中的优质资源,例如,知名账号上传的资源、在其
他平台转发次数超过一万次的资源、在其他平台分享次数超过五千次的资源等,若无法实
现本平台中优质资源的快速审核,也就无法实现快速分发,从而影响用户的查看体验。
[0033] 基于此,本申请实施例提供一种资源识别方法和相关装置,用于识别潜力优质标识上传的资源,提高该资源的审核顺序,避免优质资源的积压,提高用户的查看体验。
[0034] 本申请实施例提供的资源识别方法是基于人工智能实现的,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延
伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应
用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生
产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智
能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0035] 人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通
等几大方向。
[0036] 在本申请实施例中,主要涉及的人工智能软件技术包括上述计算机视觉、机器学习/深度学习等方向。
[0037] 本申请提供的资源识别方法可以应用于具有数据处理能力的资源识别设备,如终端设备、服务器。其中,终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、
智能音箱、智能手表、智能电视、智能语音交互设备、智能家电、车载终端等,但并不局限于
此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分
布式系统,还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无
线通信方式进行直接或间接地连接,本申请在此不做限制。本发明实施例可应用于各种场
景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
[0038] 该资源识别设备可以具备计算机视觉能力,计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑
代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为
更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理
论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技
术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、
视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自
动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
[0039] 该资源识别设备可以具备机器学习能力,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专
门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的
知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的
根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、
置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
[0040] 在本申请实施例提供的资源识别方法中,采用的人工智能模型主要涉及对机器学习的应用,通过机器学习中例如深度学习技术等生成目标标识向量和优质标识向量,并对
二者进行匹配。
[0041] 为了便于理解本申请的技术方案,下面结合实际应用场景,以服务器作为资源识别设备对本申请实施例提供的资源识别方法进行介绍。
[0042] 参见图1,该图为本申请实施例提供的一种资源识别方法的应用场景示意图。在图1所示的应用场景中,包括终端设备110和服务器120,其中,服务器120用于生成标识向量,
基于相似度匹配提升潜力优质标识所上传资源的审核顺序。
[0043] 在实际应用中,用户可以利用终端设备110使用已注册的目标标识,在第一平台中发布资源。其中,标识为表征用户能够在一个平台中代表该用户的一些数字、符号等内容,
目标标识为用户在第一平台中代表该用户的内容,本实施例以用户在第一平台注册的目标
账号为例。优质标识为用户在第二平台等其他平台中代表该用户的内容,且用户通过优质
标识在其他平台发布的大多数资源均为优质资源,本实施例以优质账号为例。资源例如为
视频、文字、图片等,本实施例以资源为视频为例。服务器120通过网络获取用户上传的视
频,在该待审核视频通过审核后,在第一平台展示该待审核视频。
[0044] 为了避免第一平台中优质视频被积压,影响用户的查看体验,可以通过确定上传待审核视频的目标账号是否为潜力优质账号,识别出待审核视频是否为优质视频。
[0045] 挖掘目标账号是否为潜力优质账号,可以将其他平台,如第二平台中优质账号作为比较基准,若第一平台的目标账号与第二平台的优质账号相似,则目标账号可能为潜力
优质账号,如目标账号可能是第二平台优质账号在第一平台的小号等。其中,可以基于第二
平台中标识的影响力参数确定出优质账号。
[0046] 第一标识属性信息是目标标识在第一平台对应的标识属性信息,第二标识属性信息是优质标识在第二平台对应的标识属性信息,本实施例以第一标识属性信息为第一账号
属性信息,第二标识属性信息为第二账号属性信息为例。标识属性信息表征标识的类别、标
签等信息,可以明确标识的资源领域,属于同一资源领域的标识间的相似才具有意义。对象
交互信息表征标识与用户之间的互动行为,例如,用户关注账号,针对账号发布资源用户进
行浏览、播放、评论、收藏、转发、分享、点赞等,可以挖掘标识在用户交互层面针对于优质维
度的相似特性,相似标识之间有大量用户相似的互动行为,例如,转发资源数量和评论资源
数量的比值在某一区间等。
[0047] 服务器120根据目标账号的第一账号属性信息和目标账号在第一平台所发布资源对应的第一用户交互信息生成目标标识向量,根据优质账号的第二账号属性信息和优质账
号在第二平台所发布资源对应的第二用户交互信息构建优质标识向量。
[0048] 若优质标识向量与目标标识向量相似度匹配成功,例如,目标标识向量与优质标识向量相似度为90%,说明目标账号为与优质账号属于同一资源领域的潜力优质账号,潜力
优质账号上传的视频大概率为优质视频,故可以提升待审核视频在第一平台中的审核顺
序,例如,将本应该排序在等待审核队列中第4位的待审核视频提升至等待审核队列中的第
1位。
[0049] 由此,可以快速审核第一平台中可能属于优质视频的待审核视频,避免第一平台中的优质资源被积压,降低审核优质视频的耗时,提高视频审核整体性能,提高用户的查看
体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不仅提高了账号匹配速度,
在一个资源领域内进行匹配,缩小匹配范围,提升了匹配精度。
[0050] 下面结合附图,以服务器作为资源识别设备,对本申请实施例提供的一种资源识别方法进行介绍。
[0051] 参见图2,该图为本申请实施例提供的一种资源识别方法的流程图。如图2所示,该资源识别方法包括以下步骤:
[0052] S201:获取第一平台中待审核资源所属目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互信息,以及获取第二平台中优质标识的第二标
识属性信息和优质标识在第二平台所发布资源对应的第二对象交互信息。
[0053] 在实际应用中,用户可以利用终端程序和/或服务器端程序,通过已经在平台中注册的账号在该平台中上传资源。例如,用户通过目标标识在第一平台中上传资源,对于第一
平台而言,该资源为待审核资源,审核通过后推荐给第一平台中的用户进行查看。
[0054] 由于资源的上传量以指数级的速度迅速增长,审核资源有限,故待审核资源会出现被积压的情况。若待审核资源为优质资源,对于上传该待审核资源的用户而言,自己的资
源迟迟无法推荐给第一平台中的用户,可能会不再在第一平台上传优质资源,导致第一平
台中的优质资源流失,进而第一平台还会流失喜欢查看该优质资源的用户,出现用户粘性
降低、用户使用时长降低等问题。
[0055] 基于此,需要判断待审核资源是否为优质资源,以避免优质资源的积压。通过判断上传待审核资源的目标标识是否为优质标识或者潜力优质标识,优质标识或潜力优质标识
上传优质资源的可能性较大,若目标标识为优质标识或者潜力优质标识,则可以将待审核
资源确定为优质资源。
[0056] 其中,优质标识可以通过标识的影响力参数确定,以标识为账号为例,账号的影响力参数可以通过两方面确定,一方面如关注账号的人数、账号的所有者的知名度、账号排名
等与账号有关的先验信息,另一方面如点赞资源数量、转发资源数量、资源阅读数量等账号
上传资源被推荐后,即资源发布后与用户产生互动的对象交互信息,其中,对象交互信息为
对象之间产生交互的内容,当对象为用户时,对象交互信息可以为资源被点赞超过五千次、
资源被转发超过一万次等,具体数值可以由平台根据业务自行确定,本申请对此不做具体
限定。需要说明的是,本申请中获取的账号信息、用户交互信息等与用户相关的内容均获得
用户或账号所有者的同意。
[0057] 潜力优质标识是可能成为优质标识的账号,相比于优质标识而言,潜力优质标识还处于“成长期”,其上传或发布的资源数量较少,很难通过影响力参数确定出来。尤其在第
一平台中较少甚至是没有能够作为参照的数据的情况下,无法明确目标标识是否为潜力优
质标识,若等待潜力优质标识“成长”后再进行判断,判断滞后会导致优质资源流失。故可以
通过其他平台,如第二平台中的优质标识,确定目标标识是否为潜力优质标识。
[0058] 第二平台中的优质标识可以基于第二平台中标识的影响力参数确定。本申请实施例不具体限定获取第二平台中标识影响力参数的方式,以标识为账号为例,可以通爬取规
则获取能够确定第二平台中账号的影响力参数的相关信息,爬取规则可以通过第二平台的
业务情况进行设置,如爬取哪些网站、哪些资源来源的客户端等。爬取规则可以通过爬取系
统设置,后续结合图5进行说明,在此不再赘述。
[0059] 第一平台和第二平台为不同的平台,能够让用户针对于资源进行上传、浏览和分享等操作的媒体。平台中资源的展示形式包括但不限于文章、图片和视频。其中,文章可能
包括图片和视频中的任意一种或多种组合,视频包括竖版的视频和横版的视频,用户可以
通过注册的账号在平台上上传,以Feeds流的形式提供给平台上的其他用户观看。
[0060] 需要说明的是, Feeds,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文:web feed、news feed、syndicated feed)是一种资料格式,网站透过它将最新资
讯传播给用户,通常以时间轴(Timeline)方式排列,时间轴是Feeds最原始最直觉也最基本
的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将Feeds汇流于一处
称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,
聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器(Rich Site Summary Reader)、
feed阅读器、新闻阅读器等。
[0061] S202:根据第一标识属性信息和第一对象交互信息构建目标标识的目标标识向量,根据第二标识属性信息和第二对象交互信息构建优质标识的优质标识向量。
[0062] 将第二平台的优质标识作为判断第一平台目标标识是否为潜力优质标识,相关技术中,以标识为账号为例,通过账号的名称和账号注册信息进行字符串匹配,但是这些信息
即使是同一个资源上传者,在不同平台中也会存在差异,例如,用户A在第一平台中的注册
账号叫做“用户A的账号”,用户A在第二平台中注册的账号叫“该账号属于用户A”。由于账号
名称存在差异,导致匹配效果较差。
[0063] 基于此,可以采用表征标识特性的标识向量进行匹配。获取第一平台中待审核资源所属目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象
交互信息,以及第二平台中优质标识的第二标识属性信息和优质标识在第二平台所发布资
源对应的第二对象交互信息。
[0064] 其中,标识属性信息可以为资源分类、资源标签等,可以筛选出不同账号对应的资源领域(如科技领域、人文领域等)、对应的类目(如新热、爆款、本地)条件的账号,从而明确
标识的资源领域,属于同一资源领域的账号间的相似才具有意义。例如,用户交互信息表征
账号与用户之间的互动行为,例如,用户关注账号,针对账号发布资源用户进行浏览、播放、
评论、收藏、转发、分享、点赞等行为,可以挖掘账号在用户交互层面针对于优质维度的相似
特性。
[0065] 针对第一平台中的账号,根据第一标识属性信息和第一对象交互信息构建目标标识的目标标识向量,目标标识向量可以表征目标标识在其对应的资源领域中的优质特性。
针对第二平台中的账号,根据第二标识属性信息和第二对象交互信息构建优质标识的优质
标识向量,优质标识向量可以表征优质标识在其对应的资源领域中的优质特性。
[0066] 为了提高标识向量体现优质特性的能力,还可以获取待审核资源的第一内容,以及优质标识发布资源的第二内容。根据第一标识属性信息、第一对象交互信息和第一内容
构建目标标识的目标标识向量,根据第二标识属性信息、第二对象交互信息和第二内容构
建优质标识的标识向量。
[0067] 由此,不仅根据账号属性信息和对象交互信息构建标识向量,还可以继续结合内容构建标识向量,如将内容对应的内容向量融合在标识向量中。通过内容维度充分挖掘账
号的优质特点,丰富标识向量,进一步缩小匹配范围,提高后续标识向量的匹配精度。
[0068] S203:若优质标识向量与目标标识向量相似度匹配成功,确定目标标识为第一平台中与优质标识属于同一资源领域的潜力优质标识,并提升待审核资源在第一平台中的审
核顺序。
[0069] 如果优质标识向量与目标标识向量相似度匹配成功,例如采用度量学习,计算优质标识向量和目标标识向量的距离,比如余弦相似度,当余弦相似度满足预设条件,如相似
度大于80%,则认为优质标识向量与目标标识向量相似度匹配成功,说明目标标识与优质标
识相同或相似,二者属于同一资源领域,可以将目标标识确定为第一平台中潜力优质标识。
[0070] 第一平台中的潜力优质标识与第二平台中的优质标识在优质维度相似,随着时间推移,潜力优质标识可以在第一平台中成为优质标识,其在第一平台上传的资源可以为优
质资源。故为了避免优质资源被积压,可以提升目标标识上传的待审核资源在第一平台中
的审核顺序,加速优质资源的审核效率,降低优质资源通过资源处理链路的时长。
[0071] 通过识别出待审核资源中的优质资源,提升优质资源的审核顺序,相当于知道哪些待审核资源是优质资源,将其排在审核队列头部,在花费相同审核成本和人力情况下,可
以审核更多的优质资源,按照启用同样数量优质资源消耗的审核量来说,相对于相关技术
中按照时间顺序审核待审核资源的方式,本申请实施例提供的方式需要的审核量会减少。
同时,对于推荐系统而言,系统的推荐能力有限,不是所有内容都有曝光机会,本申请实施
例提供的方式会使推荐池内优质资源比例提高,降低审核成本,增大优质资源的曝光率。
[0072] 与此同时,还可以提升潜力优质标识的启用率和启用量,其中,启用率为审核通过的资源数量与审核总数量的比值,启用量为审核通过的资源数量。如果优质资源被加速审
核,相当于在审核队列头部,优质资源的比例增加,审核通过的资源数量也会增加,降低了
优质资源在资源处理链路的耗时。
[0073] 由上述技术方案可以看出,在第一平台中,可以通过确定上传待审核资源的目标标识是否为潜力优质标识,识别出待审核资源是否为优质资源。基于第二平台中标识的影
响力参数确定出优质标识,将优质标识作为判断目标标识是否为潜力优质标识的依据。根
据目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互
信息构建目标标识向量,根据优质标识的第二标识属性信息和优质标识在第二平台所发布
资源对应的第二对象交互信息构建优质标识向量。其中,账号属性信息可以明确账号的资
源领域,对象交互信息可以挖掘账号在用户交互层面针对于优质维度的相似特性。若优质
标识向量与目标标识向量相似度匹配成功,说明目标标识为与优质标识属于同一资源领域
的潜力优质标识,可以提升待审核资源在第一平台中的审核顺序,以便快速审核可能属于
优质资源的待审核资源,避免优质资源被积压,降低审核优质资源的耗时,提高资源审核整
体性能,提高用户的查看体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不
仅提高了账号匹配速度,还缩小了匹配范围,提升了匹配精度。
[0074] 作为一种可能的实现方式,在基于账号属性信息、对象交互信息和内容生成标识向量的情况下,如果优质标识向量与目标标识向量相似度匹配成功,而且目标标识在第一
平台上传的待审核资源与优质标识在第二平台已经发布的资源相同,或者说,待审核资源
已经在第二平台通过优质标识发布过,则目标标识与优质标识是同源标识,即在第一平台
注册目标标识的用户与在第二平台注册优质标识的用户是同一个人。此时,由于待审核资
源已经在第二平台发布过,或者说已经被第二平台审核过,第一平台可以采用先发后审机
制,即先发布待审核资源,后续再进行审核。
[0075] 本申请不具体限定先发后审的审核方式,例如,可以在人工审核不繁重的时候进行审核。又如,采集待审核资源发布后的评论内容,对评论内容进行情感挖掘和分析,将存
在问题的资源进行人工复核或者从第一平台中撤回处理等。又如,若该待审核资源在之前
被过滤掉,成为禁用资源,还可以重新启用该待审核资源,因为第二平台能够发布,则该待
审核资源的安全性等程度较高。
[0076] 本申请实施例不具体限定生成标识向量的方式,下面以生成目标标识向量为例进行说明,具体参见S2021‑S2023。
[0077] S2021:获取用于体现第一平台标识间关联的标识关联关系。
[0078] 相似标识间有大量用户共同的对象交互信息,如大量用户在关注或点击A账号之后,还会立即关注或点击B账号,则A账号与B账号之间存在相似性,故此通过相似标识之间
的标识关联关系可以进一步挖掘标识的优质特点。
[0079] 本申请实施例不具体限定标识关联关系的表现形式,例如标识关联关系可以为用户账号间的加权有向图,其中,节点表示账号,节点之间的边表示权重,权重可以通过用户
交互行为的数量或类型等确定。例如,可以按照共同关注账号的总数确定。又如,不同的用
户交互行为类型对应的权重不同可以按照用户发起一次用户交互行为在业务当中成本来
定,可以由平台进行设置,通常来说评论资源需要用户进行输入操作,成本最高,可以将该
类型的用户交互行为的权重设置较大,浏览资源次之,播放资源再次之。
[0080] 需要说明的是,可以单独只用某种对象交互行为,不用其他种类对象交互行为,从而构建不同版本的加权有向图,更细致刻画账号向量,即标识向量。版本是指标识向量模型
的版本,可以是利用不同时间段的样本数据训练得到,也可以是基于图文或者视频账号构
建的对于图文和视频内容的标识向量,本申请对此不做具体限定。
[0081] 参见图3,该图为本申请实施例提供的一种生成标识向量的示意图。在图3中,根据第一平台中三个用户的用户交互信息序列生成账号向量,如通过用户U1的用户交互信息序
列构建账号间的加权有向图,以用户交互信息为关注账号为例,用户U1的用户交互信息序
列为:先关注D账号,再关注A账号,最后关注B账号,用户U2和用户U3同理。
[0082] 需要说明的是,如果使用用户整个的用户交互信息序列,计算和空间存储资源耗费巨大,而且用户的兴趣在长时间内是会变化的,但是用户短时间内的兴趣是相同的。基于
此,需要对用户的用户交互信息序列进行切割,例如,以预设时长(如十分钟)为间隔,如用
户U2在关注E账号后,超过10分钟后再关注D账号,就进行切分,用户关注E账号与关注D账号
不属于同一个用户交互信息序列。由此,基于三个用户的用户交互信息序列可以生成有向
加权图。
[0083] S2022:根据第一对象交互信息,确定目标标识在标识关联关系中的子关联关系。
[0084] 标识关联关系中包括多个标识分别对应的子关联关系,可以基于第一对象交互信息,从标识关联关系中,确定出目标标识对应的子关联关系。
[0085] 作为一种可能的实现方式,当平台中对象交互行为数量较多时,可以采用基于边的权重去采样(weighted walk),通过采样可以减少和控制图的计算量,避免当节点和边的
数量很多情况,计算量会成几何级数增长的情况。并且在采样过程中,通过随机游走,如尽
量往热门节点(边的权重较大的节点)方向游走,热门节点关联的数据多,非热门节点关联
的数据少,误点击的影响就会很大,故往热门方向游走采样出来的样本置信度才更高。
[0086] S2023:基于第一标识属性信息和子关联关系生成目标标识的目标标识向量。
[0087] 在得到目标标识的子关联关系后,可以融合第一标识属性信息(side‑info),包括但不限于资源分类、资源标签。例如,一个账号名称为“科技大全”,对应的资源分类是科技,
资源标签可以是该账号发布多篇资源(如科技文章)对应的标签中数量最多的标签。甚至还
可以融合内容生成目标标识的目标标识向量。
[0088] 继续参见图3,在加权有向图中往热门节点方向游走,采样出多条用户交互信息序列。再根据资源对应的账号先验特征,如第一账号属性信息(资源类别、资源标签)甚至是内
容,融合生成第一平台中账号的账号向量,其中包括目标账号的目标账号向量。
[0089] 本申请实施例不具体限定融合方式,例如,融合的方式使用深度行走(Deep Walk)&跳码(Skip‑gram)算法来构建标识向量。其中,Deep Walk算法是随机游走(Random 
Walk)算法与Skip‑gram算法的组合。Random Walk算法负责对加权有向图进行采样,获得加
权有向图中节点与节点的邻接关系,Skip‑gram算法从采样的序列中训练得到标识向量,即
通过对象交互信息序列来预测下一个节点。比如对于a‑>b‑>e‑>f这个序列,滑动窗口为2,
输入a和b,预测结果是e;输入b和e,预测结果是f。
[0090] 本申请实施例不具体限定提升优质资源审核顺序的方式,例如,直接将确定为优质资源的待审核资源提升至审核队列的第一位。下面以一个例子为例进行说明。
[0091] 在进行账号匹配时,可以获得多个平台的优质标识,构成优质标识集合,在优质标识集合中,不同的优质标识的优质程度不同,优质程度可以根据优质标识的影响力参数以
及该优质标识在其所在的平台的重要程度参数确定,例如,优质标识A的影响力较高,且其
所在的平台对于第一平台而言重要程度较高,该优质标识A的优质程度较高。从而可以在优
质标识集合中根据优质程度对多个优质标识进行排序。目标标识与优质标识匹配成功后,
可以根据优质标识的优质程度提升待审核资源在第一平台中的审核顺序。
[0092] 例如,第一平台中具有多个不同级别的审核队列,若待审核资源的优质程度较高,可以将该待审核资源插入至高优先级审核队列中,还可以依据优质程度的不同插入至不同
的位置。
[0093] 对于第一平台而言,需要潜力优质标识来改善用户口碑,提升用户粘性和使用时长等关键指标。资源在推荐时存在分发不均匀的情况,即推荐的少数资源占有大量的曝光,
若该少数资源为优质资源,则潜力优质标识所起到的作用会更加突出,能够改善用户的阅
读体验和增加粘性。特别针对于冷启动情况,相关数据较少,通过确定出潜力优质标识,可
以在资源推荐时,增大潜力优质标识、潜力优质标识上传的所有资源、部分优质资源等分发
权重,增大潜力优质标识上传资源的曝光权重,进而提升用户粘性和使用时长等关键指标。
[0094] 由此,可以量化潜力优质标识在第一平台的占比情况。获取第一平台中属于目标资源领域的潜力优质标识的第一数量,以及第一平台中属于目标资源领域的所有账号的第
二数量,若第一数量与第二数量的比值小于占比阈值,提高目标资源领域的潜力优质标识
在资源推荐时的曝光权重。
[0095] 比如,针对于科技资源领域,潜力优质标识占所有属于科技资源领域账号的数量较少,可以在资源推荐时,赋予属于科技资源领域的潜力优质标识更高曝光权重,尽可能让
潜力优质标识上传的待审核资源多曝光。如果目标资源领域的优质资源较少,通过尽可能
让已有优质资源多曝光,提升用户粘性和使用时长等关键指标。
[0096] 参见图4,该图为本申请实施例提供的一种资源处理链路的示意图。当用户在第一平台中通过注册的标识上传待审核资源后,待审核资源入库等待审核。审核可以分为机器
审核和人工审核,通过机器审核过滤掉明显违规的资源,通过人工审核,如先发后审机制等
对资源进行审核,审核通过的待审核资源可以进行资源推荐。同时,为了保证资源内容质量
的整理可控,还可以采用入网点(pop ‑ point‑of‑presence,POP)监控机制,通过用户针对
资源的评论内容,进行情感挖掘和分析,对存在问题的资源推送给人工进行复核。
[0097] 由此,通过爬取第二平台优质标识的信息,生成优质标识向量,并与入库的待审核资源进行标识向量匹配,使得被识别为优质资源的待审核资源尽可能不被资源处理链路积
压或者被过滤掉。例如,可以依据匹配到资源的状态(处于机器审核方式所在的审核队列、
处于人工审核方式所在的审核排队、禁用状态等),调整资源处理链路的调度策略,如果处
于机器审核方式所在的审核队列,则插入机器处理的高优先级队列中;如果处于人工审核
方式所在的审核排队,则人工加速审核;如果是处于禁用状态,可以重新启用。最终实现资
源处理链路的供应效率的优化,最终实现优质资源的加速分发。
[0098] 如果第二平台中的优质标识,在第一平台中没有匹配成功,例如可以构建标识向量化索引库,包括多个待审核资源分别所属标识的标识向量,若优质标识向量与标识向量
化索引库中所有标识向量匹配失败说明这些标识(如优质账号等)还没有被第一平台引入,
具体地,可以获取第一平台中用于相似度匹配的标识向量集合,若优质标识向量与标识向
量集合中所有标识向量相似度匹配失败,发出引入优质标识的提示。例如,可以通过内容引
入源头(如自媒体作者或者内容生产方)引入,如通过业务的商务拓展(Business 
Development,BD),吸引优质标识的作者来开号和发布资源,获得作者直接发布的资源,丰
富平台资源库优质资源的供给。
[0099] 作为一种可能的实现方式,还可以在目标时间段内,如一天、一周、一月等,获取第一平台中潜力优质标识的第三数量,以及第一平台用于相似度匹配的标识向量的第四数
量,若第三数量与第四数量的比值小于覆盖阈值,发出引入优质标识的提示。其中,通过第
三数量与第四数量的比值衡量第一平台中潜力优质标识的覆盖率,若覆盖率低说明第一平
台中潜力优质标识的数量较少,优质资源较少,此时可以将工作的重点放在优质资源的引
入。作为一种可能的实现方式,若覆盖率高说明第一平台中具有大量的潜力优质标识,此时
可以将工作的重点放在加速审核优质资源上。
[0100] 资源处理链路相当于一个巨大的漏斗,进去的资源会出来一部分,针对机器审核和人工审核的漏斗原因,如没有漏出来的内容因为什么原因被过滤掉了,如标题党,无营
养,广告内容等等,由此可以提升资源匹配的准确率,降低资源处理链路误杀,即资源在第
二平台的变现表现情况良好,但在第一平台被过滤掉,没有启用分发的机会。
[0101] 同时,还可以优化相似度去重能力,提高相似度计算准确率,降低优质资源被“资源处理链路去重”误差的比例;复核先发后审的账号,采用先发后审能力,降低链路处理耗
时,或者通过加速人工审核,分配更高的审核优先级,降低链路处理耗时;针对于重新启用
的待审核资源,增加对应的内容标记,并增大潜力优质标识的推荐权重,推荐侧进行冷启动
加权曝光,提升整个优质标识分发的效果和优先级,让优质标识上传的资源能够在更短的
时延内被启用和加速分发。
[0102] 参见图5,该图为本申请实施例提供的一种爬取系统的示意图。该爬取系统500包括组件单元510、智能算法单元520、爬虫引擎单元530、调度服务单元540和可视化配置平台
550。
[0103] 其中,组件单元510将破解不同平台的组件模块化,实现一键接入,如图5所示,可以包括A平台破解组件511、B平台破解组件512、C平台破解组件513和D平台破解组件514。
[0104] 智能算法单元520用于自动识别资源的相关信息,如文章标题、文章内容等,可以包括列表识别521、资源标题识别522、资源内容识别523和资源链接抽取524。
[0105] 爬虫引擎单元530用于支持不同平台信息的爬取,可以包括puppeteer实例531、浏览器实例532、前置预处理533、登录态维持534、防标题(header)检测535、防行为检测536、
分页爬取537和代理池538。其中,puppeteer是谷歌(Google)的Chrome开发团队在2017年发
布的一个Node.js包,用来模拟Chrome浏览器的运行。它提供的应用程序编程接口
(Application Programming Interface,API)能方便地控制浏览器,实现爬虫应用、网站截
屏、生成网站PDF等。主要提供两种方式:无界面(Headless)、有界面(FullHead),二者在请
求头部和渲染方式上存在区别(比如被网站检测到头部信息、以及渲染环境)。爬虫引擎单
元530具备一定的反爬取能力(比如利用带来IP池(指某个运营商索能提供的最大限度的IP
段)和控制爬取频率)来模拟实际用户的登录。为了提升爬取的效率,可以采用多线程和多
服务的方式,建立多个爬取的任务,所以这里有一套爬取的自动任务管理服务提供调度。
[0106] 调度服务单元540用于用户任务的自动管理,可以包括分布式管理541、任务调度542、机器监测543和任务保活544。
[0107] 可视化配置单元550用于可视化零开发,可以包括爬取规则设置551、爬取类型设置552、任务信息设置553、爬取策略设置554和爬取平台设置555。相关人员可以直接通过可
视化配置单元550配置爬取策略和爬取规则。
[0108] 为了更好的理解本申请实施例提供的资源识别方法,本申请实施例还提供了一种资源识别系统。下面对本申请实施例提供的资源识别系统进行介绍。
[0109] 参见图6,该图为本申请实施例提供的一种资源识别系统的结构示意图。如图6所示,该资源识别系统包括内容生产端601、内容消费端602、上下行内容接口服务器603、推荐
分发与内容分发出口服务604、内容数据库605、调度中心606、人工审核系统607、统计上报
接口及分析服务608、潜力优质标识加速调度服务609、机器审核系统610、网络优质标识库
611、标识向量化匹配服务612和网络爬取及解析服务613,下面分别进行说明。
[0110] 所述内容生产端601,用于:
[0111] (1)专业生产内容(Professional Generated Content,PGC)、用户原创内容(User Generated Content,UGC)、多频道网络(Multi‑Channel Network,MCN)或者专业用户原创
内容(Professional User Generated Content,PUGC)的内容生产者,通过移动端或者应用
程序接口(Application Programming Interface,API)系统,提供本地或者全球广域网
(World Wide Web,web)发布系统提供的图文内容或者上传视频内容包括短视频和小视频
等资源,以下称为内容,这些都是分发内容的主要内容来源;
[0112] (2)通过和上下行内容接口服务器603的通讯,先获取上传服务器接口地址,然后再发布内容。
[0113] 所述内容消费端602,用于:
[0114] (1)作为消费者,和上下行内容接口服务器603通讯,获取访问内容的索引信息,然后和上下行内容接口服务器603,以及内容出口服务604通讯直接消费内容,消费的前提通
过Feeds推荐分发获得内容的索引;
[0115] (2)通过内置的Feeds及用户点击行为和环境上报模块,收集用户当前网络环境及用户对Feeds中间信息的点击操作行为和Feeds内容的曝光数据,上报给统计上报接口及分
析服务608;
[0116] (3)如果是视频内容上报视频播放过长的播放时长,缓存时间及如评论、转发、分享、收藏、点赞等用户交互行为,负向行为比如举报和负反馈行为。
[0117] 所述上下行内容接口服务器603,用于:
[0118] (1)上下行内容接口服务器603和内容生产端601直接通讯,从前端提交的资源,通常是资源的标题、发布者、摘要、封面图、发布时间、将内容的元信息存储至内容数据库605。
[0119] 所述推荐分发与内容分发出口服务604,用于:
[0120] (1)获取推荐分发的结果,下发到内容消费端602,并展示在用户的Feeds列表当中;
[0121] (2)内容出口服务通常是一组地域上就近部署在用户附近的接入服务;
[0122] (3)在内容入内容数据库605入口依据发布者的账号来源,通过运营的配置设定账号的初审账号等级,这里可以标记一部分优质标识,这个主要是和运营策略密切相关的,优
质标识的人工审核调度优先级会更高;
[0123] (4)给统计上报接口及分析服务608上报每个账号的发文流水信息,包括发文时间、内容类型等,同时也把内容标记信息比如分类、标签、选择的封面图、标题等作为扩展信
息保存在内容数据库605中。
[0124] 所述内容数据库605,用于:
[0125] (1)内容的核心数据库,所有生产者发布的内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信息,比如大小、封面图链接、标题、发布时间、账号作者、来源
渠道、入库时间、还包括人工审核过程中对内容的分类(包括一、二、三级别分类和标签信
息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国
内手机,标签信息是华为,mate30);
[0126] (2)人工审核过程中,人工审核系统607读取内容数据库605中的信息,同时人工审核的结果和状态也会回传进入内容数据库605中保存;
[0127] (3)调度中心606对内容处理主要包括通过机器审核系统610进行机器处理,以及通过人工审核系统607进行人工审核处理,比如图文排重服务器会依据业务需求加载过去
一段时间(如一周,视频内容的有效期更长比如3个月)已经入内容数据库605启用的内容,
对于重复重新入内容数据库605的内容将加上过滤标记不再提供给推荐分发与内容分发出
口服务604,通过内容消费端602输出到用户。
[0128] 所述调度中心606,用于:
[0129] (1)负责内容流转的整个调度过程,通过上下行内容接口服务器603接收入内容数据库605的内容,然后从内容数据库605中获取资源的元信息;
[0130] (2)调度机器审核系统610,对包括黄、赌、毒等政治敏感触犯法律底线的内容打击和过滤及内容重复的处理;
[0131] (3)对于不满足先发后审筛选条件的资源,比如安全问题需要人工审核的,调用人工审核系统607进行人工审核的处理,也就是先审后发机制;
[0132] (4)与潜力优质标识加速调度服务通讯,为资源处理链路分发加速;
[0133] (5)将内容调度处理数据上报给统计上报接口及分析服务608。
[0134] 所述人工审核系统607,用于:
[0135] (1)需要读取内容数据库605中内容本身的原始信息,通常是一个业务复杂的基于web数据库开发的系统,主要是确保推送的内容符合当地法律和政策允许的访问,比如是否
涉及色情、赌博、政治敏感的特性进行一轮初步过滤;
[0136] (2)接受统计上报接口及分析服务608推送的需要人工复核的内容,包括负反馈和举报统计的需要复核的内容,降低和控制先发后审内容的分发风险;
[0137] (3)人工审核的结果最后通过调度中心606,写入内容数据库605中。
[0138] 所述统计上报接口及分析服务608,用于:
[0139] (1)接收内容消费端602当前网络环境及用户对Feeds中间信息的点击操作行为和Feeds资源的曝光数据的上报;
[0140] (2)和内容消费端602通讯,接收上报的内容对应评论用户原创内容(User Generated Content,UGC)短文本、点赞、转发、收藏等用户互动信息,同时也把内容消费端
602对内容的负反馈和举报信息按照资源进行实时统计,超过一定阈值和次数的资源推送
给人工审核系统进行复核。
[0141] 所述潜力优质标识加速调度服务609,用于:
[0142] (1)和网络优质标识库611及标识向量化匹配服务612通讯;
[0143] (2)基于上面描述的处理流程和策略,独立运行,依据匹配到账号的状态,调整链路处理的调度策略:加速人工审核或者分发提权,从而实现优质资源的加速调度。
[0144] 所述网络爬取及解析服务613,用于:
[0145] (1)依据上面描述的爬取系统,依据需要爬取内容来源的平台,支持不同的端;
[0146] (2)依据配置的爬取规则,通过互联网从不同平台爬取解析得到的内容写入网络优质标识库611;
[0147] (3)与潜力优质标识加速调度服务609通讯,提供原始的网络优质标识库611,作为资源处理链路优质标识匹配的依据来源,相当于利用网络外部的信息牌度量系统对潜力优
质标识的处理和覆盖情况。
[0148] 所述标识向量化匹配服务612,用于:
[0149] (1)依据上面描述的步骤和过程,与调度中心服务606通讯,读取原始内容数据库605数据,并对账号进行向量化,包括视频内容本身进行向量化和账号发布内容的标签和分
类信息向量化等,最终构建标识向量,然后利用这个标识向量构建标识向量化索引库;
[0150] (2)对爬取和解析得到网络优质标识库611中优质标识与标识向量化索引库中的正在处理的账号进行匹配,从而加速匹配到这些潜力优质标识的资源链路处理,提升对应
潜力优质标识上传的内容的处理效率和启用率。
[0151] 为了更好的理解本申请实施例提供的资源识别方法,下面结合具体的应用场景对上述资源识别过程进行介绍。
[0152] 第一平台通过调用前述资源识别系统,对第一平台中处于审核队列中的待审核内容进行识别,可以针对其他平台(如第二平台)的优质账号,在资源引入阶段、资源处理阶段
和资源分发阶段进行针对性的挖掘、处理和加速。
[0153] 以资源是视频为例,在资源引入阶段爬取其他平台的优质账号的账号属性信息和用户交互信息,以便构建优质账号向量。在资源处理阶段,针对审核队列中的待审核视频中
的一个视频(即待审核资源),根据该视频所属目标账号的账号属性信息和用户交互信息构
建目标账号向量,进而构建账号向量化索引库,将优质账号向量与账号向量化索引库中的
账号向量进行匹配,若匹配成功,则将账号向量化索引库中匹配成功的账号(即潜力优质账
号)向量对应的待审核视频进行人工审核加速或者机器审核加速,提升匹配到账号处理的
准确率和加速审核,降低账号处理链路误杀和处理耗时。在资源分发阶段,对潜力优质账号
进行一定加权匹配,加速潜力优质账号的冷启动。
[0154] 由此,能够在相同人力投入的情况下,降低人力审核的投入,增加推荐池潜力优质账号的启用量,同时能够量化监控潜力优质账号的覆盖、处理以及分发情况,让优质资源能
够在更短的时延内被启用和加速分发,对信息流内容创作和分发的账号生态优化发挥价
值,并持续提升潜力优质账号的启用率与分发效果。
[0155] 针对上述实施例提供的资源识别方法,本申请实施例还提供了一种资源识别装置。参见图7,该图为本申请实施例提供的一种资源识别装置的示意图,该装置700,包括:获
取单元701、构建单元702和执行单元703;
[0156] 所述获取单元701,用于获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第
二平台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应
的第二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;
[0157] 所述构建单元702,用于根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,根据所述第二标识属性信息和所述第二对象交互信息构
建所述优质标识的优质标识向量;
[0158] 所述执行单元703,用于若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标
识,并提升所述待审核资源在所述第一平台中的审核顺序。
[0159] 作为一种可能的实现方式,所述获取单元701,还用于:
[0160] 获取所述待审核资源的第一内容,以及所述优质标识发布资源的第二内容;
[0161] 所述构建单元702,用于:
[0162] 根据所述第一标识属性信息、所述第一对象交互信息和所述第一内容构建所述目标标识的目标标识向量,根据所述第二标识属性信息、所述第二对象交互信息和所述第二
内容构建所述优质标识的优质标识向量。
[0163] 作为一种可能的实现方式,所述执行单元703,还用于:
[0164] 若所述优质标识向量与所述目标标识向量相似度匹配成功,且所述待审核资源与所述优质标识在所述第二平台发布的资源相同,确定所述目标标识为所述优质标识在所述
第一平台中的同源账号,并在所述第一平台发布所述待审核资源。
[0165] 作为一种可能的实现方式,所述获取单元701,还用于:
[0166] 获取用于体现所述第一平台中账号间关联的标识关联关系;
[0167] 所述构建单元702,用于:
[0168] 根据所述第一对象交互信息,确定所述目标标识在所述标识关联关系中的子关联关系;
[0169] 基于所述第一标识属性信息和所述子关联关系生成所述目标标识的目标标识向量。
[0170] 作为一种可能的实现方式,所述执行单元703,用于:
[0171] 获取用于相似度匹配的优质标识集合;
[0172] 根据所述优质标识所在平台的重要程度参数和所述优质标识的影响力参数确定所述优质标识的优质程度;
[0173] 根据所述优质标识的优质程度提升所述待审核资源在所述第一平台中的审核顺序。
[0174] 作为一种可能的实现方式,所述获取单元701,还用于:
[0175] 获取所述第一平台中属于目标资源领域的潜力优质标识的第一数量,以及所述第一平台中属于所述目标资源领域的账号的第二数量;
[0176] 所述执行单元703,用于:
[0177] 若所述第一数量与所述第二数量的比值小于占比阈值,提高所述目标资源领域的潜力优质标识在资源推荐时的曝光权重。
[0178] 作为一种可能的实现方式,所述获取单元701,还用于:
[0179] 获取所述第一平台中用于相似度匹配的标识向量集合;
[0180] 所述执行单元703,用于:
[0181] 若所述优质标识向量与所述标识向量集合中所有标识向量相似度匹配失败,发出引入所述优质标识的提示。
[0182] 作为一种可能的实现方式,所述获取单元701,还用于:
[0183] 在目标时间段内,获取所述第一平台中潜力优质标识的第三数量,以及所述第一平台用于相似度匹配的标识向量的第四数量;
[0184] 所述执行单元703,用于:
[0185] 若所述第三数量与所述第四数量的比值小于覆盖阈值,发出引入所述优质标识的提示。
[0186] 由上述技术方案可以看出,在第一平台中,可以通过确定上传待审核资源的目标标识是否为潜力优质标识,识别出待审核资源是否为优质资源。基于第二平台中标识的影
响力参数确定出优质标识,将优质标识作为判断目标标识是否为潜力优质标识的依据。根
据目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互
信息构建目标标识向量,根据优质标识的第二标识属性信息和优质标识在第二平台所发布
资源对应的第二对象交互信息构建优质标识向量。其中,账号属性信息可以明确账号的资
源领域,对象交互信息可以挖掘账号在用户交互层面针对于优质维度的相似特性。若优质
标识向量与目标标识向量相似度匹配成功,说明目标标识为与优质标识属于同一资源领域
的潜力优质标识,可以提升待审核资源在第一平台中的审核顺序,以便快速审核可能属于
优质资源的待审核资源,避免优质资源被积压,降低审核优质资源的耗时,提高资源审核整
体性能,提高用户的查看体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不
仅提高了账号匹配速度,还缩小了匹配范围,提升了匹配精度。
[0187] 前述所述的资源识别设备可以为一种计算机设备,该计算机设备可以为服务器,还可以为终端设备,前述所述的资源识别装置可以内置于服务器获终端设备中,下面将从
硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中,图8所示为服务器的
结构示意图,图9所示为终端设备的结构示意图。
[0188] 参见图8,图8是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central 
Processing Units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以
上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其
中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序
可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令
操作。更进一步地,CPU 1422可以设置为与存储介质1430通信,在服务器1400上执行存储介
质1430中的一系列指令操作。
[0189] 服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例
TM TM TM TM TM
如Windows Server ,Mac OS X ,Unix , Linux ,FreeBSD 等等。
[0190] 上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。
[0191] 其中,CPU 1422用于执行如下步骤:
[0192] 获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第二平台中优质标识的第
二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所
述优质标识是基于所述第二平台中标识的影响力参数确定的;
[0193] 根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质
标识向量;
[0194] 若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标识,并提升所述待审核资
源在所述第一平台中的审核顺序。
[0195] 可选的,CPU 1422还可以执行本申请实施例中资源识别方法任一具体实现方式的方法步骤。
[0196] 参见图9,图9为本申请实施例提供的一种终端设备的结构示意图。图9示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图,该智能手机包括:射频
(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器
1550、音频电路1560、无线保真(Wireless Fidelity,简称WiFi)模块1570、处理器1580、以
及电源1590等部件。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能
手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布
置。
[0197] 下面结合图9对智能手机的各个构成部件进行具体的介绍:
[0198] RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路
1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise 
Amplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备
通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统
(Global System of Mobile communication,简称GSM)、通用分组无线服务(General 
Packet Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称
CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进
(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简
称SMS)等。
[0199] 存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现智能手机的各种功能应用以及数据处理。存储器1520
可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所
需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机
的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存
取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易
失性固态存储器件。
[0200] 输入单元1530可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他
输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如
用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的
操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检
测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作
带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将
它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此
外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触
控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以
包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等
中的一种或多种。
[0201] 显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(Liquid 
Crystal Display,简称LCD)、有机发光二极管(Organic Light‑Emitting Diode,简称
OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控
面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,
随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图9
中,触控面板1531与显示面板1541是作为两个独立的部件来实现智能手机的输入和输入功
能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现智能手机的输
入和输出功能。
[0202] 智能手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环
境光线的明暗来调节显示面板1541的亮度,接近传感器可在智能手机移动到耳边时,关闭
显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般
为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应
用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)
等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感
器,在此不再赘述。
[0203] 音频电路1560、扬声器1561,传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561
转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路
1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送
给比如另一智能手机,或者将音频数据输出至存储器1520以便进一步处理。
[0204] WiFi属于短距离无线传输技术,智能手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示
出了WiFi模块1570,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需
要在不改变发明的本质的范围内而省略。
[0205] 处理器1580是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储
器1520内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可
选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调
制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处
理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580
中。
[0206] 智能手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功
耗管理等功能。
[0207] 尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0208] 在本申请实施例中,该智能手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
[0209] 该智能手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的资源识别方法。
[0210] 本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的资源识别方法。
[0211] 本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的
处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算
机设备执行上述方面的各种可选实现方式中提供的资源识别方法。
[0212] 本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在
执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一
种:只读存储器(英文:Read‑Only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储
程序代码的介质。
[0213] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,
相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性
的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的
部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0214] 以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,
都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围
为准。