一种资源识别方法和相关装置转让专利
申请号 : CN202111184988.8
文献号 : CN113626624B
文献日 : 2021-12-21
发明人 : 刘刚
申请人 : 腾讯科技(深圳)有限公司
摘要 :
权利要求 :
1.一种资源识别方法,其特征在于,所述方法包括:获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第二平台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;
根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,所述目标标识的目标标识向量表征所述目标标识在其对应的资源领域中的优质特性;根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质标识向量,所述优质标识的优质标识向量表征所述优质标识在其对应的资源领域中的优质特性;
若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标识,并提升所述待审核资源在所述第一平台中的审核顺序。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述待审核资源的第一内容,以及所述优质标识发布资源的第二内容;
所述根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质标识向量,包括:
根据所述第一标识属性信息、所述第一对象交互信息和所述第一内容构建所述目标标识的目标标识向量,根据所述第二标识属性信息、所述第二对象交互信息和所述第二内容构建所述优质标识的优质标识向量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:若所述优质标识向量与所述目标标识向量相似度匹配成功,且所述待审核资源与所述优质标识在所述第二平台发布的资源相同,确定所述目标标识为所述优质标识在所述第一平台中的同源标识,并在所述第一平台发布所述待审核资源。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用于体现所述第一平台中标识间关联的标识关联关系;
所述根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,包括:
根据所述第一对象交互信息,确定所述目标标识在所述标识关联关系中的子关联关系;
基于所述第一标识属性信息和所述子关联关系生成所述目标标识的目标标识向量。
5.根据权利要求1所述的方法,其特征在于,所述提升所述待审核资源在所述第一平台中的审核顺序,包括:
获取用于相似度匹配的优质标识集合;
根据所述优质标识所在平台的重要程度参数和所述优质标识的影响力参数确定所述优质标识的优质程度;
根据所述优质标识的优质程度提升所述待审核资源在所述第一平台中的审核顺序。
6.根据权利要求1‑5任意一项所述的方法,其特征在于,所述方法还包括:获取所述第一平台中属于目标资源领域的潜力优质标识的第一数量,以及所述第一平台中属于所述目标资源领域的账号的第二数量;
若所述第一数量与所述第二数量的比值小于占比阈值,提高所述目标资源领域的潜力优质标识在资源推荐时的曝光权重。
7.根据权利要求1‑5任意一项所述的方法,其特征在于,所述方法还包括:获取所述第一平台中用于相似度匹配的标识向量集合;
若所述优质标识向量与所述标识向量集合中所有标识向量相似度匹配失败,发出引入所述优质标识的提示。
8.根据权利要求1‑5任意一项所述的方法,其特征在于,所述方法还包括:在目标时间段内,获取所述第一平台中潜力优质标识的第三数量,以及所述第一平台用于相似度匹配的标识向量的第四数量;
若所述第三数量与所述第四数量的比值小于覆盖阈值,发出引入所述优质标识的提示。
9.一种资源识别装置,其特征在于,所述装置包括:获取单元、构建单元和执行单元;
所述获取单元,用于获取第一平台中待审核资源所属目标标识的第一标识属性信息和所述目标标识在所述第一平台所发布资源对应的第一对象交互信息,以及获取第二平台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;
所述构建单元,用于根据所述第一标识属性信息和所述第一对象交互信息构建所述目标标识的目标标识向量,所述目标标识的目标标识向量表征所述目标标识在其对应的资源领域中的优质特性;根据所述第二标识属性信息和所述第二对象交互信息构建所述优质标识的优质标识向量,所述优质标识的优质标识向量表征所述优质标识在其对应的资源领域中的优质特性;
所述执行单元,用于若所述优质标识向量与所述目标标识向量相似度匹配成功,确定所述目标标识为所述第一平台中与所述优质标识属于同一资源领域的潜力优质标识,并提升所述待审核资源在所述第一平台中的审核顺序。
10.根据权利要求9所述的装置,其特征在于,所述获取单元,还用于:获取所述待审核资源的第一内容,以及所述优质标识发布资源的第二内容;
所述构建单元,用于:
根据所述第一标识属性信息、所述第一对象交互信息和所述第一内容构建所述目标标识的目标标识向量,根据所述第二标识属性信息、所述第二对象交互信息和所述第二内容构建所述优质标识的优质标识向量。
11.根据权利要求10所述的装置,其特征在于,所述执行单元,还用于:若所述优质标识向量与所述目标标识向量相似度匹配成功,且所述待审核资源与所述优质标识在所述第二平台发布的资源相同,确定所述目标标识为所述优质标识在所述第一平台中的同源账号,并在所述第一平台发布所述待审核资源。
12.根据权利要求9所述的装置,其特征在于,所述获取单元,还用于:获取用于体现所述第一平台中账号间关联的标识关联关系;
所述构建单元,用于:
根据所述第一对象交互信息,确定所述目标标识在所述标识关联关系中的子关联关系;
基于所述第一标识属性信息和所述子关联关系生成所述目标标识的目标标识向量。
13.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1‑8任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1‑8任意一项所述的方法。
说明书 :
一种资源识别方法和相关装置
技术领域
背景技术
发资源的安全性,需要在短时间内完成资源的审核,例如,资源中是否涉及敏感内容、对资
源质量和安全性等进行识别和处理等。
明显违反法律的资源,再通过理解算法对未被过滤掉的资源进行识别,如资源属于标题党、
资源的内容描述不客观等,审核人员再结合识别结果按照时间先后顺序继续审核。
发明内容
体验。
二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所
述优质标识是基于所述第二平台中标识的影响力参数确定的;
标识向量;
源在所述第一平台中的审核顺序。
台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第
二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;
述优质标识的优质标识向量;
并提升所述待审核资源在所述第一平台中的审核顺序。
机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使
得该计算机设备执行上述方面所述的方法。
响力参数确定出优质标识,将优质标识作为判断目标标识是否为潜力优质标识的依据。根
据目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互
信息构建目标标识向量,根据优质标识的第二标识属性信息和优质标识在第二平台所发布
资源对应的第二对象交互信息构建优质标识向量。其中,账号属性信息可以明确账号的资
源领域,对象交互信息可以挖掘账号在用户交互层面针对于优质维度的相似特性。若优质
标识向量与目标标识向量相似度匹配成功,说明目标标识为与优质标识属于同一资源领域
的潜力优质标识,可以提升待审核资源在第一平台中的审核顺序,以便快速审核可能属于
优质资源的待审核资源,避免优质资源被积压,降低审核优质资源的耗时,提高资源审核整
体性能,提高用户的查看体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不
仅提高了账号匹配速度,还缩小了匹配范围,提升了匹配精度。
附图说明
申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
具体实施方式
他平台转发次数超过一万次的资源、在其他平台分享次数超过五千次的资源等,若无法实
现本平台中优质资源的快速审核,也就无法实现快速分发,从而影响用户的查看体验。
伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应
用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生
产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智
能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通
等几大方向。
智能音箱、智能手表、智能电视、智能语音交互设备、智能家电、车载终端等,但并不局限于
此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分
布式系统,还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无
线通信方式进行直接或间接地连接,本申请在此不做限制。本发明实施例可应用于各种场
景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为
更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理
论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技
术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、
视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自
动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的
知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的
根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、
置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
二者进行匹配。
基于相似度匹配提升潜力优质标识所上传资源的审核顺序。
目标标识为用户在第一平台中代表该用户的内容,本实施例以用户在第一平台注册的目标
账号为例。优质标识为用户在第二平台等其他平台中代表该用户的内容,且用户通过优质
标识在其他平台发布的大多数资源均为优质资源,本实施例以优质账号为例。资源例如为
视频、文字、图片等,本实施例以资源为视频为例。服务器120通过网络获取用户上传的视
频,在该待审核视频通过审核后,在第一平台展示该待审核视频。
优质账号,如目标账号可能是第二平台优质账号在第一平台的小号等。其中,可以基于第二
平台中标识的影响力参数确定出优质账号。
属性信息,第二标识属性信息为第二账号属性信息为例。标识属性信息表征标识的类别、标
签等信息,可以明确标识的资源领域,属于同一资源领域的标识间的相似才具有意义。对象
交互信息表征标识与用户之间的互动行为,例如,用户关注账号,针对账号发布资源用户进
行浏览、播放、评论、收藏、转发、分享、点赞等,可以挖掘标识在用户交互层面针对于优质维
度的相似特性,相似标识之间有大量用户相似的互动行为,例如,转发资源数量和评论资源
数量的比值在某一区间等。
号在第二平台所发布资源对应的第二用户交互信息构建优质标识向量。
优质账号上传的视频大概率为优质视频,故可以提升待审核视频在第一平台中的审核顺
序,例如,将本应该排序在等待审核队列中第4位的待审核视频提升至等待审核队列中的第
1位。
体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不仅提高了账号匹配速度,
在一个资源领域内进行匹配,缩小匹配范围,提升了匹配精度。
识属性信息和优质标识在第二平台所发布资源对应的第二对象交互信息。
平台而言,该资源为待审核资源,审核通过后推荐给第一平台中的用户进行查看。
源迟迟无法推荐给第一平台中的用户,可能会不再在第一平台上传优质资源,导致第一平
台中的优质资源流失,进而第一平台还会流失喜欢查看该优质资源的用户,出现用户粘性
降低、用户使用时长降低等问题。
上传优质资源的可能性较大,若目标标识为优质标识或者潜力优质标识,则可以将待审核
资源确定为优质资源。
等与账号有关的先验信息,另一方面如点赞资源数量、转发资源数量、资源阅读数量等账号
上传资源被推荐后,即资源发布后与用户产生互动的对象交互信息,其中,对象交互信息为
对象之间产生交互的内容,当对象为用户时,对象交互信息可以为资源被点赞超过五千次、
资源被转发超过一万次等,具体数值可以由平台根据业务自行确定,本申请对此不做具体
限定。需要说明的是,本申请中获取的账号信息、用户交互信息等与用户相关的内容均获得
用户或账号所有者的同意。
一平台中较少甚至是没有能够作为参照的数据的情况下,无法明确目标标识是否为潜力优
质标识,若等待潜力优质标识“成长”后再进行判断,判断滞后会导致优质资源流失。故可以
通过其他平台,如第二平台中的优质标识,确定目标标识是否为潜力优质标识。
则获取能够确定第二平台中账号的影响力参数的相关信息,爬取规则可以通过第二平台的
业务情况进行设置,如爬取哪些网站、哪些资源来源的客户端等。爬取规则可以通过爬取系
统设置,后续结合图5进行说明,在此不再赘述。
包括图片和视频中的任意一种或多种组合,视频包括竖版的视频和横版的视频,用户可以
通过注册的账号在平台上上传,以Feeds流的形式提供给平台上的其他用户观看。
讯传播给用户,通常以时间轴(Timeline)方式排列,时间轴是Feeds最原始最直觉也最基本
的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将Feeds汇流于一处
称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,
聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器(Rich Site Summary Reader)、
feed阅读器、新闻阅读器等。
即使是同一个资源上传者,在不同平台中也会存在差异,例如,用户A在第一平台中的注册
账号叫做“用户A的账号”,用户A在第二平台中注册的账号叫“该账号属于用户A”。由于账号
名称存在差异,导致匹配效果较差。
交互信息,以及第二平台中优质标识的第二标识属性信息和优质标识在第二平台所发布资
源对应的第二对象交互信息。
标识的资源领域,属于同一资源领域的账号间的相似才具有意义。例如,用户交互信息表征
账号与用户之间的互动行为,例如,用户关注账号,针对账号发布资源用户进行浏览、播放、
评论、收藏、转发、分享、点赞等行为,可以挖掘账号在用户交互层面针对于优质维度的相似
特性。
针对第二平台中的账号,根据第二标识属性信息和第二对象交互信息构建优质标识的优质
标识向量,优质标识向量可以表征优质标识在其对应的资源领域中的优质特性。
构建目标标识的目标标识向量,根据第二标识属性信息、第二对象交互信息和第二内容构
建优质标识的标识向量。
号的优质特点,丰富标识向量,进一步缩小匹配范围,提高后续标识向量的匹配精度。
核顺序。
度大于80%,则认为优质标识向量与目标标识向量相似度匹配成功,说明目标标识与优质标
识相同或相似,二者属于同一资源领域,可以将目标标识确定为第一平台中潜力优质标识。
质资源。故为了避免优质资源被积压,可以提升目标标识上传的待审核资源在第一平台中
的审核顺序,加速优质资源的审核效率,降低优质资源通过资源处理链路的时长。
以审核更多的优质资源,按照启用同样数量优质资源消耗的审核量来说,相对于相关技术
中按照时间顺序审核待审核资源的方式,本申请实施例提供的方式需要的审核量会减少。
同时,对于推荐系统而言,系统的推荐能力有限,不是所有内容都有曝光机会,本申请实施
例提供的方式会使推荐池内优质资源比例提高,降低审核成本,增大优质资源的曝光率。
核,相当于在审核队列头部,优质资源的比例增加,审核通过的资源数量也会增加,降低了
优质资源在资源处理链路的耗时。
响力参数确定出优质标识,将优质标识作为判断目标标识是否为潜力优质标识的依据。根
据目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互
信息构建目标标识向量,根据优质标识的第二标识属性信息和优质标识在第二平台所发布
资源对应的第二对象交互信息构建优质标识向量。其中,账号属性信息可以明确账号的资
源领域,对象交互信息可以挖掘账号在用户交互层面针对于优质维度的相似特性。若优质
标识向量与目标标识向量相似度匹配成功,说明目标标识为与优质标识属于同一资源领域
的潜力优质标识,可以提升待审核资源在第一平台中的审核顺序,以便快速审核可能属于
优质资源的待审核资源,避免优质资源被积压,降低审核优质资源的耗时,提高资源审核整
体性能,提高用户的查看体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不
仅提高了账号匹配速度,还缩小了匹配范围,提升了匹配精度。
平台上传的待审核资源与优质标识在第二平台已经发布的资源相同,或者说,待审核资源
已经在第二平台通过优质标识发布过,则目标标识与优质标识是同源标识,即在第一平台
注册目标标识的用户与在第二平台注册优质标识的用户是同一个人。此时,由于待审核资
源已经在第二平台发布过,或者说已经被第二平台审核过,第一平台可以采用先发后审机
制,即先发布待审核资源,后续再进行审核。
在问题的资源进行人工复核或者从第一平台中撤回处理等。又如,若该待审核资源在之前
被过滤掉,成为禁用资源,还可以重新启用该待审核资源,因为第二平台能够发布,则该待
审核资源的安全性等程度较高。
的标识关联关系可以进一步挖掘标识的优质特点。
交互行为的数量或类型等确定。例如,可以按照共同关注账号的总数确定。又如,不同的用
户交互行为类型对应的权重不同可以按照用户发起一次用户交互行为在业务当中成本来
定,可以由平台进行设置,通常来说评论资源需要用户进行输入操作,成本最高,可以将该
类型的用户交互行为的权重设置较大,浏览资源次之,播放资源再次之。
的版本,可以是利用不同时间段的样本数据训练得到,也可以是基于图文或者视频账号构
建的对于图文和视频内容的标识向量,本申请对此不做具体限定。
列构建账号间的加权有向图,以用户交互信息为关注账号为例,用户U1的用户交互信息序
列为:先关注D账号,再关注A账号,最后关注B账号,用户U2和用户U3同理。
此,需要对用户的用户交互信息序列进行切割,例如,以预设时长(如十分钟)为间隔,如用
户U2在关注E账号后,超过10分钟后再关注D账号,就进行切分,用户关注E账号与关注D账号
不属于同一个用户交互信息序列。由此,基于三个用户的用户交互信息序列可以生成有向
加权图。
数量很多情况,计算量会成几何级数增长的情况。并且在采样过程中,通过随机游走,如尽
量往热门节点(边的权重较大的节点)方向游走,热门节点关联的数据多,非热门节点关联
的数据少,误点击的影响就会很大,故往热门方向游走采样出来的样本置信度才更高。
资源标签可以是该账号发布多篇资源(如科技文章)对应的标签中数量最多的标签。甚至还
可以融合内容生成目标标识的目标标识向量。
容,融合生成第一平台中账号的账号向量,其中包括目标账号的目标账号向量。
Walk)算法与Skip‑gram算法的组合。Random Walk算法负责对加权有向图进行采样,获得加
权有向图中节点与节点的邻接关系,Skip‑gram算法从采样的序列中训练得到标识向量,即
通过对象交互信息序列来预测下一个节点。比如对于a‑>b‑>e‑>f这个序列,滑动窗口为2,
输入a和b,预测结果是e;输入b和e,预测结果是f。
及该优质标识在其所在的平台的重要程度参数确定,例如,优质标识A的影响力较高,且其
所在的平台对于第一平台而言重要程度较高,该优质标识A的优质程度较高。从而可以在优
质标识集合中根据优质程度对多个优质标识进行排序。目标标识与优质标识匹配成功后,
可以根据优质标识的优质程度提升待审核资源在第一平台中的审核顺序。
的位置。
若该少数资源为优质资源,则潜力优质标识所起到的作用会更加突出,能够改善用户的阅
读体验和增加粘性。特别针对于冷启动情况,相关数据较少,通过确定出潜力优质标识,可
以在资源推荐时,增大潜力优质标识、潜力优质标识上传的所有资源、部分优质资源等分发
权重,增大潜力优质标识上传资源的曝光权重,进而提升用户粘性和使用时长等关键指标。
二数量,若第一数量与第二数量的比值小于占比阈值,提高目标资源领域的潜力优质标识
在资源推荐时的曝光权重。
潜力优质标识上传的待审核资源多曝光。如果目标资源领域的优质资源较少,通过尽可能
让已有优质资源多曝光,提升用户粘性和使用时长等关键指标。
审核和人工审核,通过机器审核过滤掉明显违规的资源,通过人工审核,如先发后审机制等
对资源进行审核,审核通过的待审核资源可以进行资源推荐。同时,为了保证资源内容质量
的整理可控,还可以采用入网点(pop ‑ point‑of‑presence,POP)监控机制,通过用户针对
资源的评论内容,进行情感挖掘和分析,对存在问题的资源推送给人工进行复核。
压或者被过滤掉。例如,可以依据匹配到资源的状态(处于机器审核方式所在的审核队列、
处于人工审核方式所在的审核排队、禁用状态等),调整资源处理链路的调度策略,如果处
于机器审核方式所在的审核队列,则插入机器处理的高优先级队列中;如果处于人工审核
方式所在的审核排队,则人工加速审核;如果是处于禁用状态,可以重新启用。最终实现资
源处理链路的供应效率的优化,最终实现优质资源的加速分发。
化索引库中所有标识向量匹配失败说明这些标识(如优质账号等)还没有被第一平台引入,
具体地,可以获取第一平台中用于相似度匹配的标识向量集合,若优质标识向量与标识向
量集合中所有标识向量相似度匹配失败,发出引入优质标识的提示。例如,可以通过内容引
入源头(如自媒体作者或者内容生产方)引入,如通过业务的商务拓展(Business
Development,BD),吸引优质标识的作者来开号和发布资源,获得作者直接发布的资源,丰
富平台资源库优质资源的供给。
量,若第三数量与第四数量的比值小于覆盖阈值,发出引入优质标识的提示。其中,通过第
三数量与第四数量的比值衡量第一平台中潜力优质标识的覆盖率,若覆盖率低说明第一平
台中潜力优质标识的数量较少,优质资源较少,此时可以将工作的重点放在优质资源的引
入。作为一种可能的实现方式,若覆盖率高说明第一平台中具有大量的潜力优质标识,此时
可以将工作的重点放在加速审核优质资源上。
养,广告内容等等,由此可以提升资源匹配的准确率,降低资源处理链路误杀,即资源在第
二平台的变现表现情况良好,但在第一平台被过滤掉,没有启用分发的机会。
时,或者通过加速人工审核,分配更高的审核优先级,降低链路处理耗时;针对于重新启用
的待审核资源,增加对应的内容标记,并增大潜力优质标识的推荐权重,推荐侧进行冷启动
加权曝光,提升整个优质标识分发的效果和优先级,让优质标识上传的资源能够在更短的
时延内被启用和加速分发。
550。
分页爬取537和代理池538。其中,puppeteer是谷歌(Google)的Chrome开发团队在2017年发
布的一个Node.js包,用来模拟Chrome浏览器的运行。它提供的应用程序编程接口
(Application Programming Interface,API)能方便地控制浏览器,实现爬虫应用、网站截
屏、生成网站PDF等。主要提供两种方式:无界面(Headless)、有界面(FullHead),二者在请
求头部和渲染方式上存在区别(比如被网站检测到头部信息、以及渲染环境)。爬虫引擎单
元530具备一定的反爬取能力(比如利用带来IP池(指某个运营商索能提供的最大限度的IP
段)和控制爬取频率)来模拟实际用户的登录。为了提升爬取的效率,可以采用多线程和多
服务的方式,建立多个爬取的任务,所以这里有一套爬取的自动任务管理服务提供调度。
视化配置单元550配置爬取策略和爬取规则。
分发与内容分发出口服务604、内容数据库605、调度中心606、人工审核系统607、统计上报
接口及分析服务608、潜力优质标识加速调度服务609、机器审核系统610、网络优质标识库
611、标识向量化匹配服务612和网络爬取及解析服务613,下面分别进行说明。
内容(Professional User Generated Content,PUGC)的内容生产者,通过移动端或者应用
程序接口(Application Programming Interface,API)系统,提供本地或者全球广域网
(World Wide Web,web)发布系统提供的图文内容或者上传视频内容包括短视频和小视频
等资源,以下称为内容,这些都是分发内容的主要内容来源;
过Feeds推荐分发获得内容的索引;
析服务608;
质标识的人工审核调度优先级会更高;
息保存在内容数据库605中。
渠道、入库时间、还包括人工审核过程中对内容的分类(包括一、二、三级别分类和标签信
息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国
内手机,标签信息是华为,mate30);
一段时间(如一周,视频内容的有效期更长比如3个月)已经入内容数据库605启用的内容,
对于重复重新入内容数据库605的内容将加上过滤标记不再提供给推荐分发与内容分发出
口服务604,通过内容消费端602输出到用户。
涉及色情、赌博、政治敏感的特性进行一轮初步过滤;
602对内容的负反馈和举报信息按照资源进行实时统计,超过一定阈值和次数的资源推送
给人工审核系统进行复核。
质标识的处理和覆盖情况。
类信息向量化等,最终构建标识向量,然后利用这个标识向量构建标识向量化索引库;
潜力优质标识上传的内容的处理效率和启用率。
和资源分发阶段进行针对性的挖掘、处理和加速。
的一个视频(即待审核资源),根据该视频所属目标账号的账号属性信息和用户交互信息构
建目标账号向量,进而构建账号向量化索引库,将优质账号向量与账号向量化索引库中的
账号向量进行匹配,若匹配成功,则将账号向量化索引库中匹配成功的账号(即潜力优质账
号)向量对应的待审核视频进行人工审核加速或者机器审核加速,提升匹配到账号处理的
准确率和加速审核,降低账号处理链路误杀和处理耗时。在资源分发阶段,对潜力优质账号
进行一定加权匹配,加速潜力优质账号的冷启动。
够在更短的时延内被启用和加速分发,对信息流内容创作和分发的账号生态优化发挥价
值,并持续提升潜力优质账号的启用率与分发效果。
取单元701、构建单元702和执行单元703;
二平台中优质标识的第二标识属性信息和所述优质标识在所述第二平台所发布资源对应
的第二对象交互信息,所述优质标识是基于所述第二平台中标识的影响力参数确定的;
建所述优质标识的优质标识向量;
识,并提升所述待审核资源在所述第一平台中的审核顺序。
内容构建所述优质标识的优质标识向量。
第一平台中的同源账号,并在所述第一平台发布所述待审核资源。
响力参数确定出优质标识,将优质标识作为判断目标标识是否为潜力优质标识的依据。根
据目标标识的第一标识属性信息和目标标识在第一平台所发布资源对应的第一对象交互
信息构建目标标识向量,根据优质标识的第二标识属性信息和优质标识在第二平台所发布
资源对应的第二对象交互信息构建优质标识向量。其中,账号属性信息可以明确账号的资
源领域,对象交互信息可以挖掘账号在用户交互层面针对于优质维度的相似特性。若优质
标识向量与目标标识向量相似度匹配成功,说明目标标识为与优质标识属于同一资源领域
的潜力优质标识,可以提升待审核资源在第一平台中的审核顺序,以便快速审核可能属于
优质资源的待审核资源,避免优质资源被积压,降低审核优质资源的耗时,提高资源审核整
体性能,提高用户的查看体验。而且,通过多维度信息构建标识向量并进行相似度匹配,不
仅提高了账号匹配速度,还缩小了匹配范围,提升了匹配精度。
硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中,图8所示为服务器的
结构示意图,图9所示为终端设备的结构示意图。
Processing Units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以
上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其
中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序
可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令
操作。更进一步地,CPU 1422可以设置为与存储介质1430通信,在服务器1400上执行存储介
质1430中的一系列指令操作。
TM TM TM TM TM
如Windows Server ,Mac OS X ,Unix , Linux ,FreeBSD 等等。
二标识属性信息和所述优质标识在所述第二平台所发布资源对应的第二对象交互信息,所
述优质标识是基于所述第二平台中标识的影响力参数确定的;
标识向量;
源在所述第一平台中的审核顺序。
(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器
1550、音频电路1560、无线保真(Wireless Fidelity,简称WiFi)模块1570、处理器1580、以
及电源1590等部件。本领域技术人员可以理解,图9中示出的智能手机结构并不构成对智能
手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布
置。
1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise
Amplifier,简称LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备
通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统
(Global System of Mobile communication,简称GSM)、通用分组无线服务(General
Packet Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称
CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进
(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简
称SMS)等。
可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所
需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机
的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存
取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易
失性固态存储器件。
输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如
用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的
操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检
测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作
带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将
它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此
外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触
控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以
包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等
中的一种或多种。
Crystal Display,简称LCD)、有机发光二极管(Organic Light‑Emitting Diode,简称
OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控
面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,
随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图9
中,触控面板1531与显示面板1541是作为两个独立的部件来实现智能手机的输入和输入功
能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现智能手机的输
入和输出功能。
境光线的明暗来调节显示面板1541的亮度,接近传感器可在智能手机移动到耳边时,关闭
显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般
为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应
用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)
等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感
器,在此不再赘述。
转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路
1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送
给比如另一智能手机,或者将音频数据输出至存储器1520以便进一步处理。
出了WiFi模块1570,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需
要在不改变发明的本质的范围内而省略。
器1520内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可
选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调
制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处
理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580
中。
耗管理等功能。
处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算
机设备执行上述方面的各种可选实现方式中提供的资源识别方法。
执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一
种:只读存储器(英文:Read‑Only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储
程序代码的介质。
尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,
相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性
的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的
部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围
为准。