信息推送方法及装置、电子设备和计算机可读存储介质转让专利

申请号 : CN201911398431.7

文献号 : CN111193795B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘刚

申请人 : 腾讯科技(深圳)有限公司

摘要 :

本公开的实施例提供了一种信息推送方法及装置、电子设备和计算机可读存储介质,属于计算机和通信技术领域。所述方法包括:获取文档,所述文档中包括文字和图片;根据所述文档中的文字信息和图片信息,确定所述文档的美观度信息;根据所述文档的美观度信息,从所述文档中确定目标文档;将所述目标文档推送至目标客户端,以将所述目标文档显示于所述目标客户端的信息流中。本公开实施例的技术方案提供了一种方法,能够根据文档的美观度信息来识别优质文档。

权利要求 :

1.一种信息推送方法,其特征在于,包括:获取文档,所述文档中包括文字和图片;

根据所述文档中的文字信息和图片信息,获得所述文档的图文比例参数、格式比例参数和图片清晰度参数;

获取所述文档的排版结构信息;

获取所述文档的颜色密度信息;

获取所述文档的丰富度信息;

根据所述文档的图文比例参数、格式比例参数、图片清晰度参数、排版结构信息、颜色密度信息和丰富度信息,确定所述文档的美观度信息;

根据所述文档的美观度信息,从所述文档中确定目标文档;

将所述目标文档推送至目标客户端,以将所述目标文档显示于所述目标客户端的信息流中。

2.根据权利要求1所述的方法,其特征在于,所述文字包括显示文字,所述文字信息包括显示文字数量Wtxt;所述图片包括第一图片,所述第一图片的尺寸大于或等于预定规格,所述图片信息包括第一图片数量Ibig;其中,根据所述文档中的文字信息和图片信息,获得所述文档的图文比例参数,包括:根据所述显示文字数量和所述第一图片数量,获得所述文档的图文比例参数。

3.根据权利要求2所述的方法,其特征在于,根据以下公式获得所述文档的图文比例参数Stxt:

其中,A,a1,b1,c1,d1,e1,f1,g1分别为大于0的预置参数,α是权重系数。

4.根据权利要求2所述的方法,其特征在于,所述文字还包括隐藏文字,所述文字信息包括所述隐藏文字和所述显示文字的总文字数量Wall;其中,根据所述文档中的文字信息和图片信息,获得所述文档的格式比例参数,包括:根据所述显示文字数量、所述第一图片数量和所述总文字数量,获得所述文档的格式比例参数。

5.根据权利要求4所述的方法,其特征在于,根据以下公式获得所述文档的格式比例参数Sform:

其中,a2,b2,c2,d2,e2分别为大于0的预置参数。

6.根据权利要求4所述的方法,其特征在于,所述图片包括第二图片,所述第二图片的尺寸小于所述预定规格,所述图片信息还包括第二图片数量Ismall、每张图片的图像清晰度以及每张图片的高度和宽度;其中,根据所述文档中的文字信息和图片信息,获得所述文档的图片清晰度参数,包括:

根据所述第一图片数量、所述第二图片数量、每张图片的图像清晰度和每张图片的高度和宽度,获得所述文档的图片清晰度参数。

7.根据权利要求6所述的方法,其特征在于,根据以下公式获得所述文档的图片清晰度参数Simg:

其中,n为所述文档中的总图片数量,n为大于或等于1的正整数,Si表示第i张图片的图像清晰度;a3,b3,c3,d3,e3,f3,g3,h3,k,β1,β2,β3,β4分别为大于0的预置参数;Iwidth为n张图片的宽度组成的n维向量,Iheight为n张图片的高度组成的n维向量。

8.根据权利要求1所述的方法,其特征在于,获取所述文档的排版结构信息,包括:获得所述文档的树形结构,所述树形结构包括叶子节点;

获得所述叶子节点的平均深度和方差;

根据所述叶子节点的平均深度和方差,获得所述文档的排版结构信息。

9.根据权利要求1所述的方法,其特征在于,根据以下公式获得所述文档的颜色密度信息Scolor:

其中,a4,b4,c4,d4,e4,γ1,γ2为大于0的预置参数;Cbg表示所述文档中的非透明背景颜色数量,Cbd表示所述文档中的非透明边框颜色数量。

10.根据权利要求1所述的方法,其特征在于,获取所述文档的丰富度信息,包括:获取所述文档中的强调标签数量;

获取所述文档中的美化标签数量;

根据所述强调标签数量和所述美化标签数量,获得所述文档的丰富度信息。

11.根据权利要求1所述的方法,其特征在于,所述文档包括第一文档和第二文档;其中,根据所述文档的美观度信息,从所述文档中确定目标文档,包括:生成所述第一文档的第一句向量和所述第二文档的第二句向量;

根据所述第一句向量和所述第二句向量,获得所述第一文档和所述第二文档之间的文档相似度;

若所述文档相似度小于距离阈值,则所述第一文档和所述第二文档为重复文档;

根据所述第一文档的美观度信息和所述第二文档的美观度信息,从所述第一文档和所述第二文档中选择其一作为所述目标文档。

12.一种信息推送装置,其特征在于,包括:文档获取模块,配置为获取文档,所述文档中包括文字和图片;

美观度确定模块,其中所述美观度确定模块包括图文比例获得单元、格式比例获得单元、图片清晰度获得单元、排版结构获取单元、颜色密度获取单元、丰富度获取单元和美观度确定单元,所述图文比例获得单元配置为根据所述文档中的文字信息和图片信息,获得所述文档的图文比例参数;所述格式比例获得单元配置为根据所述文档中的文字信息和图片信息,获得所述文档的格式比例参数;所述图片清晰度获得单元配置为根据所述文档中的文字信息和图片信息,获得所述文档的图片清晰度参数;所述排版结构获取单元配置为获取所述文档的排版结构信息;所述颜色密度获取单元配置为获取所述文档的颜色密度信息;所述丰富度获取单元配置为获取所述文档的丰富度信息;所述美观度确定单元配置为根据所述文档的图文比例参数、格式比例参数、图片清晰度参数、排版结构信息、颜色密度信息和丰富度信息,确定所述文档的美观度信息;

文档确定模块,配置为根据所述文档的美观度信息,从所述文档中确定目标文档;

文档推送模块,配置为将所述目标文档推送至目标客户端,以将所述目标文档显示于所述目标客户端的信息流中。

13.根据权利要求12所述的装置,其特征在于,所述文字包括显示文字,所述文字信息包括显示文字数量Wtxt;所述图片包括第一图片,所述第一图片的尺寸大于或等于预定规格,所述图片信息包括第一图片数量Ibig;其中,所述图文比例获得单元配置为根据所述显示文字数量和所述第一图片数量,获得所述文档的图文比例参数。

14.根据权利要求13所述的装置,其特征在于,根据以下公式获得所述文档的图文比例参数Stxt:

其中,A,a1,b1,c1,d1,e1,f1,g1分别为大于0的预置参数,α是权重系数。

15.根据权利要求13所述的装置,其特征在于,所述文字还包括隐藏文字,所述文字信息包括所述隐藏文字和所述显示文字的总文字数量Wall;其中,所述格式比例获得单元配置为根据所述显示文字数量、所述第一图片数量和所述总文字数量,获得所述文档的格式比例参数。

16.根据权利要求15所述的装置,其特征在于,根据以下公式获得所述文档的格式比例参数Sform:

其中,a2,b2,c2,d2,e2分别为大于0的预置参数。

17.根据权利要求15所述的装置,其特征在于,所述图片包括第二图片,所述第二图片的尺寸小于所述预定规格,所述图片信息还包括第二图片数量Ismall、每张图片的图像清晰度以及每张图片的高度和宽度;其中,所述图片清晰度获得单元配置为根据所述第一图片数量、所述第二图片数量、每张图片的图像清晰度和每张图片的高度和宽度,获得所述文档的图片清晰度参数。

18.根据权利要求17所述的装置,其特征在于,根据以下公式获得所述文档的图片清晰度参数Simg:

其中,n为所述文档中的总图片数量,n为大于或等于1的正整数,Si表示第i张图片的图像清晰度;a3,b3,c3,d3,e3,f3,g3,h3,k,β1,β2,β3,β4分别为大于0的预置参数;Iwidth为n张图片的宽度组成的n维向量,Iheight为n张图片的高度组成的n维向量。

19.根据权利要求12所述的装置,其特征在于,所述排版结构获取单元包括:树形结构获得子单元,配置为获得所述文档的树形结构,所述树形结构包括叶子节点;

均值方差获得子单元,配置为获得所述叶子节点的平均深度和方差;

结构信息获取子单元,配置为根据所述叶子节点的平均深度和方差,获得所述文档的排版结构信息。

20.根据权利要求12所述的装置,其特征在于,根据以下公式获得所述文档的颜色密度信息Scolor:

其中,a4,b4,c4,d4,e4,γ1,γ2为大于0的预置参数;Cbg表示所述文档中的非透明背景颜色数量,Cbd表示所述文档中的非透明边框颜色数量。

21.根据权利要求12所述的装置,其特征在于,所述丰富度获取单元包括:强调特征获取子单元,配置为获取所述文档中的强调标签数量;

美化特征获取子单元,配置为获取所述文档中的美化标签数量;

丰富度获得子单元,配置为根据所述强调标签数量和所述美化标签数量,获得所述文档的丰富度信息。

22.根据权利要求12所述的装置,其特征在于,所述文档包括第一文档和第二文档;其中,所述文档确定模块包括:

句向量生成单元,配置为生成所述第一文档的第一句向量和所述第二文档的第二句向量;

相似度获得单元,配置为根据所述第一句向量和所述第二句向量,获得所述第一文档和所述第二文档之间的文档相似度;

重复文档判定单元,配置为若所述文档相似度小于距离阈值,则所述第一文档和所述第二文档为重复文档;

目标文档选择单元,配置为根据所述第一文档的美观度信息和所述第二文档的美观度信息,从所述第一文档和所述第二文档中选择其一作为所述目标文档。

23.一种电子设备,其特征在于,包括:一个或多个处理器;

存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至11中任一项所述的信息推送方法。

24.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的信息推送方法。

说明书 :

信息推送方法及装置、电子设备和计算机可读存储介质

技术领域

[0001] 本公开涉及计算机和通信技术领域,具体而言,涉及一种信息推送方法及装置、电子设备和计算机可读存储介质。

背景技术

[0002] 随着互联网技术的飞速发展,形形色色的资讯内容越来越丰富,各种内容分发平台应运而生,向用户分发内容(比如,自媒体发布平台向用户分发文章)。
[0003] 随着内容生产门槛的降低,在线图文的流行度反映了它受到了多少人的关注,尽早定位潜在的优质图文,过滤冷门的图文,对推荐、广告和信息检索、内容主动运营推送等
应用场景都具有重要意义,同时也能够极大提升运营的效率。
[0004] 需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。

发明内容

[0005] 本公开实施例提供一种信息推送方法及装置、电子设备和计算机可读存储介质,能够通过文档的美观度信息来识别优质文档。
[0006] 本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007] 本公开实施例提供了一种信息推送方法,所述方法包括:获取文档,所述文档中包括文字和图片;根据所述文档中的文字信息和图片信息,确定所述文档的美观度信息;根据
所述文档的美观度信息,从所述文档中确定目标文档;将所述目标文档推送至目标客户端,
以将所述目标文档显示于所述目标客户端的信息流中。
[0008] 本公开实施例提供了一种信息推送装置,所述装置包括:文档获取模块,配置为获取文档,所述文档中包括文字和图片;美观度确定模块,配置为根据所述文档中的文字信息
和图片信息,确定所述文档的美观度信息;文档确定模块,配置为根据所述文档的美观度信
息,从所述文档中确定目标文档;文档推送模块,配置为将所述目标文档推送至目标客户
端,以将所述目标文档显示于所述目标客户端的信息流中。
[0009] 本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的信息推送方法。
[0010] 本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述
一个或多个处理器实现如上述实施例中所述的信息推送方法。
[0011] 在本公开的一些实施例所提供的技术方案中,对于同时包括文字和图片的文档,可以根据其文字信息和图片信息来确定该文档的美观度信息,从而可以根据该文档的美观
度信息,从每天接收的海量文档中确定出优质的目标文档,以将该优质的目标文档推送至
目标用户(对应目标客户端),一方面,由于用户接收到的推送的文档的文字和图片版式较
为美观,可以提升用户点击和阅读的兴趣,提高内容分发平台的用户粘性,另一方面,可以
给优质文档更多的曝光率,激励内容生产者持续不断地输出优质文档。同时,将美观度信息
作为优质文档的一个筛选因素,可以减轻内容运营人员的运营工作量,提升运营效率。
[0012] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

[0013] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他的附图。在附图中:
[0014] 图1示出了可以应用本公开实施例的信息推送方法或信息推送装置的示例性系统架构的示意图;
[0015] 图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
[0016] 图3示意性示出了根据本公开的一实施例的信息推送方法的流程图;
[0017] 图4示出了图3中所示的步骤S320在一实施例中的处理过程示意图;
[0018] 图5示出了图3中所示的步骤S320在另一实施例中的处理过程示意图;
[0019] 图6示出了图3中所示的步骤S320在另一实施例中的处理过程示意图;
[0020] 图7示出了图3中所示的步骤S320在再一实施例中的处理过程示意图;
[0021] 图8示意性示出了根据本公开的一实施例的文档的树形结构示意图;
[0022] 图9示出了图4中所示的步骤S330在一实施例中的处理过程示意图;
[0023] 图10示意性示出了根据本公开的一实施例的信息推送系统的结构示意图;
[0024] 图11示意性示出了根据本公开的一实施例的信息推送装置的框图。

具体实施方式

[0025] 现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加
全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
[0026] 此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,
本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,
或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方
法、装置、实现或者操作以避免模糊本公开的各方面。
[0027] 附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现
这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0028] 附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合
并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0029] 图1示出了可以应用本公开实施例的信息推送方法或信息推送装置的示例性系统架构100的示意图。
[0030] 如图1所示,系统架构100可以包括第一终端101、第二终端102、网络103和服务器104。网络103用以在第一终端101、102、103和服务器104之间提供通信链路的介质。网络103
可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0031] 应该理解,图1中的终端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络和服务器。比如服务器104可以是多个服务器组成的服务器集
群等。
[0032] 第一用户可以使用第一终端101通过网络103与服务器104交互,以接收或发送消息等。第二用户可以使用第二终端102通过网络103与服务器104交互,以接收或发送消息
等。第一终端101和第二终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包
括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、智能家居设
备等等。
[0033] 服务器104可以是提供各种服务的服务器。例如服务器104接收第二用户上传的待发布的文档,所述文档中包括文字和图片,服务器104可以根据所述文档中的文字信息和图
片信息,确定所述文档的美观度信息,并根据所述文档的美观度信息,从所述文档中确定目
标文档,服务器104可以将所述目标文档推送至目标客户端(第一终端101上安装的客户
端),以将所述目标文档显示于所述目标客户端的信息流中,从而实现内容分发。
[0034] 图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
[0035] 需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0036] 如图2所示,计算机系统200包括中央处理单元(CPU,Central Processing Unit)201,其可以根据存储在只读存储器(ROM,Read‑Only Memory)202中的程序或者从储存部分
208加载到随机访问存储器(RAM,Random Access Memory)203中的程序而执行各种适当的
动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU 201、ROM 202以
及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
[0037] 以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器
等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN(Local Area Network,局
域网)卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络
执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、
磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程
序根据需要被安装入储存部分208。
[0038] 特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储
介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样
的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸
介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和/
或装置中限定的各种功能。
[0039] 需要说明的是,本公开所示的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——
但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组
合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连
接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读
存储器(EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)或
闪存)、光纤、便携式紧凑磁盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的
任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介
质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计
算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了
计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、
光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以
外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指
令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的
程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF(Radio 
Frequency,射频)等等,或者上述的任意合适的组合。
[0040] 附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代
表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个
用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所
标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际
上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要
注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规
定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组
合来实现。
[0041] 描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元和/或子单元也可以设
置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该
模块和/或单元和/或子单元本身的限定。
[0042] 作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电
子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序
被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的
电子设备可以实现如图3或图4或图5或图6或图7或图9所示的各个步骤。
[0043] 人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理
论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解
智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能
也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0044] 人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0045] 机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习
行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学
习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式
教学习等技术。
[0046] 深度学习:深度学习的概念来源于人工神经网络的研究。深度学习是基于深度神经网络,通过梯度递减等优化方式,而最终获得从输入数据和目标数据之间一对一映射函
数的学习过程。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特
征,形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
[0047] 无监督学习:现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。自然地,希望计算机能代人工完成这些工作,
或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问
题,称之为无监督学习。目前深度学习中的无监督学习主要分为两类,一类是确定型的自编
码方法及其改进算法,其目标主要是能够从抽象后的数据中尽量无损地恢复原有数据;一
类是概率型的受限玻尔兹曼机及其改进算法,其目标主要是使受限玻尔兹曼机达到稳定状
态时,原有数据出现的概率最大。
[0048] 随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人
机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得
到应用,并发挥越来越重要的价值。
[0049] 本公开实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
[0050] 内容从内容生产者生成后,进入内容处理链路。内容处理链路在内容质量运营阶段的核心任务是:打压低质内容,扶持优质内容,因此,优质内容的挖掘和识别,毋庸置疑是
一项重要的基础能力。
[0051] 优质的在线图文内容主要包括从数据的角度包括后验和先验两部分,读者维度和作者维度。
[0052] 对于后验数据,主要通过观察图文用户行为的增长趋势,推测出图文的流行度,其难点在于:图文内容发布之后,很难从一开始就了解流行度的整体趋势。而对于先验数据,
优质图文的文本特征是稳定的,优质图文在布局、写法/措辞等上都具有一定的共性,当用
户行为特征较少时,先验数据对于如何识别优质图文内容可靠。
[0053] 从读者维度而言,对于优质内容,在正式阅读之前,让读者看起来就赏心悦目,也就是说看起来美观的内容,读者更希望去进一步阅读。从作者维度而言,看起来美观的内
容,作者需要消耗更多精力和心思,成本付出高,才可能有更多实质性内容,作者很可能是
个专业的媒体或机构,更可能产出好内容。
[0054] 由此可知,美观是优质内容的基本要求,也是一个明显特征。但是,相关技术中,判断和筛选优质内容的方法,很大程度依赖编辑和运营的个人经验,或者通过后验数据提取
出一部分分发效果好的内容,然后再通过人工来筛选过滤,这种识别方式效率很低,获取大
量优质内容需要大量的人工编辑和运营。而且不同的运营人员标准没法量化,受限于运营
人员的水平一致性,经验没法得到有效的沉淀。还有一种方法是,通过网络爬虫收集各种内
容分发平台上的后验数据,比如将阅读量、评论、点赞和转发量高的内容作为正样本数据,
对其进行人工标记,然后将这些正样本数据输入至预先创建基于有监督的优质内容识别模
型,训练该优质内容识别模型,从而可以利用该训练好的优质内容识别模型来查找与正样
本数据相似的内容作为优质内容。但是,这种方法需要大量的人工进行样本标记,效率也比
较低下,还存在标准对齐和样本标准难以统一的问题。
[0055] 图3示意性示出了根据本公开的一实施例的信息推送方法的流程图。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行,例如如图1中的第一终端
101、第二终端102和/或服务器104。在下面的举例说明中,以服务器104为执行主体进行示
例说明。
[0056] 如图3所示,本公开实施例提供的信息推送方法可以包括以下步骤。
[0057] 在步骤S310中,获取文档,所述文档中包括文字和图片。
[0058] 本公开实施例中,这里的文档可以从基于内容发布账号的内容和/或通过网络爬虫自动爬取的内容和/或内容分发平台运营账号发布的内容中获取。其中,内容发布账号是
具有内容发布功能的账号。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程
序或者脚本。
[0059] 在一些实施例中,内容发布账号可以是自媒体账号。可以理解,自媒体是指私人化、自主化的传播者,以现代化、电子化的手段,向不特定的大多数或者特定的单个人传递
规范性及非规范性信息的新媒体的总称。在一些实施例中,自媒体账号可以是在独立的内
容分发平台中注册的、能够自主化发布内容的账号,也可以是在集成于社交平台中的内容
分发平台中注册的、能够自主化发布内容的账号。集成于社交平台中的内容分发平台可以
是即时通信平台中集成的内容分发平台。内容分发平台可以推荐多篇文章和视频(包括竖
版的小视频和横版的短视频(Instant Music Video))等至第一终端(其上安装有终端程
序,例如运行在终端上的各种可接收消息及Feeds(信息流)的应用),以Feeds的形式提供,
以供第一用户(对应第一终端)阅读或浏览。
[0060] 其中,短视频即短片视频,是一种互联网内容传播方式,一般是在互联网上传播的时长在5分钟以内的视频,适合在移动状态和短时休闲状态下观看的、高频推送的视频内
容,一般几秒到几分钟不等。其内容融合了技能分享、幽默搞怪、时尚潮流、社会热点、街头
采访、公益教育、广告创意、商业定制等主题。由于内容较短,可以单独成片,也可以成为系
列栏目。
[0061] 在下面的实施例中,假设第二用户是内容生产者,其编辑待发布的文档,并通过第二终端将该待发布的文档(内容)上传至服务器(可以包括一个或者多组服务器,其上有可
以为终端程序提供远程网络服务的服务器程序),服务器接收到待发布的文档。这里的文档
是指同时包括文字和图片的文章或者图文内容,当然,文档中除了文字和图片以外,还可以
包括音频、超链接等任意其他的内容,文档可以包括以网页形式进行展示的信息。这里的图
片可以包括图像、照片等,还可以包括插入的视频,可以将视频看做一张图片(例如视频未
播放时的静态预览图)。
[0062] 本公开实施例中,内容生产者可以是MCN(Multi‑Channel Network,多频道网络)、PGC(Professional Generated Content,专业生产内容)、UGC(User Generated Content,
用户原创内容)、PUGC(Professional User Generated Content,专业用户生产内容)等中
的任意一种形式。
[0063] 其中,MCN是一种多频道网络的产品形态,将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。PGC是互联网术语,指专业生产内
容(例如视频网站),用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化,也称
为PPC(Professionally‑produced Content)。UGC指用户原创内容,是伴随着以提倡个性化
为主要特点的Web2.0概念而兴起的,它并不是某一种具体的业务,而是一种用户使用互联
网的新方式,即由原来的以下载为主变成下载和上传并重。PUGC是以UGC形式,产出的相对
接近PGC的专业音频内容。
[0064] 在步骤S320中,根据所述文档中的文字信息和图片信息,确定所述文档的美观度信息。
[0065] 具体如何根据文档的文字信息和图片信息获得该文档的美观度信息,可以参照下述图4‑8实施例的描述。
[0066] 在步骤S330中,根据所述文档的美观度信息,从所述文档中确定目标文档。
[0067] 具体如何根据文档的美观度信息确定目标文档,可以参照下述图9实施例的描述。
[0068] 在步骤S340中,将所述目标文档推送至目标客户端,以将所述目标文档显示于所述目标客户端的信息流中。
[0069] 本公开实施例中,Feeds又译为消息来源、源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(web feed,news feed,syndicated feed等),是一种资料格式,网站透过它将
最新资讯传播给用户,通常以时间轴(Timeline)方式排列。用户能够订阅网站的先决条件
是,网站提供了消息来源。将Feeds汇流于一处的称为聚合(aggregation),而用于聚合的软
件称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般称
为RSS(Really Simple Syndication,简易信息聚合)阅读器、feed阅读器、新闻阅读器等。
[0070] 社交网络,也就是网络+社交的意思。通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。社交网络源自网络社交,网络社交的起点是电子邮件。互联网本质
上就是计算机之间的联网,早期的电子邮件(e‑mail)解决了远程的邮件传输问题,同时它
也是网络社交的起点。BBS(Bulletin Board System,电子公告板,网络论坛)则更进了一
步,把“群发”和“转发”常态化,理论上实现了向所有人发布信息并讨论话题的功能,成为早
期的互联网内容自发产生的平台。
[0071] BBS把网络社交推进了一步,从单纯的点对点交流的成本降低,推进到了点对面交流成本的降低。即时通信IM(Instant Messaging)和博客(blog)像是两个社交工具的升级
版本,前者提高了即时效果(传输速度)和同时交流能力(并行处理);后者则开始体现社会
学和心理学的理论‑信息发布节点开始体现越来越强的个体意识,因为在时间维度上的分
散信息开始可以被聚合,进而成为信息发布节点的“形象”和“性格”。
[0072] 随着网络社交的悄悄演进,一个人在网络上的形象更加趋于完整,这时候社交网络出现了。社交网络涵盖以人类社交为核心的所有网络服务形式,互联网是一个能够相互
交流、相互沟通、相互参与的互动平台。社交网络使得互联网从研究部门、学校、政府、商业
应用平台扩展成一个人类社交的工具。网络社交更是把其范围拓展到移动手机平台领域,
借助手机的普遍性和无线网络的应用,利用各种交友/即时通讯/邮件收发器等软件,使手
机成为新的社交网络的载体。
[0073] 在自媒体时代,各种不同的声音来自四面八方,“主流媒体”的声音逐渐变弱,人们不再接受被一个“统一的声音”告知对或错,每一个人都在从独立获得的资讯中,对事物做
出判断。自媒体有别于由专业媒体机构主导的信息传播,它是由普通大众占主导地位信息
的传播活动,由传统的“点到面”的传播,转化为“点到点”的一种对等的传播概念。
[0074] 同时,它也是指为个体提供信息生产、积累和共享,以及传播内容兼具私密性和公开性的信息传播方式。自媒体的内容构成没有既定的核心,想到什么就写什么,只要觉得有
价值的东西就分享出来,有时还会分享一些出格的观点,不需要考虑太多看官的感受,所以
看一些优秀的自媒体图文就像看野史一样十分独特有趣,他们给看官们留下的印象是自媒
体的个性。而且他们在字数方面控制得很好,一般都会控制在1000字左右,让看官可以在10
分钟内流畅阅读完,非常适合在移动时代的快速阅读和消费。通常以Feeds流形式展示出来
供用户快速刷新,订阅源例如可以第一用户的好友或关注的公众人物(即这里的第二用
户),内容是第二用户公开发布的动态信息。当第二用户数量较多且活跃时,就可以收到不
断更新的内容。
[0075] 在各种内容分发平台上,各种不同的自媒体号主(即这里的第二用户)创作各自的图文内容,第一用户可以订阅这些图文内容,然后当图文内容有更新的时候,通过B2C
(Business‑to‑Consumer,Message,这里主要是指从服务器这一方主动发送给第一终端的
各种信息,包括文本、图片、音视频等多媒体信息内容)下行的消息方式将对应的内容推送
给第一用户,展现在第一用户的Feeds当中,当然第一用户也可以主动刷新Feeds获取最新
的信息。信息流中间的图文成为现在用户消费信息和资讯的一种主流模式。
[0076] 本公开实施方式提供的信息推送方法,对于同时包括文字和图片的文档,可以根据其文字信息和图片信息来确定该文档的美观度信息,从而可以根据该文档的美观度信
息,从每天接收的海量文档中确定出优质的目标文档,以将该优质的目标文档推送至目标
用户(对应目标客户端),一方面,由于用户接收到的推送的文档的文字和图片版式较为美
观,可以提升用户点击和阅读的兴趣,提高内容分发平台的用户粘性,另一方面,可以给优
质文档更多的曝光率,激励内容生产者持续不断地输出优质文档。同时,将美观度信息作为
优质文档的一个筛选因素,可以减轻内容运营人员的运营工作量,提升运营效率。
[0077] 从以上内容可知,美观度信息是优质图文内容一个很重要的特征。在下面的实施例中,从以下四个方面来定义文档的美观度信息:
[0078] 1.是否具备合适的图文配比,即图文比例参数。
[0079] 2.是否具有文字强调作用的加粗、斜体、上色等元素,即格式比例参数。
[0080] 3.是否具有清晰的图片,即图片清晰度参数(其中还可以包括是否具有统一的图片规格,即图片规格混乱度。
[0081] 4.是具有专业的排版规格及美观的修饰,即版式美观度(例如可以包括排版结构信息、颜色密度信息和丰富度信息等中的任意一者或者多者的组合)。
[0082] 在下面的实施例中,每个方面可以采用无监督方式进行量化建模,构建这四个维度的特征,然后通过融合这四个维度的特征,来实现对优质图文内容的美观度量化。
[0083] 图4示出了图3中所示的步骤S320在一实施例中的处理过程示意图。本公开实施例中,所述文字可以包括显示文字,所述文字信息可以包括显示文字数量Wtxt。所述图片可以
包括第一图片,所述第一图片的尺寸可以大于或等于预定规格,所述图片信息可以包括第
一图片数量Ibig。
[0084] 例如,若所述文档是HTML文本(HyperText Markup Language,超级文本标记语言),HTML文本中会有隐藏标签,即对应包括隐藏文字和显示文字,隐藏文字是第一用户在
其第一终端上打开该文档时,第一用户无法看到的文字;显示文字是第一用户在其第一终
端上打开该文档时,能够看到的文字。在下面的举例说明中,均以HTML文本为例进行举例说
明,但可以理解的是,HTML只是文本样式的举例说明,文档还可以是任何其他文本格式,例
如txt文本,XML(Extensible Markup Language,可扩展标记语言)文本等。
[0085] 例如,所述预定规格可以200像素,若文档中的某张图片的宽或高小于200像素,则判定这是一张小图;若该张图片的宽和高均大于200像素,则判定这是一张大图,一篇文档
中所有图片的个数减去宽或者高小于200像素的小图图片个数,即等于这里的第一图片数
量Ibig。但这里的200像素仅用于举例说明,并不用于限定本公开的保护范围,可以根据实际
需求进行调整。
[0086] 如图4所示,本公开实施例中,上述步骤S320可以进一步包括以下步骤。
[0087] 在步骤S321中,根据所述显示文字数量和所述第一图片数量,获得所述文档的图文比例参数。
[0088] 本公开实施例中,可以根据以下公式计算获得所述文档的图文比例参数Stxt:
[0089]
[0090] 其中,上述公式(1‑1)中,A,a1,b1,c1,d1,e1,f1,g1分别为大于0的预置参数,α是权重系数。例如,这里A=550,a1=1500,b1=10,c1=15,d1=1500,e1=6,f1=6,g1=10,α
的取值范围是[0.5,1],α的取值和类目相关,类目图片比例多的权重系数高,否则权重系数
低一些。其中,这里的类目图片是指对图片的一种分类,例如可以划分为自拍类图片、风景
类图片、人物类图片、资讯类图片、社会类图片、小说类图片等中的任意一种或者多种,可以
根据各个类目图片所占总图片比例来确定权重系数的大小,也可以预先设定各个类目图片
的权重系数的值。
[0091] 例如,上述公式(1‑1)可以表示为:
[0092]
[0093] 一篇文档的版面设计,其上文字和图片的数量与版面的生动性、记忆性和阅读性有相互作用的关系。一个版面设计,如果仅仅是文字版面的排列而无图片的插入,版面会显
得过于严肃、冷漠、生硬,使人无阅读兴趣;相反只有图片而无文字,则会削弱与读者的沟通
力和亲和力,阅读兴趣也随之减弱。本公开实施例中,将文档中的显示文字数量Wtxt除以第
一图片数量Ibig,文档中的第一图片数量Ibig太少或者太多,都会通过|Ibig‑6|降低图文比例
参数Stxt;通过取对数,当显示文字数量Wtxt与第一图片数量Ibig之间的比例高到一定程度的
时候,图文比例参数Stxt变化缓慢一点,如果图文比例参数Stxt超过一定阈值(例如550),则
直接截断。如果多篇文档的图文比例参数Stxt是相同的,则可以再通过以下维度进行美观度
信息的区分。
[0094] 图5示出了图3中所示的步骤S320在另一实施例中的处理过程示意图。本公开实施例中,所述文字还可以包括隐藏文字,所述文字信息可以包括所述隐藏文字和所述显示文
字的总文字数量Wall。
[0095] 如图5所示,本公开实施例中,上述步骤S320可以进一步包括以下步骤。
[0096] 在步骤S322中,根据所述显示文字数量、所述第一图片数量和所述总文字数量,获得所述文档的格式比例参数。
[0097] 本公开实施例中,可以根据以下公式获得所述文档的格式比例参数Sform:
[0098]
[0099] 其中,上述公式(2‑1)中,a2,b2,c2,d2,e2分别为大于0的预置参数。
[0100] 例如,若a2=32800,b2=4500,c2=1500,d2=8,e2=300,则上述公式可以表示为:
[0101]
[0102] 可以理解的是,预置参数的取值并不限于所例举的实例,可以根据实际情况进行选取。
[0103] 本公开实施例中,如果文档中的某个文字或某张图片的格式比较美观,那么在该文档的源文件(文档的原始文件,包含图文内容本身及其样式)中有比较多的修饰词汇来修
饰这个文字或这张图片,这里的修饰词汇是指文档中的修饰标签,例如加粗、虚化、动图、拉
升等等(即隐藏文字)。将该文档的源文件中所有词汇的个数(即总文字数量Wall)比上用户
看到的文字个数(即Wtxt)和大图的图片个数(即Ibig),能表示出该文档中的每一个文字和大
图分到的排版结果。若用户看到的文字个数Wtxt太少或太多,均会通过|Wtxt‑1500|来降低格
式比例参数Sform。类似的,若大图的图片个数Ibig太少或太多,均会通过|Ibig‑8|来降低格式
比例参数Sform。
[0104] 图6示出了图3中所示的步骤S320在另一实施例中的处理过程示意图。本公开实施例中,所述图片包括可以第二图片,所述第二图片的尺寸可以小于所述预定规格,所述图片
信息还可以包括第二图片数量Ismall、每张图片的图像清晰度以及每张图片的高度(height)
和宽度(width)。
[0105] 如图6所示,本公开实施例中,上述步骤S320可以进一步包括以下步骤。
[0106] 在步骤S323中,根据所述第一图片数量、所述第二图片数量、每张图片的图像清晰度和每张图片的高度和宽度,获得所述文档的图片清晰度参数。
[0107] 本公开实施例中,可以根据以下公式获得所述文档的图片清晰度参数Simg:
[0108]
[0109] 其中,上述公式(1‑3)中,n为所述文档中的总图片数量,n=Ismall+Ibig,n为大于或等于1的正整数,Si表示第i张图片的图像清晰度;a3,b3,c3,d3,e3,f3,g3,h3,k,β1,β2,β3,
β4分别为大于0的预置参数;Iwidth为n张图片的宽度组成的n维向量(该n维向量中的第i位的
数值代表第i张图片的宽度,单位为像素),Iheight为n张图片的高度组成的n维向量(该n维向
量中的第i位的数值代表第i张图片的高度,单位为像素)。
[0110] 本公开实施例中,可以通过以下方式获得n张图片中的每张图片的图像清晰度:预先建立一个深度学习模型,获取样本图像,对样本图像的图像清晰度进行标注打分,然后将
这些样本图像输入至该深度学习模型中,输出相应样本图像的图像清晰度的预测分值,然
后根据该预测分值和对应的标注打分计算该深度学习模型的损失函数,通过梯度回传的方
式不断减小该损失函数的值,直到达到预设的误差大小或者迭代次数达到设定的次数,停
止迭代,该深度学习模型训练完以后,将文档中的每张图片输入至该深度学习模型,即可预
测输出每张图片的图像清晰度。本公开并不限定文档中的每张图片的图像清晰度的获取方
式。
[0111] 例如,若a3=1,b3=1,c3=0.1,d3=6,e3=1,f3=0.1,g3=6,h3=1,k=50,β1=2.1,β2=0.5,β3=2,β4=1,则上述公式可以表示为:
[0112]
[0113] 本公开实施例中,通过以上图片清晰度参数Simg的计算方式,表示一篇文档的平均0.5
图片清晰度越高越好 小图个数越多越好((1+Ismall) ), 也体现了大图
个数越多越好,其占比权重小于小图个数(这个倒数再倒数的关系);文档中的图片宽度、高
度越统一越好( 和 ),并且,图片宽度的统一的重要程度大于高度的统一的
重要程度(β3>β4)。此外,还可以对内容包含少量图片的文档的图片清晰度参数Simg进行降
低,例如判定一篇包括3张9分的图片的文档的图片清晰度比另一篇包括1张10分的图片的
文档的图片清晰度更好。
[0114] 信息量度量的是一个具体事件发生了所带来的信息,而熵H(X)则是在结果出来之前对可能发生的信息量的期望‑考虑该随机变量X的所有可能取值,即所有可能发生事件所
带来的信息量的期望,即:
[0115]
[0116] 上述公式(4)中,m是随机变量X的所有可能取值的数量,m为大于或等于1的正整数,xj为随机变量X的第j个可能取值,p(xj)表示发生xj的概率。信息熵还可以作为一个系统
复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么该系统的信息熵是比较
大的,如果一个系统越简单,出现情况种类很少,极端情况为1种情况,那么对应概率为1,那
么对应的信息熵为0,此时的信息熵较小。
[0117] 例如,假设文档1中的5张图片的宽度依次为:639像素,700像素,800像素,900像素,100像素;文档2中的5张图片的宽度依次为:639像素,640像素,641像素,642像素,643像
素。
[0118] 如果计算信息熵,文档1中的5张图片的信息熵为2.3,文档2中的5张图片的信息熵为2.3,即两者的信息熵是相同的,无法将两者区分开来。
[0119] 范数(norm)是数学中的一种基本概念。在泛函分析中,它定义在赋范线性空间中,并满足一定的条件,即(1)非负性;(2)齐次性;(3)三角不等式。它常常被用来度量某个向量
空间或矩阵中的每个向量的长度或大小。
[0120] 最常用的范数是p‑范数,p为大于或等于1的正整数。若x=[x1,x2,…,xq]T,q为大于或等于1的正整数,T表示矩阵的转置。那么,
[0121] 可以验证p‑范数满足范数的定义。当p取1,2,∞的时候分别是以下几种情形:
[0122] 1‑范数:||x||1=(|x1|+|x2|+…|xq|)  (5)
[0123] 2‑范数:
[0124] ∞‑范数:||x||∞=max(|x1|,|x2|,…,|xq|)  (7)
[0125] 本公开实施例中,进一步可以将 定义为图片规格混乱度,即计算图片规格的混乱度并不是用信息熵,而是使用了范数除以1范数。由以上内容可知,信息熵计算一些
符号的混乱度适合,上述信息熵计算公式需要输入的是概率,但是这里的宽度或者高度是
一个数值,所以并不合适用于计算图片规格混乱度。
[0126] 根据 计算图片规格混乱度,文档1中的5张图片的混乱度为0.35,文档2中的5张图片的混乱度为0.29,混乱程度越小表示文档中的各张图片之间的宽度越集中。
[0127] 图7示出了图3中所示的步骤S320在再一实施例中的处理过程示意图。
[0128] 如图7所示,本公开实施例中,上述步骤S320可以进一步包括以下步骤。
[0129] 在步骤S324中,获取所述文档的排版结构信息。
[0130] 在示例性实施例中,获取所述文档的排版结构信息,可以包括:获得所述文档的树形结构,所述树形结构包括叶子节点;获得所述叶子节点的平均深度和方差;根据所述叶子
节点的平均深度Tmean和方差Tvar,获得所述文档的排版结构信息。
[0131] 本公开实施例中,可以通过以下公式计算获得文档的排版结构信息Stree:
[0132]
[0133] 上述公式(8)中,Tbig_mean_diff表示深度最大的前预定数量(例如前5个)叶子节点的平均深度减去所有叶子节点的平均深度,如果某个文档的树形结构没有5个叶子节点,则取
实际有多少个,例如某个文档的全部叶子节点数量为3,则Tbig_mean_diff取这3个叶子节点的
平均深度。
[0134] 即认为叶子节点的平均深度Tmean越小越好,叶子节点的方差Tvar越大越好。其中,树从根节点开始往下数,叶子节点所在的最大层数称为这个叶子节点的深度。
[0135] 例如,如图8所示,以某个文档的树形结构为例进行举例说明,这里还是以HTML文本为例,HTML的标签文档本身就是一个树形结构,将图文排版表示为一棵树结构,叶子节点
就是最底层内容,最上面的黑色圆点为根节点,最下面的黑色圆点为叶子节点,例如图8中
的标题1、第一段、强调句子(即标签内的强调文本)、标题2、第三段、第四段、标题3、第
五段和第六段。假设第一个叶子节点“标题1”的深度为5,第二个叶子节点“第一段”的深度
为1,第三个叶子节点“强调句子”的深度为2,第四个叶子节点“标题2”的深度为5,第五个叶
子节点“第三段”的深度为1,第六个叶子节点“第四段”的深度为1,第七个叶子节点“标题3”
的深度为5,第八个叶子节点“第五段”的深度为1,第九个叶子节点“第六段”的深度为1,则
该树的叶子节点平均深度为:
[0136] Tmean(5+1+2+5+1+1+5+1+1)/9=2.44
[0137]
[0138]
[0139] 图8的虚线表示在根节点和示出的子节点中间可能有其他子节点,节点越高(节点的高度是从下往上的,深度是从上往下的)表示修饰越多,叶子节点平均深度越小越好,方
差越大越好,并且有多个分段子标题(例如标题1‑3)。
[0140] 在步骤S325中,获取所述文档的颜色密度信息。
[0141] 本公开实施例中,可以根据以下公式获得所述文档的颜色密度信息Scolor:
[0142]
[0143] 其中,上述公式(9‑1)中,a4,b4,c4,d4,e4,γ1,γ2为大于0的预置参数;Cbg表示所述文档中的非透明背景颜色数量,Cbd表示所述文档中的非透明边框颜色数量。
[0144] 例如,若a4=1,b4=1,c4=4500,d4=10,e4=400,γ1=1.5,γ2=2,则上述公式可以表示为:
[0145]
[0146] 在步骤S326中,获取所述文档的丰富度信息。
[0147] 在示例性实施例中,获取所述文档的丰富度信息,可以包括:获取所述文档中的强调标签数量;获取所述文档中的美化标签数量;根据所述强调标签数量和所述美化标签数
量,获得所述文档的丰富度信息。
[0148] 本公开实施例中,可以根据以下公式获得所述文档的丰富度信息Ssd:
[0149] Ssd=(||Ls||0+1)1×(||Ld||0+1)1                 (10)
[0150] 其中,上述公式(10)中,Ls表示所述文档中的强调标签列表,||Ls||0表示强调标签的0范数,例如,若文档中有强调标签10个,则Ls就是一个长度为10的向量,0范数表示的是
这个向量中非零值的个数,即表示的是强调标签数量;Ld表示所述文档中的美化标签,||Ld|
|0表示美化标签的0范数,类似的,表示的是美化标签数量。即丰富度信息体现了文档中的
强调标签和美化标签的丰富度。
[0151] 这里的美化标签是用于对所述文档的版面起美化作用的标签。以HTML文本为例,美化标签可以包括以下标签中的至少一项:
定义水平线;

定义段落;
定义换行;定义表格;Text‑align;Table;Background‑color;Border‑color;Box‑shadow;
Background‑image等。
[0152] 其中,Text‑align属性规定元素中的文本的水平对齐方式,其取值可以为center(居中)、left(左对齐)和right(右对齐)中的任意一种。Background‑color属性设置元素的
背景颜色。这种颜色会填充元素的内容、内边距和边框区域,扩展到元素边框的外边界(但
不包括外边距)。如果边框有透明部分(如虚线边框),会透过这些透明部分显示出背景色。
Border‑color属性设置四条边框的颜色。此属性可设置1到4种颜色。Border‑color属性是
一个简写属性,可设置一个元素的所有边框中可见部分的颜色,或者为4个边分别设置不同
的颜色。Box‑shadow属性可以设置一个或多个下拉阴影的框,例如box_shadow:rgb(170,
170,170)使得图片的边框阴影产生了一种立体效果。Background‑image属性为元素设置背
景图像。
[0153] 这里的强调标签是用于对文档中的内容起强化作用的标签,例如以下中的至少一项:定义文本粗体;
    无序列表;
      有序列表;
    1. 列表项目;

      >
      等定义标题;定义斜体线;定义带有记号的文本;定义加粗文本;<
      em>定义强调文本;blockquote标签定义块引用,其中
      之间
      的所有文本都会从常规文本中分离出来,经常会在左、右两边进行缩进(增加外边距),而且
      有时会使用斜体。也就是说,块引用拥有它们自己的空间。

[0154] 本公开实施例中,还可以提取文档中未归类的美化标签和强调标签(传统HTML标签用了<>包裹起来的,而存在部分图文中找到的HTML特征是没有带<>的,此时也可以将其
归类至美化特征或者强调特征。
[0155] 在步骤S327中,根据所述文档的图文比例参数、格式比例参数、图片清晰度参数、排版结构信息、颜色密度信息和丰富度信息,确定所述文档的美观度信息。
[0156] 本公开实施例中,可以根据以下公式计算获得所述文档的美观度信息Scontent:
[0157]
[0158] 需要说明的是,上述实施例中的步骤S321至S326相互之间的执行顺序并不受限制,例如可以先执行步骤S326计算获得文档的丰富度信息,再执行其他步骤,还可以并行执
行这些步骤。此外,计算文档的美观度信息时,可以像上面举例的,综合考虑文档的图文比
例参数、格式比例参数、图片清晰度参数、版式结构信息、颜色密度信息和丰富度信息,在其
他实施例中,也可以根据图文比例参数、格式比例参数、图片清晰度参数、版式结构信息、颜
色密度信息和丰富度信息中的部分因素来计算获得美观度信息。在另一些实施例中,计算
文档的美观度信息,除了考虑上述实施例中的图文比例参数、格式比例参数、图片清晰度参
数、版式结构信息、颜色密度信息和丰富度信息,还可以综合考虑其他更多与版面排版美观
与否有关的因素,例如采用的字体格式,图片格式等等。
[0159] 本公开实施方式提供的信息推送方法,通过一种无监督的机器学习算法来识别优质图文内容的静态特征,从内容的美观度信息出发,建模来挖掘优质的图文内容。通过对图
文内容的美观度信息进行特征分解,然后构建量化的美观度信息融合公式对图文的美观度
信息进行量化。在具体实现过程当中,例如可以将美观度信息分解为:具备合适的图文配比
(图文比例参数);具有文字强调作用的加粗、斜体、上色等元素(格式比例参数);具有清晰
的图片(图片清晰度参数);具有统一的图片规格(图片规格混乱度);具有专业的排版规格
及漂亮的修饰(版式美观度,可以进一步包括版式结构信息、颜色密度信息和丰富度信息)。
一方面,采用无监督的建模方法,不需要大量的人工标注,提升了识别效率,节约了识别时
间,并降低了识别成本;另一方面,能够将美观度的优质内容的内容特征进行沉淀,统一了
量化的标准。
[0160] 图9示出了图4中所示的步骤S330在一实施例中的处理过程示意图。本公开实施例中,所述文档可以包括第一文档和第二文档。
[0161] 如图9所示,本公开实施例中,上述步骤S330可以进一步包括以下步骤。
[0162] 在步骤S331中,生成所述第一文档的第一句向量和所述第二文档的第二句向量。
[0163] 本公开实施例中,可以采用BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码器表示)预训练模型分别将第一文档和第二文
档的图文内容标题和正文向量化,生成第一文档的第一句向量和第二文档的第二句向量。
[0164] 在另一些实施例中,也可以采用其他的句向量生成方式来生成第一文档的第一句向量和第二文档的第二句向量,例如采用word embedding(词嵌入向量)的方式取加权平
均。word embedding无法理解上下文的语义,同一个词在不同的语境意思可能不一样,但是
却会被表示成同样的word embedding,BERT生成句向量的优点在于可理解句意,并且排除
了词向量加权引起的误差。
[0165] BERT包括两个版本,12层的transformer和24层的transformer。每一层transformer的输出值,理论上来说都可以作为句向量,这里是取倒数第二层的输出值作为
句向量,因为最后一层的输出值太接近于目标,前面几层的输出值可能语义还未充分的学
习到。
[0166] 在步骤S332中,根据所述第一句向量和所述第二句向量,获得所述第一文档和所述第二文档之间的文档相似度。
[0167] 本公开实施例中,可以通过计算第一句向量和第二句向量之间的距离例如欧式距离来获得第一文档和第二文档之间的文档相似度。
[0168] 在步骤S333中,若所述文档相似度小于距离阈值,则所述第一文档和所述第二文档为重复文档。
[0169] 本公开实施例中,可以预先设定一个距离阈值(可以根据实际需求进行设置),若第一文档和第二文档之间的距离即文档相似度小于该距离阈值,则确定这两篇图文内容重
复。
[0170] 需要说明的是,本公开对两篇文档是否重复文档的判断方法并不限于上述实施例,在一些实施例中,可以先将第一文档和第二文档分别进行分词,得到第一文档的第一特
征向量和第二文档的第二特征向量,然后计算第一特征向量和第二特征向量之间的距离
(例如欧式距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断第一文档和第
二文档的相似度。在另一些实施例中,还可以采用simhash算法来解决亿万级别的文档的去
重任务,首先对第一文档和第二文档分别进行分词,得到第一文档和第二文档各自的有效
的特征向量,然后为每一个特征向量设置1‑5等5个级别的权重(例如给定一个文本,那么特
征向量可以是文本中的词,其权重可以是这个词出现的次数)。然后,通过hash函数计算各
个特征向量的hash值,hash值为二进制数01组成的n1‑bit(n1为大于或等于1的正整数)签
名,这样,字符串就变成了一系列数字。在hash值的基础上,给所有特征向量进行加权,即W
=hash*weight(权值),且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。将
上述各个特征向量的加权结果累加,变成一个序列串。对于n1‑bit签名的累加结果,如果大
于0则置1,否则置0,从而得到第一文档和第二文档的simhash值,可以根据simhash值的海
明距离来判断它们之间的文档相似度。海明距离的求法:异或时,只有在两个比较的位不同
时其结果是1,否则结果为0,两个二进制“异或”后得到1的个数即为海明距离的大小。
[0171] 在步骤S334中,根据所述第一文档的美观度信息和所述第二文档的美观度信息,从所述第一文档和所述第二文档中选择其一作为所述目标文档。
[0172] 本公开实施方式提供的信息推送方法,可以将上述实施例获得的文档的美观度信息应用于重复文档的过滤过程中,即在文档的排重任务中,发现两篇或者多篇文档重复了,
此时可以根据重复文档的美观度信息,选择美观度信息最高的那篇文档作为推送给用户的
目标文档,这样,一方面,可以减轻内容运营人员的压力,实现重复内容的自动过滤;另一方
面,能够实现推送给用户的是无重复的且最美观的图文内容。
[0173] 图10示意性示出了根据本公开的一实施例的信息推送系统的结构示意图。
[0174] 如图10所示,本公开实施例还提供了一种信息推送系统,其可以包括:C端分布系统或者web发布系统(生产端)、上下行内容接口服务器、调度中心服务器、内容数据库、推荐
分发系统、内容分发出口服务器、图文内容消费端、统计上报接口服务器、统计数据库、人工
审核系统、图文排重服务器和美观度预测服务器。
[0175] 该信息推送系统可以基于无监督的机器学习算法获得图文内容的美观度信息,并基于美观度信息进行优质图文内容的挖掘,各个服务模块的主要功能如下:
[0176] PGC或者UGC,MCN或者PUGC的内容生产者,通过移动端或者后端接口API(Application Programming Interface,应用程序接口)系统,提供本地或者web发布系统
提供的图文内容,这些都是分发内容的主要内容来源。
[0177] C端发布系统或者web发布系统(生产端)通过和上下行内容接口服务器的通讯,先获取上传服务器的接口地址,然后再通过这个接口地址,将待发布的图文内容上传至上传
服务器,上传服务器再将上传的图文内容存储至内容数据库中。
[0178] 上下行内容接口服务器和生产端直接通讯,将生产端提交的待发布的内容,通常是图文内容的标题、发布者、摘要、封面图和发布时间等内容存储至内容数据库。
[0179] 其中,内容数据库是内容的核心数据库,所有生产者发布内容的元信息(元信息不包括图文内容的正文和正文里面穿插的视频和图片,图文内容的正文和正文里面穿插的视
频和图片是内容本身)都保存在这个内容数据库当中,重点是内容本身的元信息,比如大小
(指整篇图文包含多少字节)、封面图链接、标题、发布时间、发布者、来源渠道和入库时间,
还可以包括人工审核过程中对内容的分类,具体可以包括一、二、三级别分类和标签信息。
例如一篇介绍XX(代表品牌名称或厂商名称)手机技术和对比的文章,一级分类是科技,二
级分类是手机,三级分类是国内手机,标签信息是XX,拍照手机等等。
[0180] 整个业务流程当中,内容处理主要包括机器处理和人工审核处理,人工审核和机器处理的内容都返回至内容数据库中的一个已审核内容池,依据不同的审核结果对图文内
容进行相应的标记,机器处理完毕后再人工处理。人工审核过程当中会读取内容数据库当
中的信息,同时人工审核的结果和状态也会回传进入内容数据库当中保存,人工审核结果
也是后续衡量算法过滤模型效率的一个重要依据。例如有一个算法是用于打击标题党内容
(即内容生产者故意起一些吸引人眼球的名称,但实际内容与标题并不相符的图文内容),
对于标题党内容要直接过滤掉,但是机器审核处理后,人工审核系统还是发现了很多标题
党内容没有过滤,这里通过人的监督可以衡量算法的效率。
[0181] 其中,人工审核系统读取内容数据库中图文内容本身的原始信息(这里是图文本身所有信息,所见即所得),通常是一个业务复杂的基于web数据库开发的系统,主要是确保
推送的内容符合当地法律和政策,例如是否涉及色情、赌博等,对图文内容进行一轮初步过
滤。审核的内容来自自媒体主动发布和网络爬虫从公共网络上获取的。审核的结果最后通
过调度中心,写入内容数据库当中。
[0182] 作为图文内容的消费者(例如上述实施例中的第一用户),通过内容消费端和上下行内容接口服务器通讯,获取待访问的图文内容的索引信息,然后和上下行内容接口服务
器以及内容分发出口服务器通讯直接消费图文内容,消费的前提是通过Feeds推荐分发系
统获得待访问的图文内容的索引,这里上下行内容接口服务器和内容分发出口服务器中的
索引信息实际上均来源于推荐分发系统。其中,内容分发出口服务器是一组地域上就近部
署在用户附近的接入服务。
[0183] 推荐分发系统、图文排重服务器和美观度预测服务器都需要从内容数据库当中获取内容。例如,图文排重服务器会依据业务需求加载过去一段时间(如最近一周)已经入库
启用的内容,对于重复重新入库的内容加上过滤标记,不再提供给内容分发出口服务器输
出到用户。在美观度预测服务器中实现内容数据库中存储的图文内容的美观度信息预测服
务。选择重复图文内容中美观度信息最高的图文内容作为推荐分发结果。但是,美观度信息
预测服务不仅可以应用于图文排重服务当中,其主要用于挖掘优质图文内容,对优质图文
内容加权推荐和运营。图文排重服务和美观度预测服务都是机器处理过程,处理的结果保
存在内容数据库当中。
[0184] 其中,调度中心服务器负责内容流转的整个调度过程,通过上下行内容接口服务器接收入库的图文内容,然后从内容数据库中获取内容的元信息。调度图文排重服务,对重
复入库的内容进行标记和过滤。调度美观度预测服务,评估计算每一个图文内容的美观度
信息,用于优质图文内容的挖掘和图文排重服务当中。对于机器无法处理的内容,比如政治
敏感、安全问题内容需要人工审核的,调用人工审核系统进行人工审核的处理。
[0185] 推荐分发系统从内容数据库中获取存储的图文内容,标记当前时刻可推荐的内容,构成内容数据库中的一个推荐内容池。分发出口服务器和推荐分发系统通讯,从推荐分
发系统获取到推荐分发结果(包括上述的索引信息),下发到内容消费端展示在用户的
Feeds列表当中。
[0186] Feeds及用户点击行为和环境上报功能:收集内容消费端用户当前网络环境及用户对Feeds中间信息的点击操作行为和Feeds图文内容的曝光数据,上报给统计上报接口服
务器,将上报的统计数据结果写入统计数据库,为后续的统计分析和挖掘提供数据支撑。
[0187] 本公开实施方式提供的信息推送方法,一方面,能够让优质创作者的内容能够在更短的时延内被启用,进入推荐内容池分发;另一方面,对运营内容的运营效率也能够带来
较大的提升,对于大量重复的图文内容,通过对图文内容进行美观度的量化评价,从而在内
容分发之前,就可以根据美观度信息过滤掉部分低于一定阈值的低质内容,同时,还能引导
和帮助内容创作者生成优质的内容,使整个内容生态进入良性的循环。
[0188] 图11示意性示出了根据本公开的一实施例的信息推送装置的框图。
[0189] 如图11所示,本公开实施方式提供的信息推送装置1100可以包括:文档获取模块1110、美观度确定模块1120、文档确定模块1130以及文档推送模块1140。
[0190] 其中,文档获取模块1110可以配置为获取文档,所述文档中包括文字和图片。美观度确定模块1120可以配置为根据所述文档中的文字信息和图片信息,确定所述文档的美观
度信息。文档确定模块1130可以配置为根据所述文档的美观度信息,从所述文档中确定目
标文档。文档推送模块1140可以配置为将所述目标文档推送至目标客户端,以将所述目标
文档显示于所述目标客户端的信息流中。
[0191] 在示例性实施例中,所述文字包括显示文字,所述文字信息可以包括显示文字数量Wtxt;所述图片可以包括第一图片,所述第一图片的尺寸可以大于或等于预定规格,所述
图片信息可以包括第一图片数量Ibig。其中,美观度确定模块1120可以包括图文比例获得单
元,可以配置为根据所述显示文字数量和所述第一图片数量,获得所述文档的图文比例参
数。
[0192] 在示例性实施例中,所述图文比例获得单元可以根据以下公式获得所述文档的图文比例参数Stxt:
[0193]
[0194] 其中,A,a1,b1,c1,d1,e1,f1,g1分别为大于0的预置参数,α是权重系数。
[0195] 在示例性实施例中,所述文字还包括隐藏文字,所述文字信息包括所述隐藏文字和所述显示文字的总文字数量Wall。其中,美观度确定模块1120还可以包括格式比例获得单
元,可以配置为根据所述显示文字数量、所述第一图片数量和所述总文字数量,获得所述文
档的格式比例参数。
[0196] 在示例性实施例中,所述格式比例获得单元可以根据以下公式获得所述文档的格式比例参数Sform:
[0197]
[0198] 其中,a2,b2,c2,d2,e2分别为大于0的预置参数。
[0199] 在示例性实施例中,所述图片可以包括第二图片,所述第二图片的尺寸可以小于所述预定规格,所述图片信息还可以包括第二图片数量Ismall、每张图片的图像清晰度以及
每张图片的高度和宽度。其中,美观度确定模块1120还可以包括图片清晰度获得单元,可以
配置为根据所述第一图片数量、所述第二图片数量、每张图片的图像清晰度和每张图片的
高度和宽度,获得所述文档的图片清晰度参数。
[0200] 在示例性实施例中,所述图片清晰度获得单元可以根据以下公式获得所述文档的图片清晰度参数Simg:
[0201]
[0202] 其中,n为所述文档中的总图片数量,n为大于或等于1的正整数,Si表示第i张图片的图像清晰度;a3,b3,c3,d3,e3,f3,g3,h3,k,β1,β2,β3,β4分别为大于0的预置参数;Iwidth
为n张图片的宽度组成的n维向量,Iheight为n张图片的高度组成的n维向量。
[0203] 在示例性实施例中,美观度确定模块1120还可以包括:排版结构获取单元,可以配置为获取所述文档的排版结构信息;颜色密度获取单元,可以配置为获取所述文档的颜色
密度信息;丰富度获取单元,可以配置为获取所述文档的丰富度信息;美观度确定单元,可
以配置为根据所述文档的图文比例参数、格式比例参数、图片清晰度参数、排版结构信息、
颜色密度信息和丰富度信息,确定所述文档的美观度信息。
[0204] 在示例性实施例中,所述排版结构获取单元可以包括:树形结构获得子单元,可以配置为获得所述文档的树形结构,所述树形结构包括叶子节点;均值方差获得子单元,可以
配置为获得所述叶子节点的平均深度和方差;结构信息获取子单元,可以配置为根据所述
叶子节点的平均深度和方差,获得所述文档的排版结构信息。
[0205] 在示例性实施例中,所述颜色密度获取单元可以根据以下公式获得所述文档的颜色密度信息Scolor:
[0206]
[0207] 其中,a4,b4,c4,d4,e4,γ1,γ2为大于0的预置参数;Cbg表示所述文档中的非透明背景颜色数量,Cbd表示所述文档中的非透明边框颜色数量。
[0208] 在示例性实施例中,所述丰富度获取单元可以包括:强调特征获取子单元,可以配置为获取所述文档中的强调标签数量;美化特征获取子单元,可以配置为获取所述文档中
的美化标签数量;丰富度获得子单元,可以配置为根据所述强调标签数量和所述美化标签
数量,获得所述文档的丰富度信息。
[0209] 在示例性实施例中,所述文档可以包括第一文档和第二文档。其中,文档确定模块1130可以包括:句向量生成单元,可以配置为生成所述第一文档的第一句向量和所述第二
文档的第二句向量;相似度获得单元,可以配置为根据所述第一句向量和所述第二句向量,
获得所述第一文档和所述第二文档之间的文档相似度;重复文档判定单元,可以配置为若
所述文档相似度小于距离阈值,则所述第一文档和所述第二文档为重复文档;目标文档选
择单元,可以配置为根据所述第一文档的美观度信息和所述第二文档的美观度信息,从所
述第一文档和所述第二文档中选择其一作为所述目标文档。
[0210] 本公开实施例提供的信息推送装置中的各个模块、单元和子单元的具体实现可以参照上述信息推送方法中的内容,在此不再赘述。
[0211] 应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个
或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,
上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和
子单元来具体化。
[0212] 通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开
实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失
性存储介质(可以是CD‑ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算
设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的
方法。
[0213] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或
者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识
或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的
权利要求指出。