一种基于转移概率的网页排序方法及系统转让专利

申请号 : CN201711259227.8

文献号 : CN107943994B

文献日 : 2018-08-21

本发明涉及一种基于转移概率的网页排序方法及系统，其中方法包括以下步骤：PR值计算步骤、根据改进的转移概率表达式计算马尔科夫链平稳分布时网页的PR值；其中改进的转移概率表达式中引入与当前网页的入链数量相关的值作为渗透比进行计算；网页排序步骤、根据网页的PR值的高低对网页进行排序。本发明对于网页链接PR值的平均分配问题进行了优化，不仅考虑了超链接的数量，也考虑了超链接的质量，本发明通过实验展示了优化算法的确提升了PR结果分布的准确性，在一定程度上提升了用户体验，同时对排序的管理也更加公平。

1.一种基于转移概率的网页排序方法，其特征在于，包括以下步骤：PR值计算步骤、根据以下转移概率表达式计算马尔科夫链平稳分布时网页的PR值：其中，PR(u)表示当前网页u的PR值，α为阻尼系数，v为链接到当前网页u的所有外部链接网页，d+(v)表示外部链接网页v的出链数量，U(u)为当前网页u的渗透比；

网页排序步骤、根据网页的PR值的高低对网页进行排序；

所述转移概率表达式中渗透比U(u)根据当前网页u的入链数量以及全部网页中没有入链的网页数量总和共同确定，具体公式为：其中，d-(u)表示当前网页u的入链数量，∑d-表示全部网页中所有入链数量的和，N为全部网页中没有入链的网页数量总和，sgn(d-(u))为当前网页u的入链数量d-(u)的符号函数取值。

2.根据权利要求1所述的基于转移概率的网页排序方法，其特征在于，所述PR值计算步骤中根据当前网页u的入链数量的取值确定转移概率表达式，包括：(1)当d-(u)≠0时，转移概率表达式为：

(2)当d-(u)＝0时，转移概率表达式为：

3.根据权利要求1或2所述的基于转移概率的网页排序方法，其特征在于，所述阻尼系数取值为0.8～0.85。

4.一种基于转移概率的网页排序系统，其特征在于，包括：PR值计算模块，用于根据以下转移概率表达式计算马尔科夫链平稳分布时网页的PR值：其中，PR(u)表示当前网页u的PR值，α为阻尼系数，v为链接到当前网页u的所有外部链接网页，d+(v)表示外部链接网页v的出链数量，U(u)为当前网页u的渗透比；

网页排序模块，用于根据网页的PR值的高低对网页进行排序；

所述PR值计算模块根据当前网页u的入链数量以及全部网页中没有入链的网页数量总和共同确定所述转移概率表达式中渗透比U(u)，具体公式为：其中，d-(u)表示当前网页u的入链数量，∑d-表示全部网页中所有入链数量的和，N为全部网页中没有入链的网页数量总和，sgn(d-(u))为当前网页u的入链数量d-(u)的符号函数取值。

5.根据权利要求4所述的基于转移概率的网页排序系统，其特征在于，所述PR值计算模块根据当前网页u的入链数量的取值确定转移概率表达式，包括：(1)当d-(u)≠0时，转移概率表达式为：

(2)当d-(u)＝0时，转移概率表达式为：

6.根据权利要求4或5所述的基于转移概率的网页排序系统，其特征在于，所述阻尼系数取值为0.8～0.85。

一种基于转移概率的网页排序方法及系统

技术领域

[0001] 本发明涉及信息技术领域，尤其涉及一种基于转移概率的网页排序方法及系统。

背景技术

[0002] 信息技术的快速发展是二十一世纪所取得的重要成就，当前正是网络发展的黄金时代。过去人们通过阅读书本或者口头上的对话来获得信息。这就导致了人们获得的信息不仅依赖于其拥有书本的数量，同时依赖于其在社会中的地位和能力。然而，这样的信息获取方式复杂难懂，不及时，同时还准确度低。与此同时，人们之间的交流方法非常单纯，期间花费很长时间。总之，在互联网技术发展之前，人们的信息生活被时间和空间所限制，导致了巨大的不便和资源的浪费。直到互联网的诞生，这种情况才有所改变。人们对互联网的巨大需求使得互联网在许多不同的领域取得成就，同时也提供了多种不同的互联网产品。去年，中国相关部门的统计数字显示中国拥有巨量的互联网人口，数字大约为6.88亿。在中国，互联网的广泛使用成为了一个普遍现象，普及率大约为50.3％。移动互联网的使用更加普遍，手机的用户达到了6.2亿人。国际网络出口带宽达到了5392116Mbps，网站数量相比2014年增加了26.3％，达到了423万。作为互联网的基础应用，搜索引擎的使用率相比2014年提高了80％。到目前为止，人们依赖于互联网。同时搜索工具的用户使用频率也保持了一个巨大的增长趋势。

[0003] 随着互联网技术的急速发展以及互联网上承载信息的快速增加，互联网成为了人们获取信息的主要方式。人们渴望在资源迅速扩张的世界快速检索所需要的信息。这种需求迫使传统的搜索引擎按照更加智能，更加个性化的方向进行改造。这样一种能够感知用户希望，满足用户个性化需求的个性化搜索引擎成为了未来的发展趋势。

[0004] 网页排序技术毋庸置疑地是提高网络服务质量的核心，它不仅是用户体验的核心指标，也是开发者应该考虑的主要指导方向。目前，网页价值排名算法主要分析两个方面，也就是整体网页的总体内容描述以及页面间的指向方式和页面间的相互关联。然而网页数量的巨大以及其目前增长的快速使得它难以计算。与此同时，后者的引入为研究人员提供了一个新的思路，引发了关于搜索算法讨论的又一个高峰。目前，主要存在着两种不同的方法来计算网页间关联的权重：一是Sergery和Lawrence在1998年提出的PageRank算法,另一个是J.Kleinberg在1998年提出的经典主题提取算法HITS。这两种算法都经过多种实验检验，还主要用于Google和IBM的项目。当然，也有一些研究人员在这些想法的基础上提出了类似的算法并且在本地排序上应用取得了不错的结果。

[0005] PageRank算法广泛用于衡量页面的价值。它通过网页间的链接结构给每个页面设定一个分数，并且通过分数进行排序。从数学上看来，它可以看作一个马尔可夫随机游走模型，通过后一个网页的链接信息计算出他们的转移概率，最后得到稳定分布的马尔可夫链作为网页排序的最终结果。PageRank算法是基于引用机制拓展至“投票”策略而成的一种方法，就是说当一个页面指向他自己时，可以说成是一个页面与他本身所关联。这就等同于这个页面投给了自己一票，从而有助于计算相应的PR值，因此最初的算法设定为如下形式：

[0006]

[0007] 令PR(u)代表当前网页u的PR值。我们把因特网看作一张有向图，其中网页就是图上的顶点。用户从页面之间相互转跳，这实际上就是在点之间的随机移动。使用的PageRank计算方法计算网页价值，其本质就是马尔可夫过程。其中转移概率由网页间的关系来决定。当马尔可夫链收敛时，最终的PR值也确定了下来。也就是说页面的价值被排序完成。公式的直观理解是，一个网页u的PR值，就是所有指向它的网页v的RP值相加。这也是投票策略最直观的定义，然而这个算法实际上并不适合当前的网络环境。假设当前有许多高价值的网页指向网页v，而只有网页v和一个价值非常低的网页w指向u，就如图1所示。那么，根据上面的公式，网页u的重要性就会高于网页v。很明显，这样是不合理的。更进一步，这个算法就是重复自己的PR值去给他指向的页面投票。甚至在他们相互关系的结构上，它的PR值可能是0。
这显然是不合理的。

[0008] 如果在上述基础上进行改进，当一个页面指向多个网页时，每个页面的投票数值根据此公式计算：也就是网页的关联的程度除去他们自己的PR值：

[0009]

[0010] 上述算法相对而言更加公平，如果你想证明网页v的价值高于网页u的价值，你需要大量的网页或者许多高价值的网页指向网页v。然而，当网页结构中出现回路的时候，网页E只有出链的而不能由网页A、B、C、D接入，如图2所示时，该网页E的PR值将无法计算。

发明内容

[0011] 本发明要解决的技术问题在于，针对现有技术中的上述缺陷，提供一种基于转移概率的网页排序方法及系统。

[0012] 本发明第一方面，提供了一种基于转移概率的网页排序方法，包括以下步骤：

[0013] PR值计算步骤、根据以下转移概率表达式计算马尔科夫链平稳分布时网页的PR值：

[0014]

[0015] 其中，PR(u)表示当前网页u的PR值，α为阻尼系数，v为链接到当前网页u的所有外部链接网页，d+(v)表示外部链接网页v的出链数量，U(u)为当前网页u的渗透比；

[0016] 网页排序步骤、根据网页的PR值的高低对网页进行排序。

[0017] 在根据权利要求本发明所述的基于转移概率的网页排序方法中，优选地，所述转移概率表达式中渗透比U(u)根据当前网页u的入链数量而确定，具体公式为：

[0018]

[0019] 其中，d-(u)表示当前网页u的入链数量。

[0020] 在根据权利要求本发明所述的基于转移概率的网页排序方法中，优选地，所述转移概率表达式中渗透比U(u)根据当前网页u的入链数量以及全部网页中没有入链的网页数量总和共同确定，具体公式为：

[0021]

[0022] 其中，d-(u)表示当前网页u的入链数量，N为全部网页中没有入链的网页数量总和，sgn(d-(u))为当前网页u的入链数量d-(u)的符号函数取值。

[0023] 在根据权利要求本发明所述的基于转移概率的网页排序方法中，优选地，所述PR值计算步骤中根据当前网页u的入链数量的取值确定转移概率表达式，包括：

[0024] (1)当d-(u)≠0时，转移概率表达式为：

[0025]

[0026] (2)当d-(u)＝0时，转移概率表达式为：

[0027]

[0028] 在根据权利要求本发明所述的基于转移概率的网页排序方法中，优选地，所述阻尼系数取值为0.8～0.85。

[0029] 本发明第二方面，提供了一种基于转移概率的网页排序系统，包括：

[0030] PR值计算模块，用于根据以下转移概率表达式计算马尔科夫链平稳分布时网页的PR值：

[0031]

[0032] 其中，PR(u)表示当前网页u的PR值，α为阻尼系数，v为链接到当前网页u的所有外部链接网页，d+(v)表示外部链接网页v的出链数量，U(u)为当前网页u的渗透比；

[0033] 网页排序模块，用于根据网页的PR值的高低对网页进行排序。

[0034] 在根据权利要求本发明所述的基于转移概率的网页排序系统中，优选地，所述PR值计算模块根据当前网页u的入链数量确定所述转移概率表达式中渗透比U(u)，具体公式为：

[0035]

[0036] 其中，d-(u)表示当前网页u的入链数量。

[0037] 在根据权利要求本发明所述的基于转移概率的网页排序系统中，优选地，所述PR值计算模块根据当前网页u的入链数量以及全部网页中没有入链的网页数量总和共同确定所述转移概率表达式中渗透比U(u)，具体公式为：

[0038]

[0039] 其中，d-(u)表示当前网页u的入链数量，N为全部网页中没有入链的网页数量总和，sgn(d-(u))为当前网页u的入链数量d-(u)的符号函数取值。

[0040] 在根据权利要求本发明所述的基于转移概率的网页排序系统中，优选地，所述PR值计算模块根据当前网页u的入链数量的取值确定转移概率表达式，包括：

[0041] (1)当d-(u)≠0时，转移概率表达式为：

[0042]

[0043] (2)当d-(u)＝0时，转移概率表达式为：

[0044]

[0045] 在根据权利要求本发明所述的基于转移概率的网页排序系统中，优选地，所述阻尼系数取值为0.8～0.85。

[0046] 实施本发明的基于转移概率的网页排序方法及系统，具有以下有益效果：本发明通过引入当前网页u的渗透比对转移概率表达式进行改进，从而对于网页链接PR值的平均分配问题进行了优化，不仅考虑了超链接的数量，也考虑了超链接的质量，本发明通过实验展示了优化算法的确提升了PR结果分布的准确性，在一定程度上提升了用户体验，同时对排序的管理也更加公平。

附图说明

[0047] 图1是多重网页链接结构的示例图；

[0048] 图2是存在环形链接的网页结构的示例图；

[0049] 图3为根据本发明优选实施例中基于转移概率的网页排序方法的流程图；

[0050] 图4为存在渗透值为0网页的链接结构类型的示例图；

[0051] 图5为根据本发明优选实施例中基于转移概率的网页排序系统的模块框图；

[0052] 图6为PageRank算法分级试验中模拟的网页结构图；

[0053] 图7为本发明与传统算法用于“大学生就业网”相关页面结果的对比图。

具体实施方式

[0054] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0055] 由于传统的PageRank算法使用页面间结构上的信息来判定页面的价值，在计算排名的过程中，同一个页面上的链接被认为重要性相同，也就是说，PageRank值被平均分配给了页面上的每一个链接，而这是传统PageRank算法的致命缺点。传统PageRank算法的理念是在网页上的每条链接被认为投票给它本身，高价值的页面的投出的选票价值更高，获得选票的数量决定了页面的价值。结论就是同一个网页链接由于来自于价值不同的网页而被赋予了不同的权重。这也是本发明改进的切入点。

[0056] 请结合参阅图3，为根据本发明优选实施例中基于转移概率的网页排序方法的流程图。如图3所示，本发明提供的基于转移概率的网页排序方法，包括以下步骤：

[0057] 首先，在步骤S301中，执行PR值(PageRank值)计算步骤：根据改进的转移概率表达式计算马尔科夫链平稳分布时网页的PR值。本发明采用的改进的转移概率表达式为：

[0058]

[0059] 其中，PR(u)表示当前网页u的PR值，α为阻尼系数，v为链接到当前网页u的所有外部链接网页，d+(v)表示外部链接网页v的出链数量，表示对所有链接到当前网页u的所有外部链接网页v计算的求和，U(u)为当前网页u的渗透比。优选地，阻尼系数α取值为0.8～0.85，更优选为0.85。

[0060] 随后，在步骤S302中，执行网页排序步骤：根据网页的PR值的高低对网页进行排序。优选地，按照PR值从高到低对网页进行排序。

[0061] PR值在转移过程中变化规律是可以用马尔科夫的状态转移来进行表征的，两者本质属于同一个问题。则当PR值收敛时，即为马尔可科夫链达到平稳分布。因此，本发明通过引入当前网页u的渗透比对转移概率表达式进行改进基于该改进的转移概率表达式计算马尔科夫链平稳分布时网页的PR值，即经过数次迭代后PR值收敛时的PR值。渗透比U(u)为与当前网页u的入链数量相关的值，使得PR值在设置时不仅考虑了超链接的数量，也考虑了超链接的质量，对于网页链接PR值的平均分配问题进行了优化。

[0062] 下面对本发明的理论原理进行论述。

[0063] 在PageRank算法中，获得超链接的数量是评价页面价值的标准，当一个用户以1-α的概率从所有网站中选择一个页面浏览，每个页面得到的链接数量就是页面价值的关键指标。当一个用户以1-α的概率从所有网站中选择一个页面来观看时，选择A，B，C或者D页面的概率都是1/4，因为他们概率的总和是1。在PageRank算法中，可以认为四个页面的价值是相等的。对于E，F，G以及H页面来说，我们可以发现指向E的页面只有G，同时得到连接的数量为1。同样的，F，G以及H的链接数量分别为1、3和2。则在这个网络图里面总共有7条超链接。同时他们入链数量是不同的。因此，当用户以概率A有选择地转跳，他们会因为不同页面的渗透能力不同而得到不同的概率。转跳到页面E，F，G，H页面的概率应该是1/7，1/7，3/7，2/7。

[0064] 因此，在本发明的第一种实施方式中，转移概率表达式中渗透比U(u)根据当前网页u的入链数量而确定，具体公式为：

[0065]

[0066] 其中，d-(u)表示当前网页u的入链数量，∑d-表示全部网页中所有入链数量的和。

[0067] 也就是说，本发明可以通过以下转移概率表达式设置首次计算网页的PR值：

[0068]

[0069] 当前网页u的入链数量d-(u)是指：在全部网页即需要排序的网页范围内，所有链接到当前网页的外部链接网页的数量总和。当前网页u的入链数量d-(u)又被称为渗透值。而在第一种实施方式中，当前网页u的渗透比U(u)为渗透值与全部网页中所有入链数量的和的比值。通过该方式，可以使得不同页面的渗透能力不同而得到不同的概率，使得PR值的设置更为合理。

[0070] 上述第一种实施方式也存在一定的局限性。当一个页面不存在时，我们通过引入一个潜在的转移概率矩阵来改善这一算法。也就是说，这一页面被视为包含N条指向每一个页面的链接(包括其本身)。如果一个页面不存在任意入链中，第一种实施方式也会产生一些问题，如图4所示。

[0071] 通过第一种实施方式可以得到以下转移概率表达式：

[0072]

[0073] 利用改进的转移概率表达式解得上述方程组的平稳分布为：

[0074] PR(A)＝0.3223；PR(B)＝0.3339；PR(C)＝0.3438；PR(D)＝0

[0075] 可以得到下表1：

[0076] 表1传统算法与本发明算法

[0077]

[0078] 显然，第一实施方式使得A，B，C，D的PR值更加准确。同时得到的排序结果与之前一致。但是在真实的网络环境之中，D的PR值是0，这在一定程度上是不符合实际的。产生这一结果的主要原因是D没有一个入链，也就是说没有其他页面指向D，之后就没有页面投票给它。尽管这一算法不会影响页面的排名，但是当我们浏览页面时，我们也许不会顺着链接浏览到D，在随机转跳的过程中D却可能会被点击到。

[0079] 有鉴于此，本发明提供了第二实施方式，转移概率表达式中渗透比U(u)根据当前网页u的入链数量以及全部网页中没有入链的网页数量总和共同确定，具体公式为：

[0080]

[0081] 其中，d-(u)表示当前网页u的入链数量，N为全部网页中没有入链的网页数量总和，sgn(d-(u))为当前网页u的入链数量d-(u)的符号函数取值。

[0082] 也就是说，本发明可以通过以下转移概率表达式设置首次计算网页的PR值：

[0083]

[0084] 也就是说，指向网页u的概率，或者顺着网页v的超链接浏览到u的概率为而从任意页面随机转跳到到u的概率为在第二实施方式中，通过页面的渗透程度不同来区分了网页的价值，同时也使得每一个页面的PR值不会为零。

[0085] 下面对第二实施方式产生的两种情况进行说明。

[0086] 根据公式(7)，PR值计算步骤中根据当前网页u的入链数量的取值确定具体的转移概率表达式，包括：

[0087] (1)当d-(u)≠0时，转移概率表达式为：

[0088]

[0089] (2)当d-(u)＝0时，转移概率表达式为：

[0090]

[0091] 因此，当所有的网页渗透值均不为零时，第二实施方式与第一实施方式得到的PR值是一致的。在当前页面的渗透值达到零时，其被用户浏览到的概率为本发明的两种优选方式不仅确保了网页价值的准确性，同时还保证了网页之间转跳概率不会为零。

[0092] 请参阅图5，为根据本发明优选实施例中基于转移概率的网页排序系统的模块框图。如图5所示，本发明提供的基于转移概率的网页排序系统500，包括：PR值计算模块501，用于根据改进的转移概率表达式计算马尔科夫链平稳分布时网页的PR值：

[0093]

[0094] 其中，PR(u)表示当前网页u的PR值，α为阻尼系数，v为链接到当前网页u的所有外部链接网页，d+(v)表示外部链接网页v的出链数量，U(u)为当前网页u的渗透比；阻尼系数优选取值为0.8～0.85，更优选为0.85。

[0095] 网页排序模块502与所述PR值计算模块601相连，用于根据网页的PR值的高低对网页进行排序。优选地，按照PR值从高到低对网页进行排序。

[0096] 优选地，在本发明系统的第一种实施方式中，PR值计算模块501根据当前网页u的入链数量确定转移概率表达式中渗透比U(u)，具体公式为：

[0097]

[0098] 其中，d-(u)表示当前网页u的入链数量。

[0099] 更优选地，在本发明系统的第二种实施方式中，PR值计算模块501根据当前网页u的入链数量以及全部网页中没有入链的网页数量总和共同确定所述转移概率表达式中渗透比U(u)，具体公式为：

[0100]

[0101] 其中，d-(u)表示当前网页u的入链数量，N为全部网页中没有入链的网页数量总和，sgn(d-(u))为当前网页u的入链数量d-(u)的符号函数取值。

[0102] 在上述第二种实施方式中，PR值计算模块501根据当前网页u的入链数量的取值确定转移概率表达式，包括：

[0103] (1)当d-(u)≠0时，转移概率表达式为：

[0104]

[0105] (2)当d-(u)＝0时，转移概率表达式为：

[0106]

[0107] 下面通过实验对本发明的基于转移概率的网页排序方法和系统的效果进行验证。

[0108] 1、PageRank算法分级试验

[0109] 我们首先对本发明的优化的算法和之前提到的算法进行分析比较。之后把他们应用于不同类型的网页来分析与比较。我们可以看到当每一个页面数值均为1时，通过传统算法以及优化算法计算出的PR值是一致的。当链接的数量不等时，优化算法得到的网络价值的排序与传统算法是一致的，然而优化算法能够通过PageRank值的变化更加准确地区分高价值页面和与其相对低价值的页面。这就会使得页面的排序变得更加地准确。之后通过试验网络上不同页面之间的不同连接关系得以实现分类。之前我们研究了14种基础页面类型，在这里我们分析了几种典型的网站结构类型。第一种类型是所有页面的数值相等，这种情况下优化算法得到的结果与传统算法得到的结果一致。在之前已经详细地分析过细节在此不再重复。我们模拟了8个页面的相对关系，如图6所示。

[0110] 我们使用了之前的算法，并且分别地计算最优结果，列出了分析结果如下表2所示：

[0111] 表2在图中使用传统算法与本发明方法计算页面PR值与排名

[0112]

[0113]

[0114] 上表是网络链接结构的模拟仿真，优化算法明显改善了PageRank值。最典型的是ID＝4,5,6,7的结果比前者更小。同理，从页面间联系的角度来看，在优化之后PR值在页面相关价值增强后得到了增强，反之亦然。明显可以看出，本发明的优化算法不仅考虑了超链接的数量，同时也考虑了超链接的质量，这使得他们之间的价值得以更加明显地区分。

[0115] 2、基于PageRank算法的网页集合的实验

[0116] 下面我们依然使用例子来进行研究，本文选取了有着更多联系的网站‘http://www.yingjiesheng.com/’以及有着更少联系的‘http://www.ruc.edu.cn/’来进行研究。从而来比较算法优化前后的区别。基于实际情况，我们选取了100个相关页面进行分析，对前十个页面进行比较研究，得到结果如图7所示。

[0117] 从图7中可以清楚地看到：这两种算法对页面的排名是一致的，并且从链接的角度看来，新算法使得结果更加准确。比如通过计算网页2的大多数接入链，它的PR值得到了巨大的提升。之后我们继续分析其他网页与主页‘http://www.ruc.edu.cn/’的联系。对于有着巨大渗透值的网页，新算法得到的PR得到了提升，其价值也得到了更加准确地测量。

[0118] 可以断定，优化算法可以进一步提升网页排序的准确性。然后，我们考虑一下如果优化之前与之后得到的PR相一致，是否这个优化算法可以有一定的阻尼系数浮动范围。我们研究这个问题之后发现，阻尼系数是一个稳定值，用来阻止当一些特殊网页出现时迭代后结果收敛于不适当的位置。在实际环境中，用户进入拥有超链接的页面后可能会以一个特定的概率离开并且随机转跳到网络中任意页面来进行浏览。阻尼系数的值就是由用户接入超链接的概率来决定的，通常是0.85。然而，如果一个确切的浮动范围之内可以得到相同的网页排名结果，那么在真实环境中由于出现的随机转跳而产生误差的概率也会减小。我们计算上述网页类型的阻尼系数发现当阻尼系数是0.8时，使用优化方法可以得到类似的排序结果。当阻尼系数是0.8时，传统算法得到的PageRank的浮动比例比优化算法更加地大。也就是说，优化算法有维持网页排序稳定性的功能，同时有更强的抗干扰能力。进一步讲，使用优化算法后，阻尼系数的一个确切浮动间隔并不会影响网页排序结果的准确性。在实际网络搜索中，由于阻尼系数的存在着一定的不确定性，优化PageRank算法将会得到更加客观的结果。当我们使用幂方法来计算时，相同的值可以使迭代计算拥有更快的收敛速度。因此，优化算法保证了原始排序的结果更加简单可靠。

[0119] 综上所述，由于搜索引擎通常采用PageRank算法来对网页进行排序，本发明在分析了PageRank算法的局限性之后，得到了优化后的网页排序方法以及新的计算PageRank的公式。本发明通过上述一系列的验证，可以证明优化算法优越于传统的算法，并通过实验展示了优化算法的确提升了PageRank结果分布的准确性。当用户使用随机转跳浏览网页时，通常被推荐的页面也是用户最有可能需要的页面。与传统算法相比较，本发明优化算法在一定程度上提升了用户体验，同时对排序的管理也更加公平。

[0120] 最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

一种基于转移概率的网页排序方法及系统转让专利

申请号 : CN201711259227.8

文献号 : CN107943994B

文献日 : 2018-08-21

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 韦鹏程 , 石熙 , 黄思行 , 段昂

申请人 : 重庆第二师范学院

摘要 :

权利要求 :

说明书 :