◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
搜客中国---开搜工作室是一个以网站优化为基础的网络工作室。主营业务有:网站优化,百度排名,google排名,域名代理,空间租赁,网站开发,网站设计等。开搜工作室自2007年成立至今为各大公司提供优化服务,经典案例有:中国精神健康网,中国轴承网,天津沪信彩虹,中国石油设备网,天津德依纳轴承销售有限公司,天津领航教育,天津南易集团等。受到广大客户的一致好评。咨询电话:15522233360
关于pr的一些重要知识
Post by wangdezhi, 2009-10-4, Views:关于PR。
一 pr的由来。Pr是有天津google天津网站优化公司的两位创始人:L.page和S.Brin在1998年发明出来的。提出pr的原因其实很简单。当时美国万维网正处于高速发展之中,即我们所说的信息大爆炸的时代,每年网页的数量都会以100%的速度递增。然而,网页的质量却参差不齐。为了衡量各个网页之间的重要程度,因此发明了pr。从而通过网页的排名使最重要的而且有价值的页面能够在相关内容中进行优先检索。(pr是基于网页级别)。
二 如何衡量pr?
人们在万维网中冲浪经常是从某一个网页出发顺着网页间的链接来获取知识。因此网页与网页之间的链接关系被挖掘出来。经过这种对链接的分析来体现pr。
1. 反向链接越多的页面说明该页面的认可度会很高。
2. 反向链接的页面质量高的,该页面的质量也会很高。
3. 链接数少的页面会相比较重要。
三 pr的计算方法
PageRank算法的修改
要实施在PageRank的另外的因素,再有修改原物PageRank算法。 因为我们必须假设, PageRank演算仍然根据许多叠代和为短的计算时间的目的,我们必须考虑保持数据库询问的数量在叠代期间一样小尽可能。 所以, PageRank算法的以下修改将假设:
PR (A) = (1-d) + d (PR (T1) ×L (T1, A) +… + PR (Tn) ×L (Tn, A))
这里, L (钛, A)代表然而从页钛指向呼叫A.L链接的评估(钛, A)被向外去链接的数量在1/C给的页钛的替换PageRank额外页钛(钛)。 L (钛, A)也许包括几个因素,必须的每一个只一次被确定然后被合并到一价值,在重复PageRank演算开始之前。 因此,数据库询问的数量在叠代期间的停留同样,虽然,诚然,一个更大的数据库必须被询问在每步与计算比较利用原始的算法,从现在那里是每个链接的评估而不是页的评估(由他们的向外去链接的数量)。
链接的另外评估在文件之内的
二他的PageRank专利说明的劳伦斯・提及的链接的评估的标准Page是visibilty一个链接和它的在文件之内的位置。关于任意冲浪者模型,那些标准反射点击在一个具体网页的一个链接的任意冲浪者的可能性。 在原始的PageRank算法,期限给这个可能性(1/C (钛)),藉以可能性为在一页的每个链接是相等的。
分配不同的可能性到在页的每个链接可能,例如,体会如下:
我们看一看在包括三页A, B anc C的网,其中这些页中的每一有向外去链接对两个其他页。 二个评估标准衡量链接x,并且Y. x代表链接的可见性。 x均等1,如果链接没有特别被强调,和2,如果链接,例如,大胆或斜体。 Y代表一个链接的位置在文件之内的。 Y合计1,如果链接在页的下半和3,如果链接在页的上半方。 如果我们假设X和Y之间的一种乘交互作用,在我们的例子中的链接被评估如下:
x (A, B) × Y (A, B) = 1 × 3 = 3
x (A, C) × Y (A, C) = 1 × 1 = 1
x (B, A) × Y (B, A) = 2 × 3 = 6
x (B, C) × Y (B, C) = 2 × 1 = 2
x (C, A) × Y (C, A) = 2 × 3 = 6
x (C, B) × Y (C, B) = 2 × 1 = 2
为determinig的目的不能被共计衡量唯一因素L,被评估的链接被向外去链接的数量在一页的,而是实际上在页的被评估的链接。 从而,我们得到唯一页钛的以下额外商数Z (钛) :
Z (A) = X (A, B) × Y (A, B) + X (A, C) × Y (A, C) = 4
Z (B) = X (B, A) × Y (B, A) + X (B, C) × Y (B, C) = 8
Z (C) = X (C, A) × Y (C, A) + X (C, B) × Y (C, B) = 8
评估析因L (T1, T2)因此从页T1指向到页T2被给的链接的
L (T1, T2) = X (T1, T2) × Y (T1, T2)/Z (T1)
他们的关于我们的例子的价值是如下:
L (A, B) =
在一个阻尼系数d 0.5,我们得到PageRank价值的演算的以下等式:
PR (A) = 0.5 + 0.5 (0.75 PR (B) + O.75 PR (C))
PR (B) = 0.5 + 0.5 (0.75 PR (A) + 0.25 PR (C))
PR (C) = 0.5 + 0.5 (0.25 PR (A) + 0.25 PR (B))
解决这些等式给我们我们的例子的follwing的PageRank价值:
PR (A) = 819/693
PR (B) = 721/693
PR (C) = 539/693
首先,我们看见页A有所有三页最高的PageRank。 这是由接受相对地更高的被评估的链接的页A造成的从从页C.的页B并且。
此外,我们看见甚而由唯一链接的评估,所有页的PageRank价值的总和合计3 (2079/693)和从而页的总数。 因此,我们修改过的PageRank算法计算的PageRank价值可以为网页一般等第使用由天津google优化,不用是任何的正常化需要的。
链接的另外评估由Page Specific标准的
除链接的不同等的评估以外在文件之内的,劳伦斯页根据根据连接的页的标准提及评估链接的可能性。在第一扫视,这不似乎必要,因为它是排列页的PageRank的主要原则越高,更加高级页与他们连接。 但是,在他们的在PageRank,页和Brin的科学工作之时已经认为他们的算法是脆弱的对PageRank的人为通货膨胀。
对PageRank的人为影响也许由引起一许多网页链接分布PageRank用方式的Web站点管理员施加在那个系统之内的唯一页接受一个特别重要性。那些页可能有高PageRank,不用连接到从其他页与高PageRank。因此, PageRank的不仅概念被破坏,而且搜索引擎的索引发送同样的消息到多个新闻组与单独地被创造影响PageRank的无数的相当数量网页。
在他的PageRank的专利说明,劳伦斯页由页之间的距离提出链接的评估作为手段避免PageRank的人为通货膨胀,因为越大二页之间的距离,很少可能一Web站点管理员掌握两个。 如果他们在同一个领域,距离的一个标准二页之间也许是。 这样,内部链接是被衡量的较不比外部链接。最后,距离的任何一般措施链接之间的可以被用于确定这样额外。 这领会页是否在同一台服务器或不是并且服务器之间的地理距离上。
作为文件的重要性的另一显示,劳伦斯页提及与它连接本文的现代化程度。这个论据考虑关于页的信息很少可能地是过时的,是最近修改过的链接对它的更多页。 相反,原始的PageRank概念,象测量链接大众化所有方法,倾向比新的文件获取他们的入站链接他们的存在其间和在一个更高的可能性最近被修改了较少的更旧的文件。基本上,最近修改过的文件也许通过衡量因素给一个更高的评估(1-d)。 这样,两个那些最近修改过的文件和他们连接接受更高的PageRank的页。 但是,如果最近修改了页,不一定是显示为对此提出的信息的重要性。 因此,如建议由劳伦斯・ Page,不倾向最近修改过的页,但是仅他们的向外去链接是适当的。
终于,页提及页的网地点的重要性作为显示它的向外去链接的重要。例如一个重要网地点他命名领域的根页,但是,在最后,谷歌可能绝对任意地施加对PageRank的影响。
要实施连接的页的评估入PageRank,修改过的算法的评估因素必须包括几个唯一因素。 为从页钛指向呼叫A的链接,可以给它如下:
L (钛, A) = K (钛, A) × K1 (钛) ×… × Km (钛)
那里K (钛, A)是一个唯一链接的以上被提出的额外在页之内的由它的可见性或位置。另外,页钛的评估由由因素Kj的m标准的(钛)代表发生。
要实施连接的页的评估,必须修改不仅算法,而且PageRank演算行动。 这将由例子说明。
我们看一看在包括三页A, B的网,并且C,藉以页B和C,页B的页A链接连接呼叫C和页C链接呼叫A。 一页向外去链接平等地被评估,那么没有额外由visibilty或位置。但是现在,页由一个标准评估。 这样,从页C的一个入站链接将被考虑四倍重要象从其他页之一的一个入站链接。 在衡量由页的数量以后,我们得到以下评估因素:
K (A) = 0.5
K (B) = 0.5
K (C) = 2
在一个阻尼系数d 0.5,给PageRank价值的计算的等式
PR (A) = 0.5 + 0.5 × 2 PR (C)
PR (B) = 0.5 + 0.5 × 0.5 × 0.5 PR (A)
PR (C) = 0.5 + 0.5 (0.5 PR (B) + 0.5 × 0.5 PR (A))
解决等式给我们follwing的PageRank价值:
PR (A) = 4/3
PR (B) = 2/3
PR (C) = 5/6
在PageRank算法的当前修改,所有页积累PageRank不再合计页的数量。 因此原因是页评估的额外由页的数量的不是适当的。 要确定适当的额外,网的连接的结构将必须被期望,在实际万维网的情况下不是可能的。所以,如果没有对页一般等第的任何无理由的作用将由天津google优化,连接页的评估计算的PageRank必须是正常化的。 在重复演算之内,正常化将必须在每叠代以后发生使有意无意的畸变减到最小。
在一个小网情况下,页的评估经常导致严厉畸变。在实际万维网情况下,这些畸变应该由页的数量通常调平。 的确,将期望距离的评估页之间的将导致在PageRank的畸变,因为与许多入站链接的页肯定倾向于与从不同的地区连接。但是这样作用可以由从早先演算期间的经验期望,因此正常化只将必须是少量的。
无论如何,实施在PageRank的另外的因素是可能的。 的确, PageRank价值的计算将花费时间。
