分享好友 资讯文章首页 资讯文章分类 切换频道

百度如何判断网页文章的重复度?两个页面相似度确认方法介绍

2023-03-23 09:16IP属地 广东佛山250建站助手
百度如何判断网页文章的重复度?两个页面相似度确认方法介绍:

在这个科技高度发达的时代,百度已经成为人们能获取消息的主要途径。但如今的百度,到处充斥着一些重复的内容,对用户的访问造成很大的困扰。因此,百度需要对网页重复进行判断,对重复的网页,只选取一些高质量的我那工业,共用户浏览。然而,现有技术中一般是通过比较两个页面的内容和借点,来确认两个页面的相似度。

这种方法能够计算的比较准确,可时间复杂度太高,计算很费时间。通过对一个页面中的某些重要信息进行签名,然后比较两个页面的签名,来计算相似度,这种方式比较简单高效,计算速度比较快,比较适合百度这种海量信息的应用场景。

1,网站重复内容的判断

A,获取多个网页;

B,分别提取网页的网页正文;

C,从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;

D,根据网页正文句子签名对多个网页进行聚类;

E,针对每一类下的网页,计算网页的附加签名;

F,根据附加签名判断每一类下的网页是否重复。

通过上述方式,网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。

网站页面基本架构

提取正文

A,对网页进行分块;

B,对分块后的网页进行块过滤,以获取包含网页正文的内容快;

C,从内容块中提取网页正文。

正文分句

A,对网页正文进行分句;

在本步骤中,可利用分号,句号,感叹号等表示句子完结的标志符号来对网页正文进行分句。此外,还可以通过网页正文的视觉信息来对网页正文进行分句。

B,对分句后的网页正文进行过滤及转换;

在步骤中,首先过滤掉句子中的数字信息;版权信息以及其他对网页重复判断不起决定性作用的信息。随后,对句子进行转换,例如,进行全角/半角转换或者繁体/简体转换,以使得转换后的句子的格式统一。

C,从过滤及转换后的网页正文中提取最长的一个或多个句子;

在本步骤中,过滤及转换后的网页正文提取出最长的一个句子或者做场的预定数量连续句子的组合。例如,某个网页实例中,经过过滤及转换后的某段最长,远超其他句子,因此可选择该段为网页正文句子,或者选择最长的连续句子组合作为网页正文句子。

D,对一个或多个句子进行hash签名运算,以获取网页正文句子签名。

simhash算法就是比较各网页的附加签名是否相同或相似来判断网页是否重复。具体来说,在比较利用simhash签名运算获得的网页正文签名时,比较网页正文签名的不同位数,不同位越少,表示网页重复的可能性越高,在比较其他的附加签名时,若附加签名相等,表示网页在该纬度上重复。

总结:

1、两个网页的真实标题签名相同。

2、两个我那工业的网页内容签名相同。

3、两个网页的网页正文签名的不同位数小于6.。

4、两个网页的网页位置签名相同,并且url文件名签名相同。

5、评论块签名、资源签名、标签标题签名、摘要签名、url文件名签名中有三个签名相同。

附加信息整站判断重复标准:

通过两两页面比较,可以得到真重复url的集合。一般来说,如果这个真重复url集合中的网页的数量/整个网页集中网页的数量大于30%,则认为整个网页集都是真重复,否则就是假重复。

举报
收藏 0
打赏 0
评论 0
关于WordPress Tag标签SEO优化
关于WordPress Tag标签SEO优化:使用开源程序如wordpress、Dedecms等做的网站几乎都会存在同一个问题,该如何处理和优化Tag标签?笨鸟之前针对这个问题专门写过一篇文章,然而,文章主题是写关于知更鸟主题的。今天有朋友跟笨鸟问到这个问题,故,将原文的相关内容拉出来,以供大家参考,如果您有更好的想法,欢迎留言告诉笨鸟。本博客为wordpress程序

2023-03-2347

网站无效页面的处理规则
网站无效页面的处理规则:每一个网站都会多多少少存在一些无效的无用的页面,甚至是空页面,这些页面无论是对用户还是对搜索引擎都是十分不友好的,假如用户进来发现这个页面什么内容都没有用户会立刻关闭页面走人,而搜索引擎的蜘蛛在爬取网站的时候如果发现大量的页面都是无内容的也会影响到我们网站的排名和权重。所以我们需要把这些无效的页面进行处理,今天给大家分享一下无效页面的处理规则。

2023-03-2332

教你正确设置与美化404页面
教你正确设置与美化404页面:当你网站某些页面无法访问时,网站往往返回404状态,即显示404页面。那么,什么是404页面。那么,什么是404呢?404页面的含义是页面暂时无法访问。由于各种外部,内部原因,网站总会有暂时无法访问或者已经失效的页面,这时浏览器就会显示一个“页面无法找到”的页面,即404页面,但通常系统自带的404页面不仅很不美观

2023-03-2331

如何避免网站page的页面被重复抓取
如何避免网站page的页面被重复抓取:观察分析网站的日志,发现网站page的页面被蜘蛛重复抓取很多,这样子对网站的优化并不是很好。那么我们要如何避免网站页面被蜘蛛重复的抓取呢?一、通过robots文件来把这个页面来屏蔽掉,具体做法语法格式:Disallow: /page/ #限制抓取Wordpress分页如查你的网站有需要也可以把下面的语句一并写上,避免出现过多的重复

2023-03-2322

网站页面建设:教你如何规范命名css
网站页面建设:教你如何规范命名css:css3已经发布了,许多WEB前端工程师都开始尝试使用该技术了。我们怎样来评价编写css的能力呢?不会用对与错来判断,我们可能会用“好”、“一般”、“很烂”等字眼来形容。CSS最难的是什么呢?是各大浏览器的兼容?是代码的简洁高效性?前端工程师五指曾说过:css

2023-03-2326

谷歌排名的影响因素(三):页面因素(二)
谷歌排名的影响因素(三):页面因素(二):我们在上一篇谷歌排名影响因素(二)中提到了页面因素中的前十点,今天我们将继续昨天的话题,依旧来讲一下影响谷歌排名的页面因素。谷歌排名影响因素解析(三):页面因素(二)谷歌看重的页面因素有很多,今天我们要说的主要是下面的十点,这些因素单独来看或许琐碎,细小,不那么显著,但是当你把所有的这些全部做好时,它们将会产生巨大的效用。第一

2023-03-2330

网站页面的描述你优化好了吗
网站页面的描述你优化好了吗:相信不少站长都已经优化过很多的网站了,我们在优化网站的时候,做得最多的大多是优化内页,建设内链,建设外链,交换友链等,如果做得再多一点可能会注意给网站的关键词加以甄选,但是很少有人会为网站的描述做优化。想想看,我们是不是忽视了对网站描述的优化呢?今天,我就给大家介绍一下关于如何优化好网站描述的一些经验,希望通过我的介绍大家能够重视对网站描述

2023-03-1520

极速直追中国高铁!碳陶瓷刹车套件特斯拉Model S Plaid打破单圈纪录
3月14日消息,特斯拉近日邀请了车手塞巴斯蒂安·维特尔(Sebastian Vittel),驾驶了装备碳陶瓷刹车套件的Model S Plaid,在1.8英里(2.9公里)的法国布雷斯赛道(Circuit de Bresse)上,以1分33秒610的成绩刷新了街头汽车(street legal car)单圈纪录,最高时速达到了217英里/小时(350公里

2023-03-1420

浅谈网页背景设计技巧和经验
浅谈网页背景设计技巧和经验:以前在校做网页是用简单表格做的。背景什么都不会,后来慢慢的也学会了一些东西。在这我说下网页背景色。很简单,其实现在很多视频教程也有。一个主页的背景就相当于房间墙壁一样,网页中的背景设计是相当重要的尤其是对于个人主页来说。好的背景不但能影响访问者对网页内容的接受水平,还能影响访问者对整个网站的印象。如果你经常注意他人的网站,应该会发现在不同的

2023-03-1322