分享好友 资讯文章首页 资讯文章分类 切换频道

如何避免网站page的页面被重复抓取

2023-03-23 09:55IP属地 广东佛山220建站助手
如何避免网站page的页面被重复抓取:

观察分析网站的日志,发现网站page的页面被蜘蛛重复抓取很多,这样子对网站的优化并不是很好。那么我们要如何避免网站页面被蜘蛛重复的抓取呢?

一、通过robots文件来把这个页面来屏蔽掉,具体做法语法格式:

Disallow: /page/ #限制抓取Wordpress分页如查你的网站有需要也可以把下面的语句一并写上,避免出现过多的重复页面。 * Disallow: /categorytrackback/ #限制抓取Trackback内容 * Disallow:/category/* #限制抓取所有分类列表 什么是蜘蛛,也叫爬虫,其实是一段程序。这个程序的功能是,沿着你的网站的URL一层层的读取一些信息,做简单处理后,然后返馈给后台服务器进行集中处理。我们必需了解蜘蛛的喜好,对网站优化才能做到更好。接下来我们谈谈蜘蛛的工作过程。

二、蜘蛛遇到动态页面

蜘蛛在处理动态网页信息是面临的难题。动态网页,是指由程序自动生成的页面。现在互联网发达程序开发脚本语言越来越多,自然开发出来的动态网页类型也越来越多,如jsp、asp、php等等一些语言。蜘蛛很难处理这些脚本语言生成的网页。优化人员在优化的时候,总是强调尽量不要采用JS代码,蜘蛛要完善处理这些语言,需要有自己的脚本程序。在进行网站优化,减少一些不必要的脚本代码,以便蜘蛛爬行抓取,少导致page页面的重复抓取!

三、蜘蛛的时间

网站的内容经常变化的,不是更新就是改模板。蜘蛛也是不断地更新和抓取网页的内容,蜘蛛的开发者会为爬虫设定一个更新周期,让其按照指定的时间去扫描网站,查看对比出哪些页面是需要进行更新工作的,诸如:主页的标题是否有更改,哪些页面是网站新增页面,哪些页面是已经过期失效的死链接等等。一个功能强太的搜索引擎的更新周期是不断优化的,因为搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。不过如果更新周期过长,便会使搜索引擎的搜索精确性和完整性降低,会有一些新生成的网页搜索不到;若更新周期太过于短,则技术实现难度加大,而且会对带宽、服务器的资源造成浪费。

四、蜘蛛不重复抓取策略

网站的网页数量非常大,蜘蛛进行抓取是一个很大的工程,网页的抓取需要费非常多线路带宽、硬件资源、时间资源等等。如果经常对同一个网页重复抓取不但会大大的降低了系统的效率,还造成精确度不高等问题。通常的搜索引擎系统都设计了不重复进行网页抓取的策略,这是为了保证在一定时间段内只对同一个网页进行一次抓取。

关于如何避免网站page的页面被重复抓取就介绍到这里,文章由环球贸易网编辑。

举报
收藏 0
打赏 0
评论 0
那些未被收录的页面 有必要提交死链吗?
那些未被收录的页面 有必要提交死链吗?:今天到公司,就接到老总的“夺命连环Call”,说是接到支付宝中心的一条警示信息,说网站内容包含敏感词汇,不利于网站运营,让立即修改它。于是一群苦逼的网络部员工,开始找错误,从网站源代码出发,寻找任何一条疑似垃圾外链的黑链信息,可是忙了一个早上也没有发现被挂黑链的情况。这让万马奔腾人才库小编一度怀疑是不是接

2023-03-2329

为何网站20多天百度只收录3个页面
为何网站20多天百度只收录3个页面:很多新手在为收录而头疼,相信大家是新手的时候也有过这种情况吧,这会让很多新手急不可耐的,恨不得搜索引擎快点收录自己的网站。我们不该这样让自己揪心,要对搜索引擎有个良好的看待,不然的话以后遇到的事会更会让你揪心,比如说网站降权、关键词排名浮动等等。这些搜索引擎的动作会让你以后更为烦心。所以呢,我要有一个良好的心态来看待搜索引擎。下面我

2023-03-2342

合法的HTML代码
合法的HTML代码:合理的HTML代码对seo优化是关键的合理的HTML代码为什么对您网站的网站优化改善和随后排名的提高是关键的:许多网页设计的Web站点管理员和浏览者俯视网站促进的一个关键的方面: HTML代码的有效性。什么样是合理的HTML代码?多数网页在HTML被写。关于每种语言, HTML有它自己的语法、词汇量和句法,并且在HTML写的每个文件应该遵循这些规则

2023-03-2325

访问本页面 您的浏览器需要支持JavaScript的解决办法
访问本页面 您的浏览器需要支持JavaScript的解决办法:百度site:首页出现"访问本页面,您的浏览器需要支持JavaScript".这样的情况,对于一个刚刚引起搜索引擎重视的新站来说是相当大的打击,需要尽快找出原因跟解决办法。首先分析原因,用站长工具模拟搜索引擎蜘蛛抓取,结果却是“访问本页面,您的浏览器需要支持JavaScript”。用

2023-03-2320

网站优化过程中页面连接权重的高低分析
网站优化过程中页面连接权重的高低分析:众所周至,网站运营seo优化过程中,连接的作用是非常巨大的,网站连接的分类也是有很多种类,常见的有网站内部链接,外部连接,友情连接等等。如何按照页面布局分析网站连接权重?如何判断一个页面上连接权重的高低?是我们优化人员不得不面对的问题,因为连接权重分析判断,有利于提高我们判断那些是网站高质量连接?那些是网站低质量连接等等,这些对于

2023-03-2348

如何消除网站无效页面的负面影响
如何消除网站无效页面的负面影响:随着网站运营时间的延长,网站上的无效页面数量会越来越多,无效页面和普通的死链接还有一定的区别,死链接是根本没有这个页面,而无效页面则是存在着对应的页面,但是展示的内容要么是和网站毫无关系,要么是空白的内容,要么基本是大量广告堆砌而成。所以针对无效页面的处理却不能够简单的使用404页面来处理。也就是说处理无效页面难度往往更大。可是如何才能

2023-03-2315

如何让网站页面内容不被抓取? 五个不让网站页面内容不被抓取的技巧
如何让网站页面内容不被抓取? 五个不让网站页面内容不被抓取的技巧:可能有的朋友会奇怪,网站的页面不是让搜索引擎抓的越多越好吗,怎么还会有怎么让网站页面内容不被抓取的想法。首先,一个网站可以分出去的权重是有限,哪怕是Pr10的站,也不可能无限的分权重出去。这权重包括链到别人网站的处链以及自己网站内的内链。外链的话,除非是想坑被链的人。否则外链都是需要让搜索引擎所抓取。这

2023-03-1526

SEO布局篇:布局是网站优化重要的一步棋
SEO布局篇:布局是网站优化重要的一步棋:网站优化需要一个长期的过程,是需要不断的进行累计。现在互联网的发展导致用户搜索行为也在发生着变化,所以搜索引擎的算法也一直在变,但不论怎么变化,有一点是不可否认的,那就是只要符合用户体验的网站,搜索引擎都会给予足够的重视。网站布局在SEO中的地方不能说和最核心的,但是它依旧承担了很大的比重,是网站优化中重要的一步棋。网站的布局

2023-03-1536

网站地图该如何设计?更利于SEO优化的网站地图设计方法
网站地图该如何设计?更利于SEO优化的网站地图设计方法:网站地图在SEO优化中不仅仅利于用户良好的体验,还利于搜索引擎蜘蛛的快速爬行抓取,对提高网站收录及网站关键词排名都有重要作用,因此我们在设计网站地图之时需要注意下面几个方面,以便所制作出来的网站地图更利于SEO优化。一、网站地图要包含最重要的页面如果网站地图包含的链接过多,访问者浏览的时候就会迷失。因此如果网页面

2023-03-1340