对于重复内容想必大家都知道,顾名思义,就是网站内容重复,或者说是高度重复,也叫做复制网页即重复内容网页。在中国由于互联网环境的原因,抄袭采集是相当流行的,尤其是在近年来众多CMS不断问世后,越来越多的站长注册个域名,上传个CMS程序就开始采集建站。这种做法实际不可取,一来是对用户来说大量重复的内容会产生厌恶,搜索引擎是基于用户体验出发的,所以说同样不会喜欢。
有的网站因为自身程序的问题,可以实现同一个页面使用不同的url来访问,关于这个我在之前url标准化的文章里有过提及,对于url的规范化是相当重要的,在这里就不再多提了,对于url的标准化可以说是所有seo优化必须要做的。对于搜索引擎来说他是不喜欢重复内容的,程序会自动判断原始的版本是哪一个,然后再把其他的页面忽略掉。但是对于搜索引擎来说,一个是耗费宽带资源,另外一个就是浪费时间。而对于网站管理员来说,多个url这种的不仅会分散权重降低排名,还面临着被搜索引擎惩罚的危险。而且你要知道,蜘蛛毕竟只是个程序,它自行挑出来作为规范化的网址未必是我们自己所想要的。对于复制内容页面惩罚的问题,seo业界一直有争论,就是惩罚与不被惩罚的问题。个人认为还是会被惩罚的,虽然谷歌在站长官方指南里曾明确的表示,重复内容网页不会被惩罚,但是请不要创建大量重复的内容网页,这样不利于网站排名。而百度同样明确的提出过:如果你的网页大多数内容都与网上已有的内容重复,你的站点将很可能被百度所抛弃。而且当这些重复的url被收录后,当搜索引擎返回给搜索者这些重复内容网页的时候会严重影响用户体验,因为搜索引擎是基于用户的体验为核心,它不希望列出来的搜索结果都是重复的内容,他只愿意列出一份,而对于其他重复内容页面搜索引擎会将做降权或直接在索引里删除处理。
这几天在看《网站流量大提速第二版》的时候,发现对于重复内容网页还有一种情况就是产品的销售商和代理商从生产商的网站上复制过来的商品信息,这样对于生产商来说并没有什么,因为生产商一般都会同意;但是这就造成了一个问题就是大量的重复内容出现在不同的网页上,这对于搜索引擎来说恰恰是不喜欢的。而这些网站可能为了使自己的产品更能被客户所熟悉,可能会提供一些更适用于打印的版本,如果不针对这些url做好处理的话,同样会造成复制内容页的情况。
还有种情况就是在前天一篇文章里所提到的蜘蛛陷阱,就是一些电子商务类网站,会采用会话id的形式给予不同的用户不同的id,这种情况每次蜘蛛访问的时候同样会造成复制内容页面,具体的可以看下有关避免蜘蛛陷阱的这篇文章。搜索引擎在判断复制网页的时候,会有一套相关的算法机制进行处理,这种的就要涉及到不同的搜索引擎不同的有关重复内容检测机制算法了。因为网站的权重不同问题,所以搜索引擎可能会把真正原始出处当成了复制,而把复制的当成了原始出处,这种的在百度中对待权重过高的网站尤其如此,就像我这篇文章就算我发布后被百度收录,但是如果被新浪转载的话,还是可能会被百度判断为我是转载的。
重复内容页除了网页的内容部分外,还有标题重复,结构重复,模板重复等;现在做seo的童鞋都知道,网页的title是相当重要的,所以当你为一个网页命名一个标题的时候尽量去百度和谷歌里搜索下,是否已经有存在这个或者相似这个的标题,尽量不要去重复标题。关于结构重复,常见的比如一些cms系统和建站程序及论坛程序等,这些程序由于被广泛的使用,往往其url结构也存在着大面积的重复,这个大家可以自行研究下,尽量做到url结构独一无二。那么什么是模板重复呢?现在建站的门槛越来越低,很多人上传一个程序,套用了一个默认的模板后就不管了,虽然说内容为王是最重要的,但是默认模板的话还是建议修改下好,默认的模板一般使用的非常广泛,其布局结构和模板里的html代码或css代码往往也会造成重复,虽然说搜索引擎判断页面是将所有的HTML代码去掉,但是对于我们seo爱好者或者说seo从业者来说,为了更好提升seo性能,还是建议修改好。
还有就是镜像类网站,这个在本博客里有提到,可以大家可以搜索看下,在这里就不再讲述了。对于文章的转载和抄袭所带来的复制内容页问题,同样也不再多叙述了。还有一点要避免的就是,网站内容过少,比如说有些站点的内容页面实质内容过少,再加上每个页面不可避免的会有通用的部分,比如说导航栏,页面底部等,如果实质内容的数量少于这些内容的话,也会有可能被搜索引擎判断为重复内容页。同样还有个细节的地方,一些网站因为疏忽或其他原因而造成的空白页面,如果存在大量的空白页面也会被误认为内容重复。
还有一种是服务或者产品类型网站,在进行地区划分运营的时候,某些产品或者服务类型区间较小,或者说是一样的,这种页面只是把地区等参数信息进行了修改,但是其他大多数内容还是一样。还有常见的新闻类网站,采用RSS feed生成网页内容,而这些内容也比较容易泛滥。有的网站在未改版之前生成真实的静态文件,在改版之后并未删除这些真实的html页面,如果在网站结构更改了但是内容未变的情况下,当不删除这些真实目录下的html文件的时候,同样会造成网页内容高度重复。同样,摘要设置不当也可能会导致重复内容页,为了提升用户体验,现在越来越多的网站尤其是新闻网站开启了文章摘要功能,这些摘要在给用户带来方便的浏览的同时可能会误认为重复内容,还有一种不常见的情形就是http和https这种情况等等,对于网站优化在细节上下功夫是必不可少的,而网站重复内容会在一定程度上影响网站的排名。本文来源:深圳SEO 出处http://www.zhsem.com/ 转载请注明,谢谢!
感谢 小无名 的投稿