百度不收录网站的原因我大致分为内容问题、结构设计问题以及其他问题。网站不被收录,我们就无法将网站的信息更好的传达给我们的目标受众;下面我将围绕前面提到的三个问题阐述下百度不收录的原因,并纠正一些其他的个人认为概念上的错误问题:
1.新站处于百度考核期
看到有些人表达的观点是新站处于百度考核期可能会不被收录,我对这种观点表示不赞成,只要是新站,新域名,在结构以及内容上面如果不是高度重复的话,一般都会被收录,至于所说的百度考核期,我们表示不认同。百度考核期应该是在网站首页被收录后,不收录其他页面时该考虑的问题。
2.您网站的robots协议禁止百度抓取
每个网站都有一个robots.txt,搜索引擎来的网站的时候,会先查看这个文件,百度蜘蛛与google机器人不同之处也在于此,当google机器人去爬网站,发现robots设置了禁止蜘蛛的抓取时,蜘蛛就会退出,不抓取任何网站内容;而百度对设置robots的生效时间不是即使的,所以当您设置好robots时,可能您的网站已经被百度收录(可能由于您提交至搜索引擎或者是发布过导入链接),所以robots协议禁止百度抓取而导致不收录的几率是非常的小。
3.网站内容有敏感语言
百度被央视曝光了以后,对抓取内容可能会更加规范。对于一些带有敏感性话题的内容,会不进行抓取,这个也是造成不收录。虽说个人站长可能在发布文章时不会带此言语,但是我们不能确定给我们留言评论的内容是否带有这些敏感内容,我们不能确定网站是否被入侵,在网站内部生成了一些敏感性的页面内容。所以,在留言评论方面,我们要做好严格的审核机制,要定期做网站内部文件进行整理。
4.其他问题
目前遇到一种情况就是后缀名为.cn.com的域名在百度暂时不被收录,而在google收录良好,具体原因还不清楚。
5.网站是复制自互联网上的高度重复性的内容
当然,不仅是百度,其他搜索引擎一样反对高度重复性内容,所以,要想运营网站,内容也是必要的保证,完全靠复制内容的网站是无法再搜索引擎生存的。
6.网站在设计或者结构上存在缺陷,导致蜘蛛无法正常抓取
很多网页设计公司的程序员并不懂SEO,他们会将网站设计得很精美,也许是全站FLASH,也许是网站框架结构(iframe),也许网站是由javascript或者ajax拼装起来的,也许是图片太多,文本太少,这些百度蜘蛛爬起来是非常的费劲,甚至直接不抓取,百度SEO指南已证实了这一点。
7.网站不被百度收录且都不符合以上内容,那么,我们需要查看网站日志进一步了解原因
如果百度蜘蛛抓取网页返回的是200 0 0代码,则表示该网页已经成功编进索引;若返回的是200 0 64则表示该索引数据库已经存在,没有发现网页有更新的内容,不需要重新索引。
假如没有蜘蛛来爬行抓取过,那我们就再提交一次网址,并保持网站内容的定期更新(纯原创或者高度伪原创),同时增加外链(包括友链、签名链等高质量的外部链接)相信不久的几天,您的网站即将被收录。
作者:郭文鑫
文章来源:http://www.guowenxin.com/2/