想把SEO做好,一定要对搜索引擎的蜘蛛足够了解,要了解蜘蛛,就要认真对日志进行分析,下面我爱骡就根据网站的日志试着对蜘蛛做简要的分析,下面的几张截图是之前分析的网站日志,我们主要就来看看百度蜘蛛和谷歌蜘蛛吧,其他SE果断无视。
一、抓取的深度和广度
从图中可以看出,百度蜘蛛的访问次数和抓取量分别是98600和224896,谷歌蜘蛛的访问次数和抓取量分别是31157和172790,让我们用小学数学老师教的算术来算一下平均每个蜘蛛访问的页面数,百度蜘蛛:224896/98600=2.28,谷歌蜘蛛:172790/31157=5.54,可以看出百度的抓取广度要比谷歌优越一些,而谷歌蜘蛛的抓取深度明显要高于百度,百度每个蜘蛛平均才看两个页面,因此,很多数据量稍大点的网站经常会出现这个情况,谷歌收录比较多,而百度收录非常少,针对这一点,做百度收录量的时候,如果数据量较大,内页的随机文章调用这一块一定要做好,至于如何随机,自己发挥吧。
二、错误链接的抓取
上图是随便抽取的几个蜘蛛返回404状态码的抓取页面,从图中的标注可以看出,即使网站没有死链,蜘蛛仍然会抓取一部分死链,百度蜘蛛喜欢抓取一半URL然后就被勾引到别的地方,而谷歌也有htm后缀抓成html的情况,不过相对来说,谷歌的抓取错误还是非常少的,而百度就不少了,究其原因,估计只有两家公司的工程师才清楚,我们也没必要去关注这个原因。针对这一点,无论你的站有没有死链,尽量都去给加上404错误页面,因为,不管你有木有死链,蜘蛛都会抓到。
三、对新站的抓取
根据以前观察几个新站日志的发现,百度蜘蛛对一个新站一般第一天会疯狂抓取,然后会沉寂一段时间,而谷歌比较老实,喜欢按部就班一点一点来,越来越多。上图是我六月份上的一个新站的日志,6月15号那天挂上去后不到一小时百度收录首页,并且疯狂抓取5500次,第二天就开始在爆发中沉默,而谷歌一开始抓取的很少,慢慢越来越多(声明:上图日志的这10天,网站未做任何外链,因此不会受任何外在原因影响)。经常看到很多人网站上线第一天看到百度大量抓取感觉很惊讶,觉得是自己网站权重高,然后第二天开始,蜘蛛直接来个1800度调整,每天就稍微来看一下,然后就变得很郁闷,觉得是百度不喜欢自己的站了,其实不是这样,这是百度蜘蛛的特性。
以上只是简要分析下百度和谷歌蜘蛛抓取网站的特性,只是冰山一角,网站日志还有太多我们该去分析的东西,本文转自:福州SEO@我爱骡,原文链接:http://www.52luo.com/post/138.html,转载请注明出处。