武汉seo的菜鸟可能关注更多的是自己的页面有没有被收录,而不太去关注还有禁止收录的机制,可能这时有人会问了为什么要使用这种机制啊,在哪种情况下我需要用捏?那就让我来告诉你吧,比如付费内容,还在测试阶段的网页,复制内容页面等,网站上不出现链接,或者使用JS,flash链接,使用nofollow等方法都不能保证页面一定不被收录,站长虽然没有链接到自己不想被收录的页面,但是其他网站也可能出现导入链接,导致页面被收录。当出现这些情况时我们可以使用robots文件或Meta Robots标签。
我们今天先学习一下robots文件该如何设置:
搜索引擎蜘蛛访问网站时通常会查看一下网站的根目录下是否有一个以“robots.txt”命名的纯文本文件,robots.txt的作用是用于指令搜索引擎禁止抓取网站的某些内容或者允许抓取某些制定的内容。由于有的服务器设置有点问题,robots文件不存在时会返回202状态码及一些错误信息,而不是404状态码,这有可能导致搜索引擎错误解读robots文件信息,所以就算你要允许蜘蛛抓取所有信息,也要建一个空的robots.txt文件放在根目录下,注意如下几点:
1.必须命名为:robots.txt,并且字母都是小写,robot后面加”s”。
2.robots.txt必须放置在一个网站的根目录下。如:通过http://www.***.com/robots.txt 可以成功访问到,则说明设置成功。
3.Robots文件由记录组成,记录行之间必须以空行分开。
一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
一般格式如下:
User-agent:*
Disallow:/
以上表示robots文件禁止所有搜索引擎抓取任何信息。
下面我为大家详细讲述一下这两个函数里面可以写的参数,以及所表达的含义,以便让大家更好的掌握这种禁止收录机制的设置。
User-agent后接的参数表示下面的规则适用于哪个蜘蛛,通配符*表示所有搜索引擎。
先让我们看看蜘蛛的分类以便大家更好的了解User-agent后接的参数有哪几种类型可以填写。
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler
inktomi蜘蛛: slurp
有道蜘蛛:YodaoBot和OutfoxBot
热土蜘蛛:Adminrtspider
Disallow后接的参数表示告诉蜘蛛不要去抓取某些目录或者文件。填写的方式可以总结为如下几种:
如要表示阻止多个文件或目录记得一定要必须分开写,每个一行
例:Disallow:/bin/
Disallow:/temp/
Disallow:/ba/index.html
以上代码表示阻止通过之前User-agent已经设置好的蜘蛛类型抓取/bin/和/temp/
两个目录下的内容及文件/ba/index.html
而不能写成:Disallow:/bin/ /temp/ /ba/index.html
让我们来再举几个实例深入了解一下它们具体的使用方法:
例一:
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/
以上代码表示禁止除百度外的所有搜索引擎抓取任何内容
例二:Allow表示告诉蜘蛛应该抓取某些文件,这个函数是要和Disallow配合使用的,表示某个目录下大部分不允许抓取,只允许抓取一部分,如:
User-agent:*
Disallow:/aa/
Allow:/aa/bb/
以上代码表示让所有蜘蛛不抓取/aa/目录下其他目录和文件,只抓取其/bb/目录下的内容
例三:运用$通配符,它用于匹配URL结尾的字符,如:
User-agent:Googlebot
Disallow:.jpg$
以上代码表示禁止谷歌蜘蛛抓取所有的.jpg文件
例四:运用*通配符,表示告诉蜘蛛匹配任意一段的字符,如:
User-agent:*
Disallow:/*.html
以上代码表示禁止所有蜘蛛抓取所有的.html文件
原文地址:http://www.yidunseo.com/blog/ynfx.html 转载请注明!
感谢 米拉多361 的投稿