跟大家分享下广州网站制作中的robots.txt协议

　跟大家分享下广州网站制作中的robots.txt协议，具体内容如下：

　　1.语法：robots.txt 文件规则：

　　Disallow: 禁止的页面

　　User-Agent: 允许访问的搜索引擎蜘蛛

　　可以屏蔽搜索引擎重复收录网页，有的网站配置了静态规则，同一个网页，可以用静态网址又可以用动态网址打开，如果搜索引擎都把两种不同形式的网址的同一个网页内容收录，搜索引擎可能认为你的网站作弊，给予降权甚至拔毛。robot.txt恰好可以解决这个问题。

　　robots.txt文件里还可以直接包括在sitemap文件的链接。

　　百度蜘蛛每次来寻找没有robots.txt文件时或者用户访问你不存在的页面时，服务器也将在日志中记录一条404错误，所以网站根目录下添加一个robots.txt文件是有一定必要的。

　　Robots协议可以屏蔽网站中如：图片，音乐，视频等，节省服务器带宽;可以屏蔽站点的一些死链接。

　　2.robots.txt是搜索引擎的一种协议，机器人协议或者爬虫协议，可以通过robots.txt协议告诉搜索引擎那些页面可以抓取，那些禁止抓取。用户指定爬虫(spider)在网站中爬行的范围，是百度搜索引擎进入网站后爬行的第一个文件。

　　3.什么时候使用robots.txt文件，既然搜索引擎有这个协议，百度官方建议;当你网站中不想被搜索引擎抓取的内容，如不想被抓取的后台，完整模板，不想被抓取的特定路径。

　　4.如果希望百度搜索引擎抓取网站的全部内容，建议不要做robots.txt文件，百度搜索蜘蛛来到网站访问的第一个文件就是根目录下的是否存在robots.txt，蜘蛛就会按照该文件中的内容抓取访问的范围，如果不存在此文件，所以的搜索引擎蜘蛛就会访问全网站的全部页面。robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。