建站经验 experience
当前位置:首页 > 网站建设专题 > 建站经验
跟大家分享下广州网站制作中的robots.txt协议
发布日期:2016-10-25 阅读次数:1783 字体大小:

  跟大家分享下广州网站制作中的robots.txt协议,具体内容如下:

  1.语法:robots.txt 文件规则:

  Disallow: 禁止的页面

  User-Agent: 允许访问的搜索引擎蜘蛛

  可以屏蔽搜索引擎重复收录网页,有的网站配置了静态规则,同一个网页,可以用静态网址又可以用动态网址打开,如果搜索引擎都把两种不同形式的网址的同一个网页内容收录,搜索引擎可能认为你的网站作弊,给予降权甚至拔毛。robot.txt恰好可以解决这个问题。

  robots.txt文件里还可以直接包括在sitemap文件的链接。

  百度蜘蛛每次来寻找没有robots.txt文件时或者用户访问你不存在的页面时,服务器也将在日志中记录一条404错误,所以网站根目录下添加一个robots.txt文件是有一定必要的。

  Robots协议可以屏蔽网站中如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。

  2.robots.txt是搜索引擎的一种协议,机器人协议或者爬虫协议,可以通过robots.txt协议告诉搜索引擎那些页面可以抓取,那些禁止抓取。用户指定爬虫(spider)在网站中爬行的范围,是百度搜索引擎进入网站后爬行的第一个文件。

  3.什么时候使用robots.txt文件,既然搜索引擎有这个协议,百度官方建议;当你网站中不想被搜索引擎抓取的内容,如不想被抓取的后台,完整模板,不想被抓取的特定路径。

  4.如果希望百度搜索引擎抓取网站的全部内容,建议不要做robots.txt文件,百度搜索蜘蛛来到网站访问的第一个文件就是根目录下的是否存在robots.txt,蜘蛛就会按照该文件中的内容抓取访问的范围,如果不存在此文件,所以的搜索引擎蜘蛛就会访问全网站的全部页面。robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。