网站为了集中权重或者平衡分配权重,都会使用robots文件。这个文件是以记事本形式存在的,但其内容却能影响网站的收录情况。以下详细介绍robots作用和添加网站robots文件需要注意的问题。
robots作用:
网站robots是一个协议,告诉搜索引擎哪些内容可以爬行收录,哪些不可以爬行收录,从而达到简单控制网站权重的目的。当搜索引擎访问一个网站时,首先就看根目录下有没有一个robots.txt文件,有的话就会遵循网站robots的设置,没有被禁止或者没有设置robots文件时,搜索引擎会默认访问所有的文件。
网站robots格式:
在网站robots文件中,最常用的就是/的使用,这个/表示网站的根目录,如果在Disallow后边加上这个/的话,那么就表示禁止搜索引擎抓取任何内容。比如:
User-agent : *
Disallow : /
即禁止搜索引擎抓取网站上的所有内容,反之如果想要所有的全部收录,那么只需要把Disallow改成Allow就行了。
通配符:
常见的通配符就是*,它代表了所有的搜索引擎。$则匹配URL结尾的字符,比如想要搜索引擎抓取html为后缀的所有文件,那么就可以这样写:
User-agent: *
Allow: 。html$
禁止搜索引擎抓取所有html页面:
User-agent : *
Disallow : / *.html
网站robots中每一行必须对应一个项目,如果有两个或者多个禁止收录的,那么必须分开写,一行一个,不能同时放在一行中,否则就不会被识别。如果是想让某一个搜索引擎不抓取,而其它所有的搜索引擎都抓取的话,要分开写两个User-agent和Disallow。另外如果允许一个文件夹的部分被抓取,部分被禁止抓取的话,那么要Disallow与Allow混合使用,比如SEO文件夹中的aa文件夹不被抓取,那么就可以这样写:
User-agent : *
Disallow : /SEO/
Allow : /SEO/aa/
可以在网站robots文件中写上网站地图的位置,这样更加利于搜索引擎的爬行和抓取。比如Sitemap:XML地图位置。