网站robots文件需要注意的几个方面-爱游戏·AYX

想要写好robots文件，需要注意几个方面，比如格式，通配符的使用，搜索引擎蜘蛛的分类和代码以及一些其它的常见错误等。如果网站没有robots文件，那么最好做一个放在根目录中，即使里边为空的，也对搜索引擎是有帮助的
网站为了集中权重或者平衡分配权重，都会使用robots文件。这个文件是以记事本形式存在的，但其内容却能影响网站的收录情况。以下详细介绍robots作用和添加网站robots文件需要注意的问题。

robots作用：
网站robots是一个协议，告诉搜索引擎哪些内容可以爬行收录，哪些不可以爬行收录，从而达到简单控制网站权重的目的。当搜索引擎访问一个网站时，首先就看根目录下有没有一个robots.txt文件，有的话就会遵循网站robots的设置，没有被禁止或者没有设置robots文件时，搜索引擎会默认访问所有的文件。

网站robots格式：
在网站robots文件中，最常用的就是/的使用，这个/表示网站的根目录，如果在Disallow后边加上这个/的话，那么就表示禁止搜索引擎抓取任何内容。比如：
User-agent ： *
Disallow ： /
即禁止搜索引擎抓取网站上的所有内容，反之如果想要所有的全部收录，那么只需要把Disallow改成Allow就行了。

通配符：
常见的通配符就是*，它代表了所有的搜索引擎。$则匹配URL结尾的字符，比如想要搜索引擎抓取html为后缀的所有文件，那么就可以这样写：
User-agent： *
Allow：。html$

禁止搜索引擎抓取所有html页面：
User-agent ： *
Disallow ： / *.html

网站robots中每一行必须对应一个项目，如果有两个或者多个禁止收录的，那么必须分开写，一行一个，不能同时放在一行中，否则就不会被识别。如果是想让某一个搜索引擎不抓取，而其它所有的搜索引擎都抓取的话，要分开写两个User-agent和Disallow。另外如果允许一个文件夹的部分被抓取，部分被禁止抓取的话，那么要Disallow与Allow混合使用，比如SEO文件夹中的aa文件夹不被抓取，那么就可以这样写：
User-agent ： *
Disallow ： /SEO/
Allow ： /SEO/aa/

可以在网站robots文件中写上网站地图的位置，这样更加利于搜索引擎的爬行和抓取。比如Sitemap:XML地图位置。

NEWS

网站robots文件需要注意的几个方面