NEWS

分享创造价值   合作实现共赢

网站robots文件需要注意的几个方面

想要写好robots文件,需要注意几个方面,比如格式,通配符的使用,搜索引擎蜘蛛的分类和代码以及一些其它的常见错误等。如果网站没有robots文件,那么最好做一个放在根目录中,即使里边为空的,也对搜索引擎是有帮助的
网站为了集中权重或者平衡分配权重,都会使用robots文件。这个文件是以记事本形式存在的,但其内容却能影响网站的收录情况。以下详细介绍robots作用和添加网站robots文件需要注意的问题。

robots作用:
网站robots是一个协议,告诉搜索引擎哪些内容可以爬行收录,哪些不可以爬行收录,从而达到简单控制网站权重的目的。当搜索引擎访问一个网站时,首先就看根目录下有没有一个robots.txt文件,有的话就会遵循网站robots的设置,没有被禁止或者没有设置robots文件时,搜索引擎会默认访问所有的文件。

网站robots格式:
在网站robots文件中,最常用的就是/的使用,这个/表示网站的根目录,如果在Disallow后边加上这个/的话,那么就表示禁止搜索引擎抓取任何内容。比如:
User-agent : *
Disallow : /
即禁止搜索引擎抓取网站上的所有内容,反之如果想要所有的全部收录,那么只需要把Disallow改成Allow就行了。

通配符:
常见的通配符就是*,它代表了所有的搜索引擎。$则匹配URL结尾的字符,比如想要搜索引擎抓取html为后缀的所有文件,那么就可以这样写:
User-agent: *
Allow: 。html$

禁止搜索引擎抓取所有html页面:
User-agent : *
Disallow : / *.html

网站robots中每一行必须对应一个项目,如果有两个或者多个禁止收录的,那么必须分开写,一行一个,不能同时放在一行中,否则就不会被识别。如果是想让某一个搜索引擎不抓取,而其它所有的搜索引擎都抓取的话,要分开写两个User-agent和Disallow。另外如果允许一个文件夹的部分被抓取,部分被禁止抓取的话,那么要Disallow与Allow混合使用,比如SEO文件夹中的aa文件夹不被抓取,那么就可以这样写:
User-agent : *
Disallow : /SEO/
Allow : /SEO/aa/

可以在网站robots文件中写上网站地图的位置,这样更加利于搜索引擎的爬行和抓取。比如Sitemap:XML地图位置。

相关文章
首页 电话 案例 关于