robots是搜索引擎抓取网站内容第一检索的一个文件,他的格式并没有我们想象的那么复杂,其实就是一个txt文本,robots在网站优化中是一个非常重要的文件,它可以告诉搜索引擎蜘蛛哪些网址可以抓取,哪些不可以抓取,从而起到了站内限制搜索引擎蜘蛛抓取行为的作用.
我们应该怎样设置网站robots文件?
根据这一问题我们可以依照网站文件进行设置,例如现在许多网站后台均为admin目录,如果让搜索引擎收录则会泄露后台文件,这对网站安全造成了威胁,这时我们就可以利用robots文件进行限制搜索引擎收录admin目录下的任何文件.
robots文件的格式以及所在目录全面解析
robots格式为txt文本格式,因此它不需要特别的软件进行编辑,win系统下用记事本便可以编辑,在FTP下robots文件所在目录为网站根目录,如果一个网站设置有robots那么则会在该网站的根目录下发现一个名为robots.txt的文本文档.
robots文件应该怎样编辑设置?
说到这里相信大家对robots是什么以及作用都有了一个大致了解,下面我们一起就来看下robots文件应该怎样编辑设置。
右击桌面->新建->新建文本文档->重命名为robots
打开robots文本文档,在第一行写入
User-agent: *
Disallow: /目录
Disallow: /*.后缀名
Allow: /目录
Allow: /后缀名
Sitemap: 网站地图网址
而后进行保存,并上传到网站根目录,这样我们就设置好网站的robots文件了.
robots文件内容释意
User-agent | 用于限制某个搜索引擎蜘蛛 |
Disallow | 用于限制哪些文件或文件夹禁止搜索引擎收录 |
Allow | 用于告诉搜索引擎哪些文件或文件夹可以正常抓取收录 |
Sitemap | 告诉搜索引擎网站地图的正确位置 |
关于User-agent可设置的蜘蛛名称对照表
User-agent | * | 任何蜘蛛 |
baiduspider | 百度蜘蛛 | |
360Spider | 360搜索 | |
sogou spider | 搜狗搜索 | |
YodaoBot | 有道蜘蛛 | |
googlebot | 谷歌蜘蛛 | |
msnbot | MSN蜘蛛 | |
yahoo-slurp | 雅虎蜘蛛 | |
Bingbot | 必应蜘蛛 | |
teoma | Ask/Teoma | |
twiceler | Cuil | |
gigabot | GigaBlast | |
scrubby | Scrub The Web | |
robozilla | DMOZ Checker | |
nutch | Nutch | |
ia_archiver | Alexa/Wayback | |
naverbot, yeti | Naver |
通过对robots的详细了解相信大家都可以为自己的网站建设一份量身定制的robots文件用来限制搜索引擎抓取收录,但还应不断练习,毕竟一些特殊情况依然会在使用robots上造成困难,应灵活运用熟能生巧!
未经允许不得转载:西德SEO » 网站robots该怎样设置一分钟带你读懂robots!