当搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索蜘蛛就会根据该文件中的规则是否包含屏蔽的路径,告知蜘蛛不被抓取收录;如果不存在,默认所有蜘蛛都可以被抓取的。像PHP动态页面(包括伪静态)、敏感的后台管理地址等这样的,你的网站结构不同,要屏蔽的路径数量实在太多,不能一一手动设置,因此,大可可以参照以下规则这样设置:
User-agent: * Disallow: /*?* Disallow: /*#* Disallow: /*.php$
另一个方法,不想国外蜘蛛、伪蜘蛛来抓取你的网站,当然这可以减少对网站抓取的频率次数,也能提升网站性能。
譬如百度、搜狗等这些国内蜘蛛,除这几个之外,其它蜘蛛一刀切的全部屏蔽对网站的抓取。
User-agent: Baiduspider Disallow: /*?* Disallow: /*#* Disallow: /*.php$ User-agent: * Disallow: /