使用 robots.txt 控制搜索引擎对网站的访问和索引

  如果网站上有一些页面不想被别人从搜索引擎搜索到,我们可以通过编写 robots.txt 文档来对搜索引擎的行为进行控制。

  robots.txt 是业界的标准,它让网站能够所有者控制搜索引擎访问他们的网站。通过定义 robots.txt 的内容,可以实现不同层次地控制访问,比如让搜索引擎只访问单个目录,特定类型的网页,或者某一网页。

  有效地使用 robots.txt 能让你更好地控制对你的网站的搜索。

如何使用 robots.txt 文件控制搜索引擎对网站的访问和索引?

在网站根目录下创建一个 robots.txt 文档,将以下内容写入其中
  User-Agent: Googlebot
  Disallow: /logs/

  User-Agent 行指明该文档只针对为 Googlebot,当然你也可以使用 User-Agent: *,这样所有主要搜索引擎都会阅读并遵循你放在 robots.txt 的规则。只要你愿意,还可以为不同的搜索引擎指定不同的规则。
  Disallow 行告诉 Googlebot 不能访问和索引 logs 目录。这样一来,你放在logs目录中的内容将不会显示在谷歌搜索结果中。

更多关于 robots.txt 文档的语法和规则请访问 http://www.robotstxt.org/


付费阅读