Bing 和 Google 都识别两种常见的

tannatannatanu · Post by **tannatannatanu** » Sat Dec 21, 2024 9:31 am

用户代理：您向其提供爬行指令的特定网络爬虫 – 通常是搜索引擎。大多数口译员都可以在这里找到。
允许（仅对Googlebot有效）：该指令告诉 Googlebot 访问某个页面或子文件夹，即使其父页面或子文件夹可能被禁止。
Disallow：该指令指示用户代理不要抓取某些 URL。请注意，每个 URL 只允许有一个“Disallow:”行。
站点地图：用于检索链接到此 URL 的任何 XML 站点地图的位置。
提示：仅 Ask、Bing、Google 和 Yahoo 支持此指令。
抓取延迟：指爬虫在加载和抓取页面内容之前应等澳大利亚WS球迷待的秒数。提示：Googlebot 无法识别此规则。但是，抓取速度可以在 Google Search Console中设置。
必读： 40 个谷歌替代搜索引擎

模式匹配
当涉及允许或阻止确切的 URL 时，robots.txt 文件可能会变得相当复杂，因为它们允许使用模式匹配来覆盖许多可能的 URL 选项。

表达式，可用于检测SEO想要排除的页面或子文件夹。

这两个字符是美元符号($) 和星号(*)。

($) 匹配 URL 的末尾，(*) 是表示任意字符序列的通配符。

Google 提供了广泛的可能语法列表以及与“创建 robots.txt 文件”指南中的模式相匹配的语法示例。

如果您不确定如何访问网站的根目录，或需要运营支持，我们始终建议您联系您的网络托管服务提供商。

专业提示！如果您无法访问根网站，请使用替代方法，例如元标记。

为什么 robots.txt 很重要？
阻止非公开页面
是的，有时您的网站上可能有一些您不希望编入索引的页面，例如登录页面。如果您有此类页面，您可以使用 robots.txt 文件阻止搜索引擎爬虫和机器人对其进行攻击。