Bing 和 Google 都识别两种常见的

Discover, discuss, and innovate with consumer data systems.
Post Reply
tannatannatanu
Posts: 17
Joined: Sat Dec 21, 2024 5:23 am

Bing 和 Google 都识别两种常见的

Post by tannatannatanu »

用户代理:您向其提供爬行指令的特定网络爬虫 – 通常是搜索引擎。大多数口译员都可以在这里找到。
允许(仅对Googlebot有效):该指令告诉 Googlebot 访问某个页面或子文件夹,即使其父页面或子文件夹可能被禁止。
Disallow:该指令指示用户代理不要抓取某些 URL。请注意,每个 URL 只允许有一个“Disallow:”行。
站点地图:用于检索链接到此 URL 的任何 XML 站点地图的位置。
提示:仅 Ask、Bing、Google 和 Yahoo 支持此指令。
抓取延迟:指爬虫在加载和抓取页面内容之前应等 澳大利亚WS球迷 待的秒数。提示:Googlebot 无法识别此规则。但是,抓取速度可以在 Google Search Console中设置。
必读: 40 个谷歌替代搜索引擎

模式匹配
当涉及允许或阻止确切的 URL 时,robots.txt 文件可能会变得相当复杂,因为它们允许使用模式匹配来覆盖许多可能的 URL 选项。

表达式,可用于检测SEO想要排除的页面或子文件夹。

这两个字符是美元符号($) 和星号(*)。

($) 匹配 URL 的末尾,(*) 是表示任意字符序列的通配符。

Google 提供了广泛的可能语法列表以及与“创建 robots.txt 文件”指南中的模式相匹配的语法示例。

Image 


如果您不确定如何访问网站的根目录,或需要运营支持,我们始终建议您联系您的网络托管服务提供商。

专业提示!如果您无法访问根网站,请使用替代方法,例如元标记。

为什么 robots.txt 很重要?
阻止非公开页面
是的,有时您的网站上可能有一些您不希望编入索引的页面,例如登录页面。如果您有此类页面,您可以使用 robots.txt 文件阻止搜索引擎爬虫和机器人对其进行攻击。
Post Reply