AI 相關, SEO

設定 WordPress 的 Robots.txt 最佳化網站並禁止 AI 暴力爬取網站

發佈作者：

edwinlin

2024 年 4 月 25 日

On 2024 年 4 月 25 日

在設定 WordPress 網站時，合理配置 Robots.txt 文件是提高網站在搜尋引擎中表現的關鍵步驟之一。Robots.txt 是一個位於網站根目錄的文字文件，用來指示網路爬蟲哪些部分的網站可以被抓取，哪些部分不應該被抓取。

文章目錄

基本結構：

Robots.txt 文件的基本格式包括兩個主要指令：Disallow 和 Allow。Disallow 指令用來告訴爬蟲不應該訪問特定的 URL，而 Allow 指令（不是所有爬蟲都支援）則是用來明確指出哪些內容是可以被訪問的。

WordPress 的標準 Robots.txt 建議配置：

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://您的網站.com/sitemap_index.xml

**User-agent: *** – 這行告訴所有的爬蟲（User-agent）這些規則適用於他們。
Disallow: /wp-admin/ – 這行防止搜尋引擎爬蟲訪問管理區域，這是出於安全和隱私的考慮。
Allow: /wp-admin/admin-ajax.php – 允許爬蟲訪問此特定文件，因為許多前端插件可能需要通過此文件來正常運作。
Sitemap – 指出網站的 Sitemap 位置，有助於搜尋引擎更有效地抓取網站。

運作原理：

當搜尋引擎的爬蟲訪問您的網站時，它首先會檢查您的 Robots.txt 文件來了解哪些部分是開放的，哪些是限制的。通過適當的設定，您可以確保敏感部分如後台管理界面不被索引，同時確保公開的內容被有效索引，從而提升網站的搜搜尋索引擎可見性和索引效率。

對於進一步的個性化配置，您可能需要根據網站的具體需求來調整 Disallow 和 Allow 指令。例如，如果您的網站包含有特定的會員區域或是一些不希望公開的資源，您可以通過增加額外的 Disallow 條目來限制這些內容的訪問。

增強你的 Robots.txt 設定：

監控和測試：使用 Google Search Console 的「Robots.txt 測試工具」來檢查您的 Robots.txt 文件是否有語法錯誤，以及各指令是否如預期般工作。
動態生成：對於更複雜的網站，考慮動態生成 Robots.txt 文件，以依據不同情況調整其內容。這可以通過 WordPress 的 hooks 和過濾器實現。

若想在您的 WordPress 網站的 robots.txt 中特別屏蔽特定的 AI 機器人（例如假設有一個名為 “ExampleBot” 的搜尋引擎機器人），您可以添加針對這個機器人的特定規則。以下是如何配置的範例：

User-agent: ExampleBot
Disallow: /

這個規則告訴 “ExampleBot”，它被禁止訪問網站的所有部分。這是一種保護措施，用來防止未經授權的機器人訪問和索引您的網站內容。您可以根據需要添加更多的具體機器人規則，或者調整 Disallow 指令來限制對特定目錄或頁面的訪問。

擴展的配置範例：

如果您希望對多個不同的機器人進行精細控制，可以在 robots.txt 中添加多個 User-agent 和 Disallow/Allow 指令組合，如下所示：

User-agent: ExampleBot
Disallow: /

User-agent: AnotherBot
Disallow: /private/

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://您的網站.com/sitemap_index.xml

這樣的設定不僅限制了 “ExampleBot” 和 “AnotherBot” 的訪問，還保持了對其他所有機器人的通用設定。這種方法允許網站管理者更精確地控制哪些機器人可以訪問網站的哪些部分，有助於最大程度地提升網站在搜尋引擎中的表現及其安全性。

禁止 AI 爬蟲機器人爬你網站

最近啊，AI 盛行的關係，很多人的網站甚至被中國的 AI 機器人給暴力爬取，導致影響網站效能，基本上要阻擋的 AI BOT 也真的擋不完，以知名的 Open AI 的 GPTBot 來說，以下的指令就可以禁止 GPTBot 爬你網站：

# OpenAI
User-agent: GPTBot
Disallow: /

要擋我覺得還好，真正需要擋的大多是中國的暴力 AI BOT 才是可怕的亂象，其中甚至有許多可怕的 AI BOT 大大的影響了網站，如果你很在意 AI BOT 爬你的資料，以下全部禁止吧，雖然真正暴力的是不會管你這份設定的。

User-agent: CCBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Omgili
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: ImagesiftBot
Disallow: /

User-agent: cohere-ai
Disallow: /

CCBot 是一般抓取用的機器人，它的資料已被 ChatGPT、Bard 等用於訓練多種模型。一些圖片抓取機器人也使用一般爬取機器人來尋找圖片。
ChatGPT-User 是當 ChatGPT 的用戶指示它參考您的網站時使用的機器人。它不會自動訪問您的網站，但仍在使用您網站的資料。
GPTBot 是 OpenAI 專門用來從您的網站收集 ChatGPT 的大量訓練資料的機器人。
Google-Extended 是 Google 最近宣布的產品代號，允許您阻止 Google 為 Bard 和 VertexAI 抓取您的網站資料。這不會影響 Google 搜尋的索引。唯一的作用方式是將其放在您的 robots.txt 中。根據他們的文件說明：“Google-Extended 沒有單獨的 HTTP 請求用戶代理字符串。
Anthropic-ai 是 Anthropic 使用的，用來收集其「AI」產品（如 Claude）的資料。
Omgilibot 和 Omgili 來自 webz.io。並出售資料用於訓練大型語言模型。
FacebookBot 是 Meta 的機器人，用來抓取公開網頁，以改善其語音識別技術的語言模型。這不是 Facebook 用來獲取發布連結時的圖片和摘要的工具。
Diffbot 是一個用來收集資料訓練大型語言模型的，被評論為不誠實的抓取機器人。這是他們的預設用戶代理 Agent 名稱，但他們為客戶提供了讓你的資料變成他們的東西，並忽視您的設定。
Bytespider 被識別為 ByteDance 就是字節跳動，就是抖音使用的機器人，用於收集其大型語言模型（包括 Doubao 豆包）的資料。
ImagesiftBot 被認為是一個反向圖像搜尋工具，但它與 The Hive 相關，該公司生產用於圖像生成的模型。它並非明確地為「AI」模型抓取資料，但有足夠的理由擔心可能會這樣做。
cohere-AI 是一個未經證實的機器人，據信與 Cohere 的聊天機器人相關。它與 ChatGPT-User 屬於同一類別，因為它似乎是對用戶指向的查詢做出反應的。

結語：

配置適當的 Robots.txt 文件對於最佳化您的 WordPress 網站在搜尋引擎中的表現。它不僅有助於保護網站的隱私與安全，還可以確保重要內容得到優先索引。正確配置並定期更新您的 Robots.txt 文件，可以改善整體 SEO。

實用文章