如何屏蔽各大AI公司爬蟲User Agent

原創

ytkah

2023-12-30 13:11

羅列各大AI公司Scraper爬蟲Crawler使用的User Agent，教您如何在robots.txt裏面屏蔽這些爬蟲的訪問，禁止它們下載您的網站內容以訓練 AI 模型，保護數據，降低帶寬，防止宕機

GPTBot

GPTBot 是 OpenAI 使用的網絡爬蟲，用於下載 LLM（大型語言模型）的訓練數據，爲 ChatGPT 等人工智能產品提供支持。

30%的大站屏蔽了它

User-agent: GPTBot
Disallow: /

ChatGPT-User

ChatGPT-User 由 OpenAI 的 ChatGPT 根據用戶prompts提示派遣的。它的回答通常包含網站內容摘要，而不是直接轉發給用戶。

10%的大站屏蔽了它

User-agent: ChatGPT-User
Disallow: /

cohere-ai

Cohere 是一家提供高級 LLM（大型語言模型）訪問權限的公司，其他公司可利用這些 LLM 增強其人工智能產品。cohere-ai 是一個未經確認的代理，可能由 Cohere 的人工智能聊天產品在需要檢索互聯網內容時根據用戶prompts提示派遣。

1%的大站屏蔽了它

User-agent: cohere-ai
Disallow: /

Google-Extended

Google-Extended 是谷歌用來下載人工智能訓練內容的網絡爬蟲，用於其人工智能產品（如 Bard 和 Vertex 人工智能生成應用程序接口）。

11%的大站屏蔽了它

User-agent: Google-Extended
Disallow: /

CCBot

CCBot 是 Common Crawl 使用的一種網絡爬蟲，用於維護一個開放源代碼的網絡爬行數據存儲庫，任何人都可以使用該存儲庫。該資源庫已被用於訓練許多 LLM（大型語言模型），包括 OpenAI 的 GPT-3。

13%的大站屏蔽了它

User-agent: CCBot
Disallow: /

Omgilibot

Omgilibot 是 Webz.io 用來維護網絡抓取數據存儲庫的網絡爬蟲，Webz.io 將其出售給其他公司，包括那些用它來訓練人工智能模型的公司。　　

1%的大站屏蔽了它

User-agent: omgilibot
Disallow: /

User-agent: omgili
Disallow: /

FacebookBot

FacebookBot 是 Meta 用來下載人工智能語音識別技術訓練數據的網絡爬蟲。

0%的大站屏蔽了它

User-agent: FacebookBot
Disallow: /

anthropic-ai

anthropic-ai 是一個未經證實的代理，可能是 Anthropic 用來下載 LLM（大型語言模型）訓練數據的，比如AI產品Claude。

2%的大站屏蔽了它

User-agent: anthropic-ai
Disallow: /

Twitterbot

Twitterbot 是一個常用的代理。它目前沒有被歸類爲人工智能或與人工智能相關的任何類別。Twitter現更名爲X。不確定是不是Grok的User Agent。埃隆-馬斯克Elon Musk的人工智能公司 xAI 推出了一款名爲 Grok 的人工智能聊天機器人。

11%的大站屏蔽了它

User-agent: Twitterbot
Disallow: /

更多AI公司爬蟲User Agent不定時更新

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何屏蔽各大AI公司爬蟲User Agent

GPTBot

ChatGPT-User

cohere-ai

Google-Extended

CCBot

Omgilibot

FacebookBot

anthropic-ai

Twitterbot

如何屏蔽各大AI公司爬蟲User Agent

爲什麼網站速度優化很重要

如何在LinkedIn上開發客戶

怎樣在Facebook上開發客戶

如何屏蔽GPTBot抓取網站內容

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結