如何屏蔽各大AI公司爬蟲User Agent

羅列各大AI公司Scraper爬蟲Crawler使用的User Agent,教您如何在robots.txt裏面屏蔽這些爬蟲的訪問,禁止它們下載您的網站內容以訓練 AI 模型,保護數據,降低帶寬,防止宕機

GPTBot

GPTBot 是 OpenAI 使用的網絡爬蟲,用於下載 LLM(大型語言模型)的訓練數據,爲 ChatGPT 等人工智能產品提供支持。

30%的大站屏蔽了它

User-agent: GPTBot
Disallow: /

 

ChatGPT-User

ChatGPT-User 由 OpenAI 的 ChatGPT 根據用戶prompts提示派遣的。它的回答通常包含網站內容摘要,而不是直接轉發給用戶。

10%的大站屏蔽了它

User-agent: ChatGPT-User
Disallow: /

 

cohere-ai

Cohere 是一家提供高級 LLM(大型語言模型)訪問權限的公司,其他公司可利用這些 LLM 增強其人工智能產品。cohere-ai 是一個未經確認的代理,可能由 Cohere 的人工智能聊天產品在需要檢索互聯網內容時根據用戶prompts提示派遣。

1%的大站屏蔽了它

User-agent: cohere-ai
Disallow: /

  

Google-Extended

Google-Extended 是谷歌用來下載人工智能訓練內容的網絡爬蟲,用於其人工智能產品(如 Bard 和 Vertex 人工智能生成應用程序接口)。

11%的大站屏蔽了它

User-agent: Google-Extended
Disallow: /

  

CCBot

CCBot 是 Common Crawl 使用的一種網絡爬蟲,用於維護一個開放源代碼的網絡爬行數據存儲庫,任何人都可以使用該存儲庫。該資源庫已被用於訓練許多 LLM(大型語言模型),包括 OpenAI 的 GPT-3。

13%的大站屏蔽了它

User-agent: CCBot
Disallow: /

 

Omgilibot

Omgilibot 是 Webz.io 用來維護網絡抓取數據存儲庫的網絡爬蟲,Webz.io 將其出售給其他公司,包括那些用它來訓練人工智能模型的公司。  

1%的大站屏蔽了它

User-agent: omgilibot
Disallow: /

User-agent: omgili
Disallow: /

  

FacebookBot

FacebookBot 是 Meta 用來下載人工智能語音識別技術訓練數據的網絡爬蟲。

0%的大站屏蔽了它

User-agent: FacebookBot
Disallow: /

  

anthropic-ai

anthropic-ai 是一個未經證實的代理,可能是 Anthropic 用來下載 LLM(大型語言模型)訓練數據的,比如AI產品Claude。

2%的大站屏蔽了它

User-agent: anthropic-ai
Disallow: /

 

Twitterbot

Twitterbot 是一個常用的代理。它目前沒有被歸類爲人工智能或與人工智能相關的任何類別。Twitter現更名爲X。不確定是不是Grok的User Agent。埃隆-馬斯克Elon Musk的人工智能公司 xAI 推出了一款名爲 Grok 的人工智能聊天機器人。

11%的大站屏蔽了它

User-agent: Twitterbot
Disallow: /

  

  


 

更多AI公司爬蟲User Agent不定時更新

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章