如何屏蔽GPTBot抓取網站內容

8月8日,OpenAI 推出了GPTBot,和谷歌、Bing等類似的網絡爬蟲工具,能夠自動抓取網站的數據,用來訓練 GPT-4 或 GPT-5,提升未來人工智能系統的準確性和能力。

什麼是GPTBot

 

GPTBot user-agent

可通過以下代碼識別

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; 
compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot的IP地址是多少

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
詳情參考https://openai.com/gptbot-ranges.txt

如何禁止GPTBot訪問

1、你可以通過robots.txt文件禁止 OpenAI 對自己的網站訪問,不將自己的數據用來訓練,代碼如下。GPTBot會遵循robots協議,

User-agent: GPTBot
Disallow: / 

  你還可以通過以下代碼,來控制 GPTBot 對網站部分內容的訪問。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

  

2、你也可以將以上ip段加入到防火牆來屏蔽GPTBot

3、將user-agent加入到防火牆

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章