8月8日,OpenAI 推出了GPTBot,和谷歌、Bing等類似的網絡爬蟲工具,能夠自動抓取網站的數據,用來訓練 GPT-4 或 GPT-5,提升未來人工智能系統的準確性和能力。
GPTBot user-agent
可通過以下代碼識別
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot的IP地址是多少
20.15.240.64/28 20.15.240.80/28 20.15.240.96/28 20.15.240.176/28 20.15.241.0/28 20.15.242.128/28 20.15.242.144/28 20.15.242.192/28 40.83.2.64/28
如何禁止GPTBot訪問
1、你可以通過robots.txt文件禁止 OpenAI 對自己的網站訪問,不將自己的數據用來訓練,代碼如下。GPTBot會遵循robots協議,
User-agent: GPTBot Disallow: /
你還可以通過以下代碼,來控制 GPTBot 對網站部分內容的訪問。
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
2、你也可以將以上ip段加入到防火牆來屏蔽GPTBot
3、將user-agent加入到防火牆