8月8日,OpenAI 推出了GPTBot,和谷歌、Bing等类似的网络爬虫工具,能够自动抓取网站的数据,用来训练 GPT-4 或 GPT-5,提升未来人工智能系统的准确性和能力。
GPTBot user-agent
可通过以下代码识别
User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot的IP地址是多少
20.15.240.64/28 20.15.240.80/28 20.15.240.96/28 20.15.240.176/28 20.15.241.0/28 20.15.242.128/28 20.15.242.144/28 20.15.242.192/28 40.83.2.64/28
如何禁止GPTBot访问
1、你可以通过robots.txt文件禁止 OpenAI 对自己的网站访问,不将自己的数据用来训练,代码如下。GPTBot会遵循robots协议,
User-agent: GPTBot Disallow: /
你还可以通过以下代码,来控制 GPTBot 对网站部分内容的访问。
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
2、你也可以将以上ip段加入到防火墙来屏蔽GPTBot
3、将user-agent加入到防火墙