微比恩 > 信息聚合 > OpenAI推出爬虫机器人,但用户也可以选择禁止被爬

OpenAI推出爬虫机器人,但用户也可以选择禁止被爬

2023-08-08 16:39:36来源: 36氪

作者 | 虞景霖编辑 | 邓咏仪AI模型的升级依靠海量的公开数据,而科技公司大多通过网络爬虫来获取用户数据。但这个过程并不一定被用户、网站所有者所允许。8月8日,OpenAI推出了一款名为GPTBot的网络爬虫机器人,用于收集训练AI模型所需的数据信息。有市场消息称,OpenAI将利用这些数据升级GPT-4和其他大语言模型(如可能即将推出的GPT-5和开源的G3PO)。根据OpenAI介绍,GPTBot和其他所有网络爬虫一样,从互联网上搜集能够用于训练AI模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止GPTBot爬取网页数据。如何识别GPTBot?来源:OpenAI如何禁止GPTBot访问?将GPTBot添加到网站的robots.txt:来源:OpenAI如何限制GPTBot访问,使其只爬取网站的一部分数据?将下列命令添加至网站的robots.txt:来源:OpenAI此

关注公众号
标签: OpenAI AI 机器人