dhcp服务器设置-全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容
根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻挠爬虫机器人搜集网络数据用于 AI 服务。
OpenAI,ChatGPT,人工智能,AI
在缺少明确法令或监管规定办理 AI 运用版权资料的情况下,大小不一的网站都自行采纳办法。
OpenAI 于 8 月初推出了其 GPTBot 爬虫,并宣布所搜集到的数据「可能被用于改善未来模型」,许诺扫除付费内容并辅导网站如何禁止该爬虫。随后,包含《纽约时报》、路透社和 CNN 等知名新闻网站开端阻挠 GPTBot,并且许多其他网站也仿效。
根据 Originality.AI 的数据,在全球前 1000 个最受欢迎的网站中,阻挠 OpenAI ChatGPT bot 的数量从 8 月 22 日 9.1% 增加到 8 月 29 日 12%。封闭 ChatGPT bot 的最大网站是亚马逊、Quora 和 Indeed。数据显现,更大型的网站更有可能已经封闭了 AI 爬虫机器人。
Common Crawl Bot 是另一个定时搜集某些 AI 服务运用的 Web 数据的爬虫程序,在全球前 1000 个尖端网站上被屏蔽率为 6.77%。
任何您能够从 Web 浏览器访问的页面都能够被爬虫程序「抓取」,它们就像浏览器相同运转,但将资料存储在数据库中而不是向用户显现。
(dhcp服务器设置)这便是查找引擎如 Google 搜集信息的方式。网站所有者一向有能力发布指令,告知这些爬虫程序离开他们的网站,但协作完全是自愿性质,并且恶意操作者能够疏忽这些指令。
谷歌和其他网络公司以为其数据爬虫作业归于合理运用范围,但许多出版商和知识产权持有人长期以来一向反对此做法,并且该公司因而面临了多起诉讼。大型言语模型和生成式 AI 的兴起使得这个问题重新受到关注,由于 AI 公司派出自己的爬虫程序搜集数据以培训其模型并提供谈天机器人所需素材。
自从 Google 和其他查找网站将用户引导至其支撑广告的网站后,一些出版商至少以为允许查找爬虫程序进入其网站具有某种价值。然而,在 AI 年代中,出版商更积极地阻挠爬虫程序进入其网站,由于暂时没有将其数据交给 AI 公司的优点。许多媒体公司目前正在与 AI 公司就以费用向其授权数据进行商洽,但这些商洽还处于前期阶段。
在过去 20 年中被 Google 拿走了一些东西的媒体机构对 OpenAI 等快速商业化的 AI 服务持歹意和「我们不会再上当」的态度。据 The Information 报导,OpenAI 估计在未来一年内将带来超越 10 亿美元的收入。
新闻媒体公司正在尽力找到平衡点,在接受和抵制人工智能之间挣扎。一方面,该职业迫切需要寻觅立异方法来提高劳动密集型事务的利润率。
另一方面,在人们对新闻媒体公司的信任度处于前史低点之际,将人工智能引进新闻编辑室的作业流程,会带来具有挑战性的道德问题。
而假如太多的网络阻止人工智能爬虫,它们的所有者可能会发现更难改善和更新他们的人工智能产品——并且好的数据也变得越来越难找到。
Originality.AI 的发现显现,前 1000 个网站中 GPTBot 的屏蔽率每周增加约 5%。
共有 0 条评论