恒安集团邮件系统-AI爬虫成DDoS攻击，占流高达97%，OpenAI是“最大黑手

2025/03/26域名新闻

站长之家(ChinaZ.com)3 月 26 日音讯:软件开发者 Xe Iaso 迎来了一重大难题 —— 来自亚马逊的很多AI爬虫流量使其 Git 存储库服务不堪重负，重复导致服务不稳定、停机等问题。虽然设置了规范的防护办法 —— 调整了 robots.txt 文件、屏蔽了已知的爬虫用户署理，并过滤了可疑流量 —— 但 Iaso 发现，AI爬虫完美绕过了这些阻力 —— 它们假装用户署理，并使用住所 IP 地址作为署理不断轮换。
Iaso 在一篇题为 “失望的呼救” 的博客文章中写道：“屏蔽AI爬虫机器人是白费的，它们会作假、会更改用户署理、会使用住所 IP 地址作为署理……我不想被迫封闭 Gitea 服务器 —— 但若有必要，我会这么做。”
Iaso 的经历凸显了一个正在开源社区敏捷延伸的广泛危机 —— 这些激进的AI爬虫使得越来越多的‘社区保护基础设施过载’状况呈现，对一些至关重要的公共资源形成了等同于 DDoS 进犯的影响。根据 LibreNews 最近的一份陈述显现：现在，一些开源项目高达 97% 的流量来自AI公司的机器人爬虫，这极大地加剧了带宽本钱、导致服务不稳定、并给本就任务深重的保护人员带来了更大的担负。
image.png
恒安集团邮件系统,Fedora Pagure 项目的系统管理员团队成员凯文・芬齐（Kevin Fenzi）在他的博客中陈述称，在多次测验减少AI爬虫流量无果后，该项目不得不屏蔽了所有来自巴西的流量。
这种状况并非彻底最近才呈现。上一年 12 月，为 Diaspora 交际网络保护基础设施的丹尼斯・舒伯特（Dennis Schubert）在发现来自AI公司爬虫的恳求占其总流量的 70% 后，愤怒地将这一状况称为“简直是针对整个互联网的DDoS进犯”。
这种状况在技术和经济方面都带来了很高的本钱。据 Read the Docs 项目陈述称，屏蔽AI爬虫后，其流量立即减少了 75%，从每天 800GB 降至每天 200GB。他们在博客文章《人工智能爬虫需要更尊重他人》中写道：这一改变使得他们的项目每月节省了大约 1500 美元的带宽本钱。
特别是开源项目，面临着愈加严峻的挑战，由于开源项目依赖于公众协作，且与商业实体比较，其运营资源一般有限。许多保护人员称，为了防止被“发现”，这些AI爬虫成心绕过规范的屏蔽办法，无视 robots.txt 指令，假装用户署理，并轮换 IP 地址。
宇宙飞船，黑客，外星人侵略
在 Hacker News 上，相关评论也如火如荼地上演着，评论者们对‘AI公司针对开源基础设施的掠取性行为’表达了深深的不满。
除了消耗带宽之外，这些爬虫还经常拜访一些占用很多资源的端点，比如 git blame、日志页面等，这给本就有限的资源带来了额外的压力。SourceHut 创始人德鲁・德沃（Drew DeVault）在他的博客中表示，这些爬虫会拜访 “每个 git 日志的每一页，以及存储库中的每一次提交记载”，这种“进犯”对代码存储库来说特别沉重。
这个问题不仅仅局限于基础设施压力。正如 LibreNews 所指出的，一些开源项目早在 2023 年 12 月就开端连续收到AI生成的错误陈述，Curl 项目的丹尼尔・斯滕伯格（Daniel Stenberg）在 2024 年 1 月的一篇博客文章中初次对此进行了论述。这些陈述乍一看似乎是合理的，但其间包含了“AI编造的漏洞”，浪费了开发者宝贵的时刻。
实际上，“不问自取”可谓是AI公司一贯作风。在 2022 年AI图像生成器、AI聊天机器人等产品敏捷迸发并引起人们对这种行为的重视之前，机器学习领域基本上都是在“无视版权”的操作下编纂数据集的。
虽然AI公司都在进行网络爬虫活动，但形成的影响程度各不相同。根据丹尼斯・舒伯特发布的 Diaspora 交际网络流量日志分析成果显现，该平台的网络流量中约四分之一来自 OpenAI 用户署理的机器人，而亚马逊占 15%，Anthropic 占 4.3%。
微信图片_20250326105159.png
这些爬虫或许是为了搜集练习数据以构建或完善大型言语模型，而另一些则或许是在用户向人工智能帮手问询信息时履行实时搜索。
这些爬虫的拜访频率特别能说明问题。舒伯特观察到，AI爬虫“不只是爬取一个页面后就离开……它们每 6 个小时就会回来一次”。这也表明这些AI爬虫是在持续搜集数据，而非进行一次性的练习活动 —— 这些AI公司在使用这种爬取行为来“更新”它们的模型知识。
为了应对这些“进犯”，呈现了一些新的防护东西来保护网站免受不必要的AI爬虫侵扰。正如 Ars 在本年 1 月报导的那样，一位被称为 “Aaron” 的匿名程序员规划了一款名为 “Nepenthes” 的东西 —— 将爬虫困在无尽的虚伪内容迷宫中。Aaron 明确将其描述为 “进犯性恶意软件”—— 目的是浪费AI公司的资源，并有或许会污染它们的练习数据。
Aaron 解说说：“每当这些爬虫从我的陷阱中获取数据时，它们就消耗了资源 —— 不得不为此支付真金白银，这有用地增加了它们的本钱。鉴于它们现在都还没有盈利，这对它们来说是个大问题。”
周五，Cloudflare 宣告推出 “AI Labyrinth”，这是一种类似于“Nepenthes”、但在商业上更为完善的东西。与被规划成“复仇者”的Nepenthes 不同，Cloudflare 将他们的东西定位为一种合法的安全功能，以保护网站所有者免受未经授权的抓取行为。
Cloudflare 在其公告中解说说：“当咱们检测到未经授权的爬取行为时，咱们不会屏蔽恳求，而是会链接到一系列由AI生成的页面，这些页面看似十分有说服力，足以招引爬虫去阅读。” 该公司陈述称，AI爬虫每天向其网络发送超越 500 亿次恳求，占其处理的所有网络流量的近 1%。
就现在的状况来看，AI生成内容的敏捷增长使网络空间不堪重负，再加上AI公司激进的网络爬虫行为，都让重要网络资源的可持续性遭受着重大威胁。
如果AI公司能直接与受影响的社区合作，“负责任”的数据搜集并非难事。然而，AI行业的巨子们似乎并没有啥采取更具合作性办法的主意。若是没有有用的监管，AI公司与受害平台之间的“军备竞赛”很或许还会进一步晋级。

恒安集团邮件系统-AI爬虫成DDoS攻击，占流高达97%，OpenAI是“最大黑手

admin

共有 0 条评论

发表评论取消回复

admin

共有 0 条评论

发表评论 取消回复

发表评论取消回复