人工智能生成内容正以前所未有的速度增长,据报道,去年秋季 Facebook 上最受欢迎的 20 个帖子中,有 4 个是由 AI 生成。此外,Medium 估计其平台上 47% 的内容也来自 AI。如同所有新兴工具一样,AI 既有积极的应用,也存在被恶意利用的风险。
与此同时,我们观察到 AI 公司为训练模型而使用的新型网络爬虫数量激增。这些 AI 爬虫每天向 Cloudflare 网络发出超过 500 亿次请求,约占我们网络总请求的近 1%。虽然 Cloudflare 已有多款工具用于识别和阻止未经授权的 AI 爬取行为,但实践表明,直接阻止恶意 Bot 可能会 alert 攻击者,导致其改变策略,从而陷入一场无休止的“猫鼠游戏”。因此,Cloudflare 希望找到一种全新的方法来阻止这些不受欢迎的 Bot,且不被对方察觉。
为了实现这一目标,Cloudflare 决定采用一种 Bot 创造者常用的工具,但之前在防御领域鲜有应用的策略:AI 生成内容。当 Cloudflare 检测到未经授权的爬取行为时,不会直接阻止请求,而是会链接到一系列由 AI 生成的页面。这些页面内容逼真,足以诱使爬虫继续深入抓取。然而,这些看似真实的内容实际上并非站点本身的真实数据,从而使爬虫在虚假信息中浪费时间和计算资源。
“AI 迷宫” 还具备额外的优势,它如同一个新一代的蜜罐技术。因为正常人类用户绝不会深入浏览一个由 AI 生成的、毫无意义的迷宫式链接网络。任何执着于此的访问者都极有可能是 Bot。这为 Cloudflare 提供了一种全新的工具,用于识别和标记恶意 Bot,并将其添加到已知的恶意行为者名单中。以下是 “AI 迷宫” 的具体工作原理。
“迷宫”是如何构建的
当 AI 爬虫追踪这些链接时,它们会消耗宝贵的计算资源来处理无关紧要的内容,而不是抓取网站的真实数据。这大大削弱了 AI 爬虫有效收集信息以训练模型的能力。
为了生成以假乱真的类人内容,Cloudflare 利用 Workers AI, 结合开源模型,创建了各种主题的独特 HTML 页面。为了避免按需生成内容对性能产生影响,Cloudflare 实施了预生成流程,对内容进行清理以防止 XSS 漏洞,并将内容存储在 R2 中以便快速检索。Cloudflare 发现,先确定各种主题,再针对每个主题生成内容,可以产生更多样化和更具迷惑性的结果。更重要的是,Cloudflare 非常注重避免生成不准确的内容,从而助长互联网上虚假信息的传播。因此,“AI 迷宫” 生成的内容真实可靠,与科学事实相关,只不过与被爬取的网站内容无关。
这些预生成的内容通过 Cloudflare 定制的 HTML 转换流程,无缝集成到现有页面的隐藏链接中,不会破坏页面的原始结构和内容。每个生成的页面都包含适当的 meta 指令,以保护 SEO,防止被搜索引擎索引。Cloudflare 还通过精心设计的属性和样式,确保这些链接对人类访问者不可见。为了进一步减少对正常访问者的影响,这些链接仅呈现给疑似 AI 爬虫,而允许合法用户和经过验证的爬虫正常浏览。
图:AI 爬虫每日请求量对比图,不同类别爬虫数据对比。
这种方法之所以有效,在于其在 Cloudflare 不断演进的 Bot 检测系统中所扮演的角色。当这些隐藏链接被访问时,Cloudflare 可以高度确信这并非人类用户的行为,而是自动化爬虫在活动,因为人类访问者和正常浏览器永远不会看到或点击这些链接。这为 Cloudflare 提供了一种强大的识别机制,生成有价值的数据,并反馈到机器学习模型中。通过分析哪些爬虫正在追踪这些隐藏路径,Cloudflare 可以识别新的 Bot 模式和特征,这些模式和特征可能在其他情况下难以被检测到。这种积极主动的方法有助于 Cloudflare 在 AI 爬虫领域保持领先,不断提高检测能力,同时不影响用户的正常浏览体验。
通过在 Cloudflare 开发者平台上构建这一解决方案,Cloudflare 创建了一个可以即时提供逼真的诱饵内容,并保持内容质量一致的系统,且不会影响网站性能或用户体验。
如何使用 AI 迷宫阻止 AI 爬虫
启用 “AI 迷宫” 非常简单,只需在 Cloudflare 仪表板中打开一个开关即可。在您的区域中导航到 Bot 管理部分,然后将新的 “AI 迷宫” 设置切换为“开启”状态:
一旦启用,“AI 迷宫” 将立即开始工作,无需任何额外的配置。
AI 蜜罐,由 AI 创造
“AI 迷宫” 的核心优势在于迷惑和分散 Bot 的注意力。然而,它的另一个重要价值是充当下一代蜜罐。在此背景下,蜜罐是指网站访问者看不到的隐藏链接,但解析 HTML 代码的 Bot 会识别并点击这些链接,从而暴露自身。“蜜罐”技术在早期就被用于捕获黑客,例如 1986 年的“The Cuckoo’s Egg 事件”。2004 年,Cloudflare 创始人(在创立 Cloudflare 之前)创建了 Project Honeypot,旨在让所有人轻松部署免费的电子邮件蜜罐,并通过贡献数据库来换取爬虫 IP 列表。但随着 Bot 的进化,它们现在会主动寻找蜜罐技术,例如隐藏链接,这使得传统蜜罐方法的效果有所降低。
“AI 迷宫” 不仅添加隐藏链接,最终还将创建由相互链接的 URL 组成的整个网络,这些网络更逼真,且自动化程序难以识别。页面上的内容显然不是人类会花时间浏览的内容,但 AI Bot 被编程为深度爬取,以尽可能多地收集数据。当 Bot 访问这些 URL 时,Cloudflare 可以确信它们不是真实的人类用户,这些信息会被记录下来,并自动反馈到 Cloudflare 的机器学习模型中,以帮助改进 Bot 识别。这创建了一个良性循环,每次爬取尝试都有助于保护所有 Cloudflare 客户。
未来展望
这仅仅是 Cloudflare 利用生成式 AI 反制 Bot 的初步尝试。目前,虽然 “AI 迷宫” 生成的内容足以迷惑 Bot,但可能还无法完全契合每个网站的现有结构。未来,Cloudflare 将继续努力使这些链接更难以被发现,并使其能够无缝融入嵌入网站的现有结构中。用户可以通过立即选择启用 “AI 迷宫” 来帮助 Cloudflare 改进该功能。
要采取下一步行动对抗 Bot,请立即启用 AI 迷宫。