클라우드플레어, AI 메이즈 출시: 생성적 AI로 악성 크롤러 대응하기

44.9K 00

인공지능이 생성한 콘텐츠는 전례 없는 속도로 성장하고 있으며, 지난 가을 Facebook에서 가장 인기 있었던 게시물 20개 중 4개가 인공지능에 의해 생성된 것으로 알려졌습니다. 또한 미디엄은 자사 플랫폼의 콘텐츠 중 471조 3,000억 개가 AI에서 생성된 것으로 추정하고 있습니다. 모든 새로운 도구가 그렇듯이 AI는 긍정적인 활용과 악의적인 목적으로 악용될 수 있는 위험성을 동시에 가지고 있습니다.

동시에, AI 회사에서 모델 학습에 사용하는 새로운 유형의 웹 크롤러가 급증하는 것을 관찰했습니다. 이러한 AI 크롤러는 Cloudflare 네트워크에 매일 500억 건 이상의 요청을 보내며, 이는 Cloudflare 네트워크 전체 요청의 약 1%를 차지합니다. Cloudflare에는 이미 무단 AI 크롤링을 식별하고 차단하는 도구가 있지만, 실제로 악성 봇을 완전히 차단하면 공격자가 전술을 변경하여 끝없는 '고양이와 쥐의 게임'이 발생할 수 있는 것으로 나타났습니다. 끝없는 고양이와 쥐의 게임 Cloudflare는 이러한 원치 않는 봇을 탐지되지 않고 차단할 수 있는 새로운 방법을 찾고자 했습니다.

이를 위해 Cloudflare는 봇 제작자에게는 일반적인 도구이지만 방어 분야에서는 거의 적용되지 않았던 전략, 즉 AI 생성 콘텐츠를 채택하기로 결정했습니다. Cloudflare는 무단 크롤링을 감지하면 요청을 완전히 차단하는 대신 일련의 AI 생성 페이지로 연결합니다. 이러한 페이지의 콘텐츠는 크롤러가 더 크롤링하도록 유도할 만큼 현실적인 콘텐츠입니다. 그러나 실제처럼 보이는 이 콘텐츠는 실제로 사이트의 실제 데이터가 아니므로 크롤러가 잘못된 정보에 시간과 컴퓨팅 리소스를 낭비할 수 있습니다.

'AI 미로'는 차세대 허니팟 기술이라는 추가적인 이점이 있습니다. 일반 인간 사용자는 의미 없는 링크로 구성된 AI 미로를 결코 파헤치지 않기 때문에, 집착적인 방문자는 봇일 가능성이 높습니다. 지속적인 방문자는 봇일 가능성이 높기 때문에 Cloudflare는 악성 봇을 식별하고 태그를 지정하여 알려진 악성 행위자 목록에 추가할 수 있는 새로운 도구를 제공합니다. "AI Maze"의 작동 방식은 다음과 같습니다.

"미궁은 어떻게 만들어졌나요?

AI 크롤러가 이러한 링크를 따라가면 실제 데이터를 찾기 위해 사이트를 크롤링하는 대신 관련 없는 콘텐츠를 처리하는 데 귀중한 컴퓨팅 리소스를 소비하게 됩니다. 이로 인해 AI 크롤러가 효율적으로 정보를 수집하여 모델을 학습시킬 수 있는 능력이 크게 저하됩니다.

최대한 실제와 유사한 콘텐츠를 생성하기 위해 Cloudflare는 오픈 소스 모델과 결합된 Workers AI를 활용하여 다양한 주제에 대한 고유한 HTML 페이지를 생성했습니다. 온디맨드 콘텐츠 생성의 성능 영향을 피하기 위해 Cloudflare는 사전 생성 프로세스를 구현하고 콘텐츠를 정리하여 XSS 취약성을 방지했으며 빠른 검색을 위해 콘텐츠를 R2에 저장했습니다. Cloudflare는 다양한 주제를 식별한 다음 각 주제에 대해 콘텐츠를 생성하면 더 다양하고 혼란스러운 결과가 나온다는 사실을 발견했습니다. 또한 Cloudflare는 인터넷에서 잘못된 정보를 확산시키는 데 기여할 수 있는 부정확한 콘텐츠를 생성하는 것을 피하고자 했습니다. 그 결과, "AI Maze"가 생성하는 콘텐츠는 과학적 사실과 관련이 있는 진본이지만 크롤링되는 웹사이트의 콘텐츠와는 관련이 없습니다.

이 사전 생성된 콘텐츠는 페이지의 원래 구조와 콘텐츠를 손상시키지 않고 Cloudflare의 사용자 지정 HTML 변환 프로세스를 통해 기존 페이지의 숨겨진 링크에 원활하게 통합됩니다. 생성된 각 페이지에는 SEO를 보호하고 검색 엔진의 색인화를 방지하기 위한 적절한 메타 지시어가 포함되어 있으며, Cloudflare는 또한 신중하게 제작된 속성과 스타일을 통해 이러한 링크가 일반 방문자에게 보이지 않도록 보장합니다. 일반 방문자에 대한 영향을 최소화하기 위해 이러한 링크는 의심되는 AI 크롤러에게만 표시되므로 합법적인 사용자와 인증된 크롤러는 정상적으로 볼 수 있습니다.

그림 : AI 크롤러 일일 요청량 비교 차트, 카테고리별 크롤러 데이터 비교.

이 접근 방식이 효과적인 이유는 Cloudflare의 진화하는 봇 탐지 시스템에서 이 접근 방식이 수행하는 역할 때문입니다. 이러한 숨겨진 링크를 방문하면 Cloudflare는 인간 방문자와 일반 브라우저에서는 이러한 링크를 보거나 클릭하지 않기 때문에, 인간 사용자의 행동이 아니라 자동화된 크롤러의 행동이라고 확신할 수 있습니다. 이를 통해 Cloudflare는 머신 러닝 모델에 공급되는 가치 있는 데이터를 생성하는 강력한 식별 메커니즘을 제공합니다. 어떤 크롤러가 이러한 숨겨진 경로를 따르는지 분석함으로써 Cloudflare는 다른 방법으로는 탐지하기 어려운 새로운 봇 패턴과 기능을 식별할 수 있습니다. 이러한 사전 예방적 접근 방식은 Cloudflare가 AI 크롤러 분야에서 앞서 나가도록 도와주며, 사용자의 정상적인 브라우징 환경을 방해하지 않으면서도 탐지 기능을 지속적으로 개선할 수 있도록 합니다.

클라우드플레어는 이 솔루션을 클라우드플레어 개발자 플랫폼에 구축함으로써 사이트 성능이나 사용자 경험에 영향을 주지 않으면서도 사실적인 미끼 콘텐츠를 즉시 제공하고 일관된 콘텐츠 품질을 유지하는 시스템을 만들었습니다.

AI Maze로 AI 크롤러를 막는 방법

AI 미로를 활성화하는 것은 Cloudflare 대시보드에서 스위치를 켜는 것만큼이나 간단합니다. 해당 지역의 봇 관리 섹션으로 이동한 다음, 새로운 "AI 미로" 설정을 "켜기"로 전환합니다:

활성화하면 추가 구성 없이도 AI Maze가 즉시 작동하기 시작합니다.

인공지능이 만든 AI 허니팟

'AI 미로'의 핵심 강점은 봇을 혼란스럽게 하고 주의를 분산시키는 것입니다. 그러나 또 다른 중요한 가치는 차세대 허니팟 역할을 한다는 것입니다. 여기서 허니팟이란 웹사이트 방문자에게는 보이지 않지만 HTML 코드를 파싱하는 봇이 인식하고 클릭하여 자신을 노출시키는 숨겨진 링크를 말합니다. "허니팟" 기술은 1986년 "뻐꾸기 알 사건"과 같이 초기에 해커를 잡는 데 사용되었습니다. 2004년 Cloudflare의 창립자( 2004년, Cloudflare의 창립자(Cloudflare를 만들기 전)들은 누구나 쉽게 무료 이메일 허니팟을 배포하고 크롤러 IP 목록을 대가로 데이터베이스에 기여할 수 있도록 하기 위해 Project Honeypot을 만들었습니다. 그러나 봇이 진화함에 따라 이제는 숨겨진 링크와 같은 허니팟 기법을 적극적으로 찾게 되어 기존의 허니팟 방법은 효과가 떨어지게 되었습니다.

'AI 미로'는 숨겨진 링크를 추가할 뿐만 아니라, 결국에는 자동화된 프로그램이 인식하기 어려운 보다 현실적인 상호 연결된 URL의 전체 네트워크를 생성합니다. 페이지의 콘텐츠는 분명히 사람이 시간을 들여 탐색할 만한 것이 아니지만, AI 봇은 가능한 한 많은 데이터를 수집하기 위해 깊이 크롤링하도록 프로그래밍되어 있습니다. 봇이 이러한 URL을 방문하면 Cloudflare는 실제 사용자가 아니라는 것을 확신할 수 있으며, 이 정보는 기록되어 Cloudflare의 머신 러닝 모델에 자동으로 피드백되어 봇 인식 개선에 도움이 됩니다. 이렇게 하면 각 크롤링 시도가 모든 Cloudflare 고객을 보호하는 데 도움이 되는 선순환 구조가 만들어집니다.

향후 전망

이것은 봇에 대응하기 위한 Cloudflare의 첫 번째 시도일 뿐입니다. 현재로서는 'AI 미로'가 봇을 혼동하기에 충분한 콘텐츠를 생성하지만, 각 웹사이트의 기존 구조에 완벽하게 맞지 않을 수 있습니다. 앞으로 Cloudflare는 이러한 링크를 탐지하기 어렵게 만들고 임베디드 웹사이트의 기존 구조에 원활하게 맞출 수 있도록 계속 노력할 것입니다. 사용자는 지금 "AI Maze"를 사용하도록 설정하여 Cloudflare가 이 기능을 개선하는 데 도움을 줄 수 있습니다.

봇과의 싸움에서 다음 단계를 밟으려면 지금 바로 시작하세요.AI 미로 활성화하기.