OpenAI의 봇이 7명의 직원이 있는 회사의 웹사이트를 파괴하기 위해 '디도스 공격처럼 행동'한 방법

41.2K 00

토요일, 트리플게이저스의 CEO인 올렉산드르 톰축은 회사의 이커머스 사이트가 다운되었다는 알림을 받았습니다. 일종의 분산 서비스 거부 공격처럼 보였습니다.

그는 곧 범인이 자신의 방대한 웹사이트 전체를 끊임없이 크롤링하는 OpenAI의 봇 중 하나라는 사실을 알게 됩니다.

"우리는 65,000개 이상의 제품을 보유하고 있으며, 각 제품에는 페이지가 있습니다."라며, "각 페이지에는 최소 3개의 사진이 있습니다."라고 톰척은 테크크런치와의 인터뷰에서 설명했습니다.

OpenAI는 수십만 장의 사진과 자세한 설명을 포함한 이 모든 콘텐츠를 다운로드하기 위해 '수만 건'의 서버 요청을 보냈습니다.

그는 봇이 자신의 사이트에 접속을 시도하는 데 사용한 IP 주소에 대해 "OpenAI는 600개의 IP를 사용하여 데이터를 크롤링했으며, 지난주 로그를 분석 중이므로 그 수는 더 많을 수 있습니다."라고 말했습니다.

"크롤러가 우리 사이트를 파괴하고 있었습니다." 그는 "기본적으로 디도스 공격이었습니다."라고 말했습니다.

트리플게이저의 웹사이트는 이 회사의 사업입니다. 직원 7명으로 구성된 이 회사는 실제 마네킹을 스캔한 3D 이미지 파일을 의미하는 웹상 최대 규모의 '인간 디지털 복제품' 데이터베이스를 구축하는 데 10년이 넘는 시간을 투자했습니다.

3D 아티스트, 비디오 게임 제작자, 그리고 손부터 머리카락, 피부, 전신 등 실제 인체의 특징을 디지털로 재구성해야 하는 모든 사람에게 사진뿐만 아니라 3D 오브젝트 파일을 판매합니다.

Tomchuk의 팀은 우크라이나에 기반을 두고 있지만 미국 플로리다주 탬파에 라이선스를 보유하고 있으며, 웹사이트에는 봇의 무단 이미지 접근을 금지하는 서비스 약관 페이지가 있습니다. 하지만 그 자체로는 아무 효과가 없습니다. 사이트에서는 OpenAI의 로봇인 GPTBot에게 사이트에 액세스하지 말라고 명시적으로 지시하는 태그가 포함된 올바르게 구성된 robot.txt 파일을 사용해야 합니다. (OpenAI에는 크롤러에 대한 정보 페이지에 따라 자체 태그가 있는 ChatGPT-User 및 OAI-SearchBot이라는 다른 여러 로봇이 있습니다.)

로봇 제외 프로토콜이라고도 알려진 로봇.txt는 검색 엔진 사이트가 웹을 색인화할 때 크롤링하지 말아야 할 항목을 알려주기 위해 설계되었습니다. openAI는 정보 페이지에서 자체 크롤링 금지 태그를 구성하면 이러한 파일을 준수할 것이라고 말하지만, 로봇이 다음과 같이 경고하기도 합니다. 업데이트된 robot.txt 파일을 인식하는 데 최대 24시간이 걸릴 수 있다고 경고합니다.

톰척이 경험했듯이 사이트가 robot.txt를 올바르게 사용하지 않는다면 OpenAI와 다른 사이트들은 이를 마음대로 콘텐츠를 크롤링할 수 있다는 의미로 받아들입니다. 이것은 옵트인 시스템이 아닙니다.

설상가상으로, 미국 업무 시간 중 트리플게이저가 OpenAI의 봇에 의해 오프라인 상태가 될 뿐만 아니라 봇의 모든 CPU 및 다운로드 활동으로 인해 AWS 요금이 크게 증가할 것으로 예상하고 있습니다.

로봇.txt도 완벽한 것은 아닙니다. AI 회사들은 자발적으로 이를 준수하고 있습니다. 또 다른 AI 스타트업인 Perplexity는 지난 여름 Wired Magazine의 조사 결과 다음과 같은 증거가 드러나면서 악명을 얻었습니다. 당혹감 이를 준수할 시간이 없습니다.

액세스 중인 항목을 확인할 수 없음

OpenAI의 봇이 돌아온 지 며칠 후인 수요일까지 트리플게이저는 robot.txt 파일을 올바르게 구성하고 Cloudflare 계정을 설정하여 GPTBot과 그가 찾은 다른 몇 가지 봇, 예를 들어 Barkrowler(SEO 크롤러) 및 Bytespider( 틱톡의 크롤러) 톰축은 다른 AI 모델링 회사의 크롤러도 차단했으면 좋겠다고 말합니다. 그는 목요일 아침 사이트가 다운되지 않았다고 말했습니다.

그러나 톰척은 OpenAI가 자료에 액세스하거나 제거한 내용을 정확히 파악할 수 있는 합리적인 방법을 아직 찾지 못했습니다. OpenAI는 테크크런치의 논평 요청에 응답하지 않았습니다. OpenAI는 테크크런치의 논평 요청에 응답하지 않았으며, 최근 테크크런치가 보도한 것처럼 OpenAI는 오랫동안 약속했던 옵트아웃 도구를 지금까지 제공하지 않고 있습니다.

이는 트리플게이저에게 특히 까다로운 문제입니다. "실제 사람을 스캔하기 때문에 우리 업계에서 인권은 심각한 문제입니다."라고 그는 말합니다. 유럽의 GDPR과 같은 법률에 따라 "웹에서 아무나 사진을 찍어 사용할 수 없습니다."

트리플갱어스의 웹사이트는 AI 크롤러에게 특히 흥미로운 곳이기도 합니다. Scale AI와 같은 수십억 달러 규모의 스타트업이 설립되어 사람이 직접 이미지에 태그를 지정하여 AI를 훈련시키고 있습니다. 트리플갱어스의 웹사이트에는 인종, 나이, 문신과 흉터, 모든 체형 등 상세한 태그가 지정된 사진이 포함되어 있습니다.

아이러니하게도 OpenAI 봇의 욕심 때문에 트리플 갱스터는 자신이 얼마나 노출되어 있는지 깨닫게 됩니다. 좀 더 부드럽게 긁었더라면 톰축은 결코 알지 못했을 것이라고 말합니다.

"이 회사들이 데이터 크롤링의 허점을 악용해 '로봇.txt를 우리 태그로 업데이트하면 옵트아웃할 수 있다'고 말하는 것 같아 무섭습니다."라고 톰척은 말했지만, 이는 곧 사업주에게 책임을 떠넘기는 것입니다. 비즈니스 소유자에게 책임을 전가합니다.

그는 다른 소규모 온라인 비즈니스에 AI 봇이 웹사이트의 저작권이 있는 콘텐츠에 액세스하고 있는지 알아내는 유일한 방법은 적극적으로 찾아내는 것임을 알리고 싶어 합니다. 이러한 위협에 시달리는 것은 그뿐만이 아닙니다. 다른 웹사이트 소유자들도 최근 비즈니스 인사이더와의 인터뷰에서 OpenAI의 봇으로 인해 웹사이트가 파괴되고 AWS 요금이 증가했다고 말했습니다.

2024년에는 이 문제가 기하급수적으로 증가할 것입니다. 디지털 광고 회사인 DoubleVerify의 새로운 연구에 따르면 AI 크롤러와 크롤링 도구로 인해 2024년에 '일반 유효하지 않은 트래픽', 즉 실제 사용자로부터 발생하지 않는 트래픽이 86% 증가할 것으로 예상됩니다.

그럼에도 불구하고 "대부분의 사이트는 여전히 이러한 봇에 의해 크롤링되고 있다는 사실을 모르고 있습니다."라고 톰척은 경고합니다. "이제 이러한 봇을 발견하기 위해 매일 로그 활동을 모니터링해야 합니다."

생각해 보면 전체 모델은 마피아의 강탈과 비슷하게 작동합니다. 사용자가 보호받지 못하면 AI 봇이 원하는 것을 가져가게 됩니다.

"데이터를 가져가는 것이 아니라 허락을 받아야 합니다."라고 Tomchuk은 말합니다.

관련 읽기.

1. OpenAI는 공공 웹사이트의 데이터 수집으로 인해 제기되는 개인정보 보호 및 지적 재산권 문제를 해결하기 위해 GPTBot이라는 새로운 웹 크롤러 도구를 출시했습니다. 이 기술은 공개 웹 데이터를 투명하게 수집하고 이를 사용하여 AI 모델을 학습시키는 것을 목표로 하며, 이 모든 것이 OpenAI의 기치 아래 이루어집니다.

OpenAI는 웹 크롤러("봇")와 사용자 에이전트를 사용하여 자동화되거나 사용자 요청에 의해 트리거되는 제품에 대한 작업을 수행합니다. OpenAI는 웹 마스터가 자신의 웹사이트 및 콘텐츠가 AI와 작동하는 방식을 관리할 수 있도록 다음 robots.txt 태그를 사용합니다. . 예를 들어, 사이트 관리자는 OAI-SearchBot이 검색 결과에 표시되도록 허용하는 동시에 크롤링된 콘텐츠가 OpenAI의 생성 AI 기본 모델을 학습하는 데 사용되지 않도록 GPTbot을 비활성화할 수 있습니다. 검색 결과의 경우 사이트의 robots.txt 업데이트가 시스템에 적용되기까지 약 24시간이 소요될 수 있습니다.