Cómo los bots de OpenAI 'actuaron como un ataque DDoS' para destruir la web de la empresa de siete personas

Noticias AIActualizado hace 11 meses Círculo de intercambio de inteligencia artificial

28.1K 00

El sábado, el CEO de Triplegangers, Oleksandr Tomchuk, recibió la notificación de que el sitio de comercio electrónico de su empresa no funcionaba. Parecía un ataque de denegación de servicio distribuido.

Pronto descubre que el culpable es uno de los bots de OpenAI, que intenta rastrear sin descanso todo su enorme sitio web.

"Tenemos más de 65.000 productos, y cada producto tiene una página", explica Tomchuk a TechCrunch. "Cada página tiene al menos tres fotos".

OpenAI envió "decenas de miles" de peticiones al servidor intentando descargar todo este contenido, incluidos cientos de miles de fotos y sus descripciones detalladas.

"OpenAI utilizó 600 IP para rastrear los datos, y todavía estamos analizando los registros de la semana pasada, así que puede que el número sea aún mayor", dijo sobre las direcciones IP que el bot utilizó para intentar acceder a su sitio.

"Sus rastreadores estaban destruyendo nuestro sitio", dijo, "Era básicamente un ataque DDoS".

El sitio web de Triplegangers es su negocio. Esta empresa de siete empleados lleva más de una década reuniendo lo que denomina la mayor base de datos de "dobles digitales humanos" de la Red, es decir, archivos de imágenes en 3D escaneados a partir de maniquíes reales.

Vende archivos de objetos en 3D y fotografías a artistas tridimensionales, productores de videojuegos y a cualquiera que necesite reconstruir digitalmente los rasgos del cuerpo humano real, desde las manos hasta el pelo, la piel y el cuerpo entero.

El equipo de Tomchuk tiene su sede en Ucrania, pero también tiene licencia en Tampa (Florida, EE.UU.), y su sitio web tiene una página de términos de servicio que prohíbe a los bots acceder a sus imágenes sin permiso. Pero eso en sí mismo no hace nada. El sitio debe utilizar un archivo robot.txt correctamente configurado que contenga etiquetas que indiquen explícitamente al robot de OpenAI, GPTBot, que no acceda al sitio. (OpenAI tiene otros robots, ChatGPT-User y OAI-SearchBot, que tienen sus propias etiquetas, basadas en sus páginas de información sobre el rastreador).

Robot.txt, también conocido como Protocolo de Exclusión de Robots, está diseñado para indicar a los sitios web de los motores de búsqueda qué no deben rastrear porque indexan la web. openAI afirma en su página de información que cumplirá con dichos archivos cuando se configuren con su propia etiqueta de no rastreo, aunque también advierte de que sus robots pueden tardar hasta 24 horas en reconocer un archivo robot.txt actualizado.

Como experimentó Tomchuk, si un sitio no utiliza el robot.txt correctamente, OpenAI y otros lo interpretan como que pueden rastrear el contenido a voluntad. No se trata de un sistema opt-in.

Para empeorar las cosas, el bot de OpenAI no sólo está desconectando a los Tripleganger en horario laboral en Estados Unidos, sino que Tomchuk espera un aumento significativo de las facturas de AWS debido a toda la actividad de CPU y descarga del bot.

Robot.txt tampoco es infalible. Las empresas de IA lo cumplen voluntariamente. Otra startup de IA, Perplexity, adquirió notoriedad el verano pasado a raíz de una investigación de la revista Wired cuando algunas de las pruebas implicaban que Perplejidad No hay tiempo para cumplirlo.

No se puede determinar a qué se está accediendo

El miércoles, unos días después de que regresara el bot de OpenAI, los Tripleganger habían configurado correctamente el archivo robot.txt y creado una cuenta de Cloudflare para bloquear su GPTBot y algunos otros bots que encontró, como Barkrowler (un rastreador SEO) y Bytespider ( Tomchuk también espera haber bloqueado los rastreadores de otras empresas de modelado de inteligencia artificial. Según Tomchuk, el sitio no se cayó el jueves por la mañana.

Pero Tomchuk todavía no tiene una manera razonable de averiguar exactamente lo que OpenAI logró acceder o eliminar el material. OpenAI no respondió a la solicitud de comentarios de TechCrunch. OpenAI no respondió a la solicitud de comentarios de TechCrunch, y OpenAI hasta ahora no ha cumplido con su largamente prometida herramienta de exclusión, como TechCrunch informó recientemente.

Se trata de una cuestión especialmente espinosa para Triplegangers. "Los derechos son un tema serio en el negocio en el que estamos porque escaneamos a personas reales", dice. Según leyes como la GDPR europea, "no pueden simplemente tomar una foto de cualquiera en la web y usarla".

El sitio web de Triplegangers es también un hallazgo especialmente apetitoso para los rastreadores de IA. Se han fundado empresas multimillonarias, como Scale AI, en las que los humanos etiquetan minuciosamente las imágenes para entrenar a la IA. El sitio web de Triplegangers contiene fotos etiquetadas detalladas: raza, edad, tatuajes y cicatrices, todos los tipos de cuerpo, etc.

Irónicamente, la avaricia del bot de OpenAI es lo que hace que los Triplegangers se den cuenta de lo expuesto que está. Dice que si se hubiera rascado con más suavidad, Tomchuk nunca se habría enterado.

"Da miedo porque estas empresas parecen aprovecharse de un resquicio legal para rastrear datos, y dicen: 'si actualizas tu robot.txt con nuestras etiquetas, puedes excluirte'", explica Tomchuk, pero eso pone en manos de los en los propietarios de las empresas.

Quiere que otras pequeñas empresas en línea sepan que la única manera de averiguar si un robot de inteligencia artificial está accediendo a contenidos protegidos por derechos de autor en un sitio web es buscarlo activamente. Desde luego, no es el único al que aterrorizan. Otros propietarios de sitios web contaron recientemente a Business Insider cómo los bots de OpenAI estaban destruyendo sus sitios web y aumentando sus facturas de AWS.

En 2024, el problema crece exponencialmente. Un nuevo estudio de la empresa de publicidad digital DoubleVerify ha descubierto que los rastreadores de IA y las herramientas de rastreo han provocado un aumento de 861 TP3T en "tráfico general no válido" en 2024, es decir, tráfico que no procede de usuarios reales.

Sin embargo, "la mayoría de los sitios aún no saben que están siendo rastreados por estos bots", advierte Tomchuk. "Ahora tenemos que vigilar a diario la actividad de los registros para detectar estos bots".

Si lo piensas, todo el modelo funciona un poco como la extorsión mafiosa: a menos que estés protegido, los robots de la IA se llevarán lo que quieran.

"Deberían pedir permiso, no limitarse a acaparar datos", afirma Tomchuk.

Lectura relacionada.

1. OpenAI ha lanzado una nueva herramienta de rastreo web llamada GPTBot para abordar los problemas de privacidad y propiedad intelectual que plantea la recopilación de datos en sitios web públicos. La tecnología pretende recopilar de forma transparente datos de webs públicas y utilizarlos para entrenar sus modelos de IA, todo ello bajo la bandera de OpenAI.

2. OpenAI utiliza rastreadores web ("bots") y agentes de usuario para realizar acciones para sus productos que son automatizadas o desencadenadas por peticiones de los usuarios. openAI utiliza la siguiente etiqueta robots.txt para que los webmasters puedan gestionar cómo funcionan sus sitios web y contenidos con la IA . Cada configuración es independiente de las demás; por ejemplo, el administrador de un sitio puede permitir que OAI-SearchBot aparezca en los resultados de búsqueda y desactivar GPTbot para indicar que el contenido rastreado no debe utilizarse para entrenar el modelo base de IA generativa de openAI. Para los resultados de búsqueda, tenga en cuenta que pueden transcurrir unas 24 horas hasta que se realicen los ajustes desde la actualización del robots.txt de un sitio a nuestro sistema.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

OpenAI lanza su primer agente de inteligencia artificial ChatGPT ya puede hacer tu trabajo automáticamente

Noticias AI

hace 11 meses

032.3K

AI 应用领域再迎重磅融资，LiblibAI 一年四轮领跑“AI 原生工作流”赛道

El campo de la aplicación de la IA recibe otra importante financiación, LiblibAI lidera la vía del "flujo de trabajo nativo de la IA" con cuatro rondas en un año.

Noticias AI

hace 10 meses

035.4K

MathCLUE：DeepSeek R1挑战「全国高中数学竞赛」，成绩大幅超越o1

MathCLUE: DeepSeek R1 desafía al "Concurso nacional de matemáticas para institutos" y supera ampliamente a o1

Noticias AI

hace 10 meses

032.4K

Microsoft anuncia la beta pública de AI Shell, ya no hay miedo a equivocarse de comando

Noticias AI

hace 1 año

033.8K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Cómo los bots de OpenAI 'actuaron como un ataque DDoS' para destruir la web de la empresa de siete personas

No se puede determinar a qué se está accediendo

Snowflake lanza el modelo vectorial multilingüe Arctic Embed 2.0 para búsquedas de alta calidad en chino

Exposición de 18 casos de aplicación de "Inteligencia Artificial + Educación Superior" anunciada por el Ministerio de Educación

Artículos relacionados

OpenAI lanza su primer agente de inteligencia artificial ChatGPT ya puede hacer tu trabajo automáticamente

El campo de la aplicación de la IA recibe otra importante financiación, LiblibAI lidera la vía del "flujo de trabajo nativo de la IA" con cuatro rondas en un año.

MathCLUE: DeepSeek R1 desafía al "Concurso nacional de matemáticas para institutos" y supera ampliamente a o1

Microsoft anuncia la beta pública de AI Shell, ya no hay miedo a equivocarse de comando

Sin comentarios

Últimas colecciones

Últimos artículos

Cómo los bots de OpenAI 'actuaron como un ataque DDoS' para destruir la web de la empresa de siete personas

No se puede determinar a qué se está accediendo

Snowflake lanza el modelo vectorial multilingüe Arctic Embed 2.0 para búsquedas de alta calidad en chino

Exposición de 18 casos de aplicación de "Inteligencia Artificial + Educación Superior" anunciada por el Ministerio de Educación

Artículos relacionados

OpenAI lanza su primer agente de inteligencia artificial ChatGPT ya puede hacer tu trabajo automáticamente

El campo de la aplicación de la IA recibe otra importante financiación, LiblibAI lidera la vía del "flujo de trabajo nativo de la IA" con cuatro rondas en un año.

MathCLUE: DeepSeek R1 desafía al "Concurso nacional de matemáticas para institutos" y supera ampliamente a o1

Microsoft anuncia la beta pública de AI Shell, ya no hay miedo a equivocarse de comando

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos