Claude Official Insight Report: A los usuarios chinos les encanta escribir novelas con Claude

Clio: un sistema de información sobre el uso de la IA en el mundo real para proteger la intimidad

¿Para qué se utilizan los modelos de inteligencia artificial? A pesar de la creciente popularidad de los grandes modelos lingüísticos, hasta ahora no sabíamos exactamente cómo se utilizan.

No es sólo una cuestión de curiosidad o incluso de investigación sociológica. Comprender cómo utilizan realmente las personas los modelos lingüísticos es fundamental para la seguridad: los proveedores de servicios realizan pruebas exhaustivas antes de implantarlos y utilizan sistemas de confianza y seguridad para evitar abusos. Sin embargo, la variedad y escala de las funciones que pueden desempeñar los modelos lingüísticos dificulta la comprensión de su uso, por no hablar de la supervisión exhaustiva de la seguridad.

Hay otro factor clave que se interpone en el camino de una comprensión clara de cómo se están utilizando los modelos de IA: la privacidad. En Anthropic, nuestro Claude Modelo por defectoNo utilizará los datos de los diálogos de los usuarios para la formacióny nos tomamos muy en serio la protección de los datos de los usuarios. Entonces, ¿cómo estudiamos y observamos el uso de nuestros sistemas al tiempo que mantenemos la estricta privacidad de los usuarios?

Claude insights and observations, o "Clio" para abreviar, es nuestro intento de responder a esta pregunta; Clio es una herramienta de análisis automatizada que permite el análisis del uso del modelo lingüístico en el mundo real preservando la privacidad. Es similar a Google Trends en el sentido de que nos da una idea de cómo se utiliza claude.ai en el día a día, y también nos ayuda a mejorar nuestras medidas de seguridad. En este post (conDocumento de investigación completo), describiremos Clio y algunos de sus resultados preliminares.

 

Cómo funciona Clio: un análisis a gran escala para preservar la privacidad

Clio adopta un planteamiento diferente, que permite descubrir patrones de abajo arriba al destilar las conversaciones en grupos de temas abstractos y fáciles de entender. Al mismo tiempo, protege la privacidad de los usuarios: los datos se anonimizan y agregan automáticamente, y los analistas humanos sólo pueden ver la información de los grupos de mayor nivel.

Claude官方洞察报告:原来中文用户最爱用Claude写小说

Ejemplo esquemático del paso de análisis de Clio, ilustrado con un ejemplo de diálogo ficticio.

A continuación se ofrece un breve resumen del proceso multietapa de Clio:

  1. Extracción de propiedadesPara cada conversación, Clio extrae múltiples "atributos": propiedades específicas o metadatos, como el tema de la conversación, el número de idas y vueltas en la conversación o el idioma utilizado.
  2. agrupación semánticaAgrupa automáticamente diálogos similares por tema o asunto general.
  3. Descripción del clústerA cada grupo se le asigna un título descriptivo y un resumen, que extrae los temas comunes de los datos brutos y excluye la información privada.
  4. Construir una estructura jerárquicaLos clusters se organizan en una estructura de varios niveles que facilita la exploración. A continuación, pueden presentarse en una interfaz interactiva, que los analistas de Anthropic pueden utilizar para explorar patrones en diferentes dimensiones (temas, idiomas, etc.).

Estos cuatro pasos son realizados íntegramente por Claude, no por analistas humanos. Esto forma parte del diseño de Clio que da prioridad a la privacidad, con múltiples niveles de "defensa en profundidad". Por ejemplo, Claude tiene instrucciones de excluir detalles privados cuando extrae información relevante de una conversación. También tenemos umbrales mínimos para el número de usuarios únicos o conversaciones para garantizar que los temas de baja frecuencia, que pueden ser específicos de una persona en particular, no se expongan accidentalmente. Por último, Claude verifica que los resúmenes de los grupos no contengan información demasiado específica o identificable antes de mostrarlos a los usuarios humanos.

Todas nuestras medidas de protección de la intimidad han sido ampliamente probadas y se detallan enDocumentos de investigación.

 

Cómo utiliza la gente Claude: la opinión de Clio

Con Clio, hemos podido obtener información de alto nivel sobre el uso real que hace la gente de claude.ai. Mientras que WildChat responder cantando LMSYS-Chat-1M Los conjuntos de datos públicos de este tipo proporcionan información útil sobre el uso que la gente hace de los modelos lingüísticos, pero sólo captan contextos y casos de uso específicos.Clio nos da una idea de toda la gama de escenarios en los que claude.ai se utiliza en el mundo real (que puede ser diferente del uso de otros sistemas de IA debido a las diferencias en las poblaciones de usuarios y los tipos de modelos).

Principales casos de uso de Claude.ai

Hemos utilizado Clio para analizar 1 millón de conversaciones en claude.ai (tanto en la versión gratuita como en la pro) e identificar las principales tareas para las que los usuarios utilizan Claude. Esto demuestra que los usuarios se centran especialmente en tareas relacionadas con la programación: la categoría "Desarrollo de aplicaciones web y móviles" representa más de 10% de todas las conversaciones. Los desarrolladores de software utilizan Claude para tareas que van desde la depuración de código hasta la explicación de operaciones y conceptos de Git.

Claude官方洞察报告:原来中文用户最爱用Claude写小说

Los tipos más comunes de conversaciones que los usuarios mantienen con Claude, en todos los idiomas. El área del círculo corresponde al porcentaje de conversaciones; los títulos son resúmenes generados por Clio tras analizar 1 millón de conversaciones seleccionadas al azar.

El uso educativo es otra categoría importante, con más de 7% del número total de diálogos, y abarca principalmente la enseñanza y el aprendizaje. La estrategia y las operaciones empresariales (incluidas tareas como la redacción de comunicaciones profesionales y el análisis de datos empresariales) representaron cerca del 6% del diálogo.

Clio también identifica miles de grupos de diálogo más pequeños, lo que demuestra los diversos usos de Claude. Algunos de estos usos pueden resultar sorprendentes:

  • Interpretar los sueños;
  • Análisis de partidos de fútbol;
  • Preparación de la respuesta ante catástrofes;
  • Proporciona pistas para crucigramas;
  • Dragones y Mazmorras Juegos;
  • Cuenta la letra "r" de la palabra "fresa".

El uso de Claude varía de una lengua a otra

El uso de Claude varía significativamente de una lengua a otra, lo que refleja diferentes contextos y necesidades culturales. Calculamos la frecuencia básica de aparición de cada lengua en el diálogo global y, a partir de ahí, identificamos ciertos temas que aparecían con mucha más frecuencia en determinadas lenguas. A continuación se muestran algunos ejemplos en español, chino y japonés.

Claude官方洞察报告:原来中文用户最爱用Claude写小说

Información de Clio sobre los temas de diálogo que aparecen con más frecuencia en tres lenguas seleccionadas (en relación con la frecuencia subyacente de esa lengua).

Cómo utilizamos Clio para mejorar nuestro sistema de seguridad

Además de entrenar a nuestros modelos lingüísticos para que rechacen las solicitudes perjudiciales, utilizamos sistemas especializados de control de confianza y seguridad para detectar, bloquear y responder a las solicitudes que puedan infringir nuestra política de seguridad. Política de uso Clio ha contribuido a este trabajo, ayudándonos a comprender dónde podemos mejorar y potenciar estos sistemas.

Hemos implementado estrictos controles de acceso a la privacidad en nuestro uso de Clio para reforzar aún más nuestra política, ya que esto puede requerir una revisión de las cuentas individuales. Nuestro equipo de Confianza y Seguridad puede identificar áreas que pueden indicar una violación de nuestra política de uso a través de revisiones de grupos temáticos. Por ejemplo, un grupo titulado "Generar contenido engañoso de correos electrónicos de recaudación de fondos" o "Incitar a comportamientos de odio" describe actividades que prohibimos. Nuestro equipo de Confianza y Seguridad puede utilizar este enfoque de revisión ascendente para identificar cuentas individuales que requieran una mayor revisión y, en su caso, una acción de acuerdo con nuestros términos y políticas. Limitamos estrictamente dichas revisiones a las que tienen necesidades legítimas de Confianza y Seguridad. Nuestra Documentos de investigación Contiene más información sobre estos procesos.

Todavía estamos desplegando Clio en todos nuestros sistemas ejecutivos, pero hasta ahora ha demostrado ser una parte útil de nuestro kit de herramientas de seguridad, ayudándonos a identificar áreas en las que necesitamos reforzar nuestras medidas de protección.

Detectar y poner fin a comportamientos abusivos coordinados

Clio es muy eficaz en la identificación de patrones coordinados y complejos de abuso que pueden ser indetectables a partir de conversaciones individuales por sí solas y pueden evadir métodos de detección más simples. Por ejemplo, a finales de septiembre, descubrimos un conjunto de cuentas automatizadas que utilizaban una estructura similar para generar contenido spam con fines de SEO. Aunque ninguna conversación individual infringía nuestros Política de usoEliminamos este grupo de cuentas, pero el patrón de comportamiento entre ellas revelaba una forma de abuso coordinado de la plataforma que nuestra política prohíbe explícitamente. También utilizamos Clio para identificar otras cuentas que habían sido identificadas por nuestra Política de uso Actividades prohibidas, como intentar revender el acceso no autorizado a Claude.

Vigilancia reforzada de los acontecimientos de alto riesgo

Clio también nos ayuda a supervisar nuevos patrones de uso y riesgos potenciales durante periodos de incertidumbre o acontecimientos de alto riesgo. Por ejemplo, durante el lanzamiento de nuestro nuevo Uso del ordenador Antes de incorporar esta función, realizamos pruebas de seguridad exhaustivas con Clio para detectar funciones emergentes y riesgos que podrían haberse pasado por alto. Clio nos proporcionó información y datos de seguridad adicionales que nos ayudarán a mejorar continuamente las medidas de seguridad durante el despliegue de esta función y en futuras versiones del sistema.

Clio también nos ayuda a vigilar los riesgos desconocidos en vísperas de grandes acontecimientos públicos, como elecciones o grandes eventos internacionales. En los meses previos a las elecciones estadounidenses de 2024, estamosUso de Clio La capacidad de Clio para detectar las "incógnitas desconocidas" complementa nuestras medidas de seguridad proactivas y nos ayuda a responder con rapidez a los nuevos retos.

Reducción de falsos negativos y falsos positivos

Por lo general, Clio y nuestros clasificadores de confianza y seguridad existentes coinciden en la determinación del riesgo de los grupos de sesiones. Sin embargo, hay desacuerdos para ciertos clusters. Una oportunidad de mejora es reducir los falsos negativos (es decir, que el sistema no marque como contenido potencialmente dañino sesiones que en realidad pueden serlo). Por ejemplo, cuando los usuarios pedían a Claude que tradujera de un idioma a otro, nuestro sistema a veces no marcaba el contenido ofensivo, y Clio reconocía estas sesiones.

Claude官方洞察报告:原来中文用户最爱用Claude写小说

El diagrama de dispersión muestra los grupos de sesiones (un punto representa un grupo) y el grado en que el clasificador de confianza y seguridad (eje x) y Clio (eje y) los consideran peligrosos. En la esquina superior izquierda se encuentran los grupos que el clasificador de confianza y seguridad puede subestimar como de riesgo: falsos negativos que contienen contenido preocupante pero no se etiquetan como tal. En la esquina inferior derecha se encuentran las agrupaciones que pueden estar sobreetiquetadas: falsos positivos que pueden no contener contenido preocupante. La correlación global entre el clasificador Trust & Safety y la clasificación Clio es r = 0,71, lo que indica una elevada concordancia global entre ambos.

También utilizamos Clio para investigar los falsos positivos, otro reto habitual al desarrollar clasificadores de confianza y seguridad, en los que el clasificador etiqueta incorrectamente contenido inofensivo como dañino. Por ejemplo, las sesiones en las que los solicitantes de empleo piden asesoramiento sobre su currículum a veces se etiquetan incorrectamente como si contuvieran información personal. Los temas de programación relacionados con la seguridad, las redes o el rastreo web a veces se etiquetan erróneamente como posible piratería informática. Incluso lo anterior Dragones y Mazmorras Las sesiones en el juego sobre estadísticas de combate también pueden activar nuestro sistema de detección de peligros. Usamos Clio para resaltar estos falsos positivos, lo que ayuda a nuestro sistema de seguridad a activar solo el contenido que infringe nuestras políticas, manteniendo al mínimo la intervención en el uso legítimo del usuario.

Consideraciones éticas y medidas paliativas

Clio aporta valiosas ideas para mejorar la seguridad de los grandes modelos lingüísticos desplegados. Sin embargo, también planteó algunas consideraciones éticas importantes durante su desarrollo, que evaluamos y sobre las que actuamos en consecuencia:

  • Falsos positivos: En el contexto de la confianza y la seguridad, hemos implementado salvaguardas clave contra posibles falsos positivos. Por ejemplo, actualmente no utilizamos los resultados de Clio para la ejecución automatizada de medidas y hemos validado ampliamente su rendimiento en diferentes distribuciones de datos, incluidas las pruebas multilingües detalladas en nuestro artículo.
  • Riesgo de abuso de Clio: Sistemas como Clio pueden utilizarse de forma inadecuada para prácticas de vigilancia. Además de estrictas técnicas de control de acceso y privacidad, mitigamos este riesgo aplicando una estricta política de minimización y conservación de datos: solo recopilamos y conservamos la cantidad mínima de datos necesaria para Clio.
  • Privacidad del usuario: Aunque Clio obtiene buenos resultados en nuestras evaluaciones de privacidad, como ocurre con cualquier sistema de privacidad del mundo real, ciertos tipos de información privada pueden pasar desapercibidos. Para mitigar este riesgo potencial, auditamos regularmente las protecciones y evaluaciones de privacidad de Clio para asegurarnos de que sus protecciones cumplen las expectativas. Con el tiempo, también tenemos previsto utilizar el último modelo Claude en Clio para mejorar continuamente el rendimiento de estas protecciones.
  • Confianza de los usuarios: A pesar de la amplia protección de la privacidad que proporcionamos, algunos usuarios pueden encontrar sistemas como Clio intrusivos o que interfieren con su uso de Claude. Hemos decidido ser transparentes sobre los usos, capacidades y limitaciones de Clio, así como sobre la información que obtenemos de él. Como ya hemos mencionado, Clio identifica falsos positivos (es decir, actividades que parecen violar la política de uso pero que en realidad no lo hacen) en nuestro clasificador de seguridad estándar, lo que puede permitirnos intervenir menos cuando interfiere con usos legítimos del modelo.

llegar a un veredicto

Clio es un paso importante hacia la seguridad y la gobernanza de la IA con apoyo empírico. Al respaldar los análisis de preservación de la privacidad del uso de la IA en el mundo real, podemos comprender mejor cómo se utilizan realmente estos sistemas. En última instancia, podemos utilizar Clio para hacer que los sistemas de IA sean más seguros.

Los proveedores de IA tienen una doble responsabilidad: mantener la seguridad de sus sistemas y proteger la privacidad de los usuarios, y Clio demuestra que estos dos objetivos no se excluyen mutuamente: con un diseño y una implementación cuidadosos, podemos lograr ambos al mismo tiempo. Al hablar públicamente de Clio, pretendemos establecer una norma positiva en torno al desarrollo y uso responsables de este tipo de herramientas.

Seguimos desarrollando y mejorando Clio y deseamos que otros lo amplíen. Para obtener más información sobre los detalles técnicos de Clio, incluidos nuestros métodos de verificación y evaluación de la privacidad, consulte Documento de investigación completo.

Actualmente estamos contratando personal para el equipo de Impacto Social. Si está interesado en Clio o en cuestiones de investigación relacionadas, esperamos su solicitud. Para más información sobre el puesto, visiteeste enlace.

notas a pie de página

^1 ^ En nuestros estudios de seguridad, también ejecutamos Clio en parte de nuestro tráfico de API de origen, con resultados restringidos a empleados autorizados. Algunas cuentas se excluyen del análisis, incluidas las organizaciones de confianza con las que tenemos acuerdos de retención cero. Para más información sobre nuestras políticas, véase el Apéndice F del documento de investigación.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...