Clio: um sistema de percepção do uso de IA no mundo real para proteção da privacidade
Para que as pessoas usam os modelos de IA? Apesar do rápido crescimento da popularidade dos modelos de linguagem de grande porte, até agora não tínhamos uma visão exata de como eles são usados.
Não se trata apenas de uma questão de curiosidade ou mesmo de pesquisa sociológica. Entender como as pessoas realmente usam os modelos de linguagem é fundamental para a segurança: os provedores de serviços realizam testes extensivos antes da implantação e usam sistemas de confiança e segurança para evitar abusos. No entanto, a variedade e a escala de funções que os modelos de linguagem podem executar dificultam a compreensão de seu uso, sem falar no monitoramento abrangente da segurança.
Há outro fator importante que impede uma compreensão clara de como os modelos de IA estão sendo usados: a privacidade. Na Anthropic, nossa Claude Padrões do modeloNão usará dados de diálogo do usuário para treinamentoe levamos muito a sério a proteção dos dados dos usuários. Então, como estudamos e observamos o uso de nossos sistemas e, ao mesmo tempo, mantemos a privacidade rigorosa do usuário?
Claude insights e oO clio é uma ferramenta de análise automatizada que permite análises com preservação da privacidade do uso de modelos de linguagem no mundo real. É semelhante ao Google Trends, pois nos dá insights sobre como o claude.ai é usado no dia a dia e também nos ajuda a melhorar nossas medidas de segurança. Nesta postagem (comArtigo de pesquisa completo), descreveremos o Clio e alguns de seus resultados preliminares.
Como o Clio funciona: uma análise de preservação de privacidade em larga escala
As abordagens tradicionais de segurança de cima para baixo (por exemplo, avaliação e teste de equipe vermelha) dependem de saber antecipadamente o que procurar. O Clio adota uma abordagem diferente, permitindo a descoberta de padrões de baixo para cima ao destilar conversas em grupos de tópicos abstratos e fáceis de entender. Ao mesmo tempo, ele protege a privacidade do usuário: os dados são automaticamente anônimos e agregados, sendo que apenas as informações de cluster de nível superior são visíveis para os analistas humanos.
Exemplo de esboço da etapa de análise do Clio, ilustrado com um exemplo de diálogo fictício.
Abaixo está uma breve visão geral do processo de vários estágios do Clio:
- Extração de propriedadesPara cada conversa, o Clio extrai vários "atributos" - propriedades ou metadados específicos, como o tópico da conversa, o número de viagens de ida e volta na conversa ou o idioma usado.
- agrupamento semânticoAgrupamento automático de diálogos semelhantes por tema ou tópico geral.
- Descrição do clusterCada cluster recebe um título descritivo e um resumo, destilando temas comuns nos dados brutos e excluindo informações privadas.
- Criação de uma estrutura hierárquicaOs clusters são organizados em uma estrutura de várias camadas que facilita a exploração. Eles podem então ser apresentados em uma interface interativa, que os analistas da Anthropic podem usar para explorar padrões em diferentes dimensões (temas, idiomas etc.).
Essas quatro etapas são executadas inteiramente pelo Claude, e não por analistas humanos. Isso faz parte do design do Clio que prioriza a privacidade, com vários níveis de "defesa em profundidade". Por exemplo, o Claude é instruído a excluir detalhes privados ao extrair informações relevantes de uma conversa. Também temos limites mínimos para o número de usuários ou conversas exclusivas para garantir que tópicos de baixa frequência, que podem ser específicos de uma determinada pessoa, não sejam expostos acidentalmente. Por fim, o Claude verifica se os resumos dos clusters não contêm informações excessivamente específicas ou identificáveis antes de exibi-los aos usuários humanos.
Todas as nossas proteções de privacidade foram amplamente testadas e estão detalhadas emArtigos de pesquisa.
Como as pessoas usam o Claude: percepções da Clio
Com o Clio, conseguimos obter insights de alto nível sobre como as pessoas realmente usam o claude.ai. Enquanto empresas como a WildChat responder cantando LMSYS-Chat-1M Conjuntos de dados públicos como esse fornecem informações úteis sobre o uso de modelos de linguagem pelas pessoas, mas capturam apenas contextos e casos de uso específicos. O Clio nos dá uma ideia de toda a gama de cenários em que o claude.ai está sendo usado no mundo real (que pode ser diferente do uso de outros sistemas de IA devido a diferenças nas populações de usuários e nos tipos de modelos).
Principais casos de uso do Claude.ai
Usamos o Clio para analisar 1 milhão de conversas no claude.ai (versões gratuita e profissional) para identificar as principais tarefas para as quais os usuários usam o Claude. Isso mostra que os usuários estão particularmente concentrados em tarefas relacionadas à programação: a categoria "Desenvolvimento de aplicativos móveis e da Web" representa mais de 10% de todas as conversas. Os desenvolvedores de software usam o Claude para tarefas que vão desde a depuração de código até a explicação de operações e conceitos do Git.
Os tipos mais comuns de conversas que os usuários têm com o Claude, em todos os idiomas. A área do círculo corresponde à porcentagem de conversas; os títulos são resumos gerados pelo Clio após a análise de 1 milhão de conversas selecionadas aleatoriamente.
O uso educacional é outra categoria importante, representando mais de 7% do número total de diálogos e abrangendo principalmente o ensino e o aprendizado. A estratégia e as operações de negócios (incluindo tarefas como escrever comunicações profissionais e analisar dados de negócios) foram responsáveis por cerca de 6% do diálogo.
O Clio também identifica milhares de grupos menores de diálogo, demonstrando os diversos usos do Claude. Alguns desses usos podem ser surpreendentes, incluindo:
- Interpretação de sonhos;
- Análise de partidas de futebol;
- Preparação para resposta a desastres;
- Fornece dicas de palavras cruzadas;
- Dungeons & Dragons Jogos;
- Conte a letra "r" na palavra "strawberry" (morango).
O uso de Claude varia de idioma para idioma
O uso do Claude varia significativamente entre os idiomas, refletindo diferentes contextos e necessidades culturais. Calculamos a frequência básica de ocorrência de cada idioma no diálogo geral e, a partir disso, identificamos determinados temas que apareceram com frequência significativamente maior em determinados idiomas. Alguns exemplos de espanhol, chinês e japonês são mostrados abaixo.
Insights do Clio sobre tópicos de diálogo que aparecem com mais frequência em três idiomas selecionados (em relação à frequência subjacente desse idioma).
Como usamos o Clio para aprimorar nosso sistema de segurança
Além de treinar nossos modelos de linguagem para rejeitar solicitações prejudiciais, usamos sistemas especializados de confiança e aplicação de segurança para detectar, bloquear e responder a solicitações que possam violar nossos Política de uso O Clio contribuiu para esse trabalho, ajudando-nos a entender onde podemos melhorar e aprimorar esses sistemas.
Implementamos controles rigorosos de acesso à privacidade ao usar o Clio para reforçar ainda mais nossa política, pois isso pode exigir a revisão de contas individuais. Nossa equipe de Confiança e Segurança pode identificar áreas que podem indicar uma violação de nossa política de uso por meio de análises de grupos de tópicos. Por exemplo, um cluster intitulado "Gerar conteúdo enganoso de e-mail para captação de recursos" ou "Incitar comportamento de ódio" descreve atividades que proibimos. Nossa equipe de Confiança e Segurança pode usar essa abordagem de análise de baixo para cima para identificar contas individuais que exigem análise adicional e, quando apropriado, ação de acordo com nossos termos e políticas. Limitamos estritamente essas revisões àquelas com necessidades legítimas de Confiança e Segurança. Nossas Artigos de pesquisa Contém mais informações sobre esses processos.
Ainda estamos no processo de implementação do Clio em todos os nossos sistemas executivos, mas até agora ele tem se mostrado uma parte útil do nosso kit de ferramentas de segurança, ajudando-nos a identificar áreas em que precisamos reforçar nossas medidas de proteção.
Identificar e interromper o comportamento abusivo coordenado
O Clio é altamente eficaz na identificação de padrões complexos e coordenados de abuso que podem ser indetectáveis apenas com base em conversas individuais e podem escapar de métodos de detecção mais simples. Por exemplo, no final de setembro, descobrimos um conjunto de contas automatizadas que usavam uma estrutura de prompt semelhante para gerar conteúdo com spam para fins de SEO. Embora nenhuma conversa individual tenha violado nossa Política de usoRemovemos esse grupo de contas, mas o padrão de comportamento entre as contas revelou uma forma de abuso coordenado da plataforma que nossa política proíbe explicitamente. Também usamos o Clio para identificar outras contas que haviam sido identificadas por nossa equipe de Política de uso Atividades proibidas, como a tentativa de revender acesso não autorizado ao Claude.
Monitoramento aprimorado para eventos de alto risco
O Clio também nos ajuda a monitorar novos padrões de uso e riscos potenciais durante períodos de incerteza ou eventos de alto risco. Por exemplo, durante o lançamento de nosso novo Uso do computador Antes do recurso, realizamos testes de segurança abrangentes durante o uso do Clio para detectar recursos emergentes e riscos que poderiam ter passado despercebidos. O Clio forneceu segurança adicional aqui e percepções que nos ajudarão a melhorar continuamente as medidas de segurança à medida que o recurso for implementado e em versões futuras do sistema.
O Clio também nos ajuda a monitorar os riscos desconhecidos no período que antecede os principais eventos públicos, como eleições ou grandes eventos internacionais. Nos meses que antecedem as eleições de 2024 nos EUA, estamosUsando o Clio Identificando grupos de atividades relacionadas a questões políticas, eleitorais e afins nos EUA e evitando qualquer risco ou abuso em potencial, a capacidade do Clio de detectar as "incógnitas desconhecidas" complementa nossas medidas de segurança proativas e nos ajuda a responder rapidamente a novos desafios.
Redução de falsos negativos e falsos positivos
Normalmente, há um acordo entre o Clio e nossos classificadores de confiança e segurança existentes sobre a determinação de risco dos clusters de sessão. No entanto, há discordâncias em relação a determinados clusters. Uma oportunidade de aprimoramento é reduzir os falsos negativos (ou seja, o sistema não sinaliza como conteúdo potencialmente prejudicial as sessões que podem ser realmente prejudiciais). Por exemplo, quando um usuário pede ao Claude para traduzir de um idioma para outro, nosso sistema às vezes não sinaliza o conteúdo ofensivo, e o Clio reconhece essas sessões.
O gráfico de dispersão mostra os grupos de sessões (um ponto representa um grupo) e o grau em que são rotulados como arriscados pelo Trust & Safety Classifier (eixo x) e pelo Clio (eixo y). No canto superior esquerdo estão os clusters que podem ser subestimados como arriscados pelo Trust & Safety Classifier: falsos negativos que contêm conteúdo preocupante, mas não são rotulados como tal. No canto inferior direito estão os grupos que podem ser rotulados em excesso: falsos positivos que podem não conter conteúdo preocupante. A correlação geral entre o classificador Trust & Safety e a classificação do Clio é r = 0,71, indicando uma alta concordância geral entre os dois.
Também usamos o Clio para investigar falsos positivos, outro desafio comum no desenvolvimento de classificadores de confiança e segurança, em que o classificador rotula incorretamente o conteúdo inofensivo como prejudicial. Por exemplo, as sessões em que os candidatos a emprego solicitam conselhos sobre currículos são, às vezes, incorretamente rotuladas como contendo informações pessoais. Problemas de programação relacionados à segurança, à rede ou ao rastreamento da Web são, às vezes, erroneamente rotulados como possíveis invasões. Mesmo os itens acima Dungeons & Dragons As sessões no jogo sobre estatísticas de combate também podem acionar nosso sistema de detecção de perigos. Usamos o Clio para destacar esses falsos positivos, ajudando nosso sistema de segurança a acionar apenas o conteúdo que viola nossas políticas e, ao mesmo tempo, mantendo o mínimo de intervenção no uso legítimo do usuário.
Considerações éticas e medidas de mitigação
O Clio fornece insights valiosos para melhorar a segurança de modelos de linguagem grandes implantados. No entanto, ele também levantou algumas considerações éticas importantes durante seu desenvolvimento, as quais avaliamos e agimos de acordo:
- Falsos positivos: No contexto de confiança e segurança, implementamos proteções importantes contra possíveis falsos positivos. Por exemplo, atualmente não usamos a saída do Clio para a execução automatizada de medidas e validamos extensivamente seu desempenho em diferentes distribuições de dados, incluindo os testes multilíngues detalhados em nosso artigo.
- Risco de abuso de Clio: Sistemas como o Clio podem ser usados de forma inadequada para práticas de vigilância. Além de técnicas rigorosas de controle de acesso e privacidade, reduzimos esse risco implementando uma política rigorosa de minimização e retenção de dados: coletamos e retemos apenas a quantidade mínima de dados necessária para o Clio.
- Privacidade do usuário: Embora o Clio tenha um bom desempenho em nossas avaliações de privacidade, como em qualquer sistema de privacidade do mundo real, certos tipos de informações privadas podem não ser reconhecidos. Para reduzir esse risco potencial, auditamos regularmente as proteções e avaliações de privacidade do Clio para garantir que suas proteções atendam às expectativas. Com o tempo, também planejamos usar o modelo Claude mais recente no Clio para melhorar continuamente o desempenho dessas proteções.
- Confiança do usuário: Apesar das amplas proteções de privacidade que oferecemos, alguns usuários podem achar que sistemas como o Clio são intrusivos ou interferem no uso que fazem do Claude. Optamos por ser transparentes sobre os usos, os recursos, as limitações e as percepções que obtemos com o Clio. Conforme mencionado, o Clio identifica falsos positivos (ou seja, atividades que parecem violar a política de uso, mas na verdade não violam) em nosso classificador de segurança padrão, o que pode nos permitir intervir menos ao interferir nos usos legítimos do modelo.
chegar a um veredicto
O Clio é um passo importante em direção à segurança e à governança da IA com suporte empírico. Ao apoiar as análises de preservação da privacidade do uso da IA no mundo real, podemos entender melhor como esses sistemas são realmente usados. Por fim, podemos usar o Clio para tornar os sistemas de IA mais seguros.
Os provedores de IA têm uma dupla responsabilidade: manter a segurança de seus sistemas e proteger a privacidade do usuário, e o Clio demonstra que essas duas metas não são mutuamente exclusivas - com um projeto e uma implementação cuidadosos, podemos alcançar ambas ao mesmo tempo. Ao discutir publicamente o Clio, pretendemos estabelecer uma norma positiva em relação ao desenvolvimento e ao uso responsáveis dessas ferramentas.
Continuamos a desenvolver e aprimorar o Clio e queremos que outros o ampliem. Para saber mais sobre os detalhes técnicos do Clio, incluindo nossos métodos de verificação e avaliação de privacidade, consulte Artigo de pesquisa completo.
No momento, estamos recrutando para a equipe de Impacto Social. Se tiver interesse no Clio ou em questões de pesquisa relacionadas, aguardamos sua candidatura. Para obter mais informações sobre a vaga, acesseeste link.
notas de rodapé
^1 ^ Em nossas pesquisas de segurança, também executamos o Clio em parte do nosso tráfego de API primário, com resultados restritos a funcionários autorizados. Algumas contas são excluídas da análise, incluindo organizações confiáveis com as quais não temos acordos de retenção. Para obter mais informações sobre nossas políticas, consulte o Apêndice F do documento de pesquisa.