Claude 3.7 Sonnet e Claude Code: o raciocínio de ponta encontra a codificação Agentic

Notícias sobre IAPublicado há 7 meses Círculo de compartilhamento de IA

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合

Antrópica A empresa divulgou hoje Claude 3.7 Sonnet ^1^ , que não é apenas o modelo mais inteligente da Anthropic até o momento, mas também marca o primeiro modelo de raciocínio híbrido no mercado. O claude 3.7 Sonnet fornece respostas quase instantâneas e um raciocínio mais profundo, passo a passo, e o processo de raciocínio está disponível para o usuário. Período de tempo.

O Claude 3.7 Sonnet mostra melhorias particularmente significativas na codificação e no desenvolvimento web front-end. O modelo é acompanhado pelo Claude Code, uma ferramenta de linha de comando para codificação agêntica, atualmente disponível em uma prévia limitada de pesquisa, que permite que os desenvolvedores deleguem uma ampla gama de tarefas de engenharia ao Claude diretamente do terminal.

Claude 3.7 O Sonnet agora é compatível com todos os planos do Claude (incluindo Free, Pro, Team e Enterprise), bem como com a API Anthropic, Amazon Bedrock e Google Cloud Vertex AI. O Modo de raciocínio estendido está disponível em todas as plataformas, exceto na versão gratuita do Claude. O Modo de raciocínio estendido está disponível em todas as plataformas, exceto na versão gratuita do Claude.

O preço do Claude 3.7 Sonnet permanece consistente com o de seu antecessor nos modos de raciocínio padrão e estendido: por milhão de entradas tokens 3 por milhão de tokens de saída e US$ 15 por milhão de tokens de saída - incluindo tokens de pensamento.

Claude 3.7 Soneto: o raciocínio de ponta se torna prático

A Anthropic desenvolveu o Claude 3.7 Sonnet com uma filosofia diferente da de outros modelos de raciocínio. Assim como os seres humanos usam o mesmo cérebro para reagir rapidamente e pensar profundamente, a Anthropic acredita que o raciocínio deve ser um recurso inerentemente integrado de um modelo de ponta, em vez de um modelo completamente separado. Essa abordagem unificada também cria uma experiência mais suave para os usuários.

O Claude 3.7 Sonnet incorpora essa ideia de várias maneiras. Em primeiro lugar, o Claude 3.7 Sonnet combina um LLM normal com um modelo de inferência: o usuário pode escolher quando o modelo responde rapidamente no modo padrão e quando ele pensa mais antes de responder. No modo padrão, o Claude 3.7 Sonnet é uma versão atualizada do Claude 3.5 Sonnet. No modo Extended Thinking, o modelo reflete sobre si mesmo antes de responder, melhorando, assim, seu desempenho em matemática, física, acompanhamento de comandos, codificação e muitas outras tarefas.

Em segundo lugar, ao usar o Claude 3.7 Sonnet por meio da API, o usuário também tem controle sobre o pensamento sobre o orçamentoO usuário pode dizer ao Claude para pensar em até N tokens, e o valor de N pode ser definido para um limite de saída de até 128K tokens. Isso dá ao usuário a flexibilidade de negociar a velocidade (e o custo) em relação à qualidade da resposta, conforme necessário.

Em terceiro lugar, durante o desenvolvimento do modelo de inferência, o Anthropic reduziu ligeiramente seu foco em tópicos de competições de matemática e ciência da computação na direção da otimização e, em vez disso, concentrou-se mais em cenários de aplicativos do mundo real para refletir melhor como os usuários corporativos realmente usam o LLM.

Os primeiros testes comprovaram que o Claude é líder em todos os aspectos da codificação: a Cursor observa que o Claude é novamente líder em tarefas de codificação do mundo real, com melhorias significativas em áreas que vão desde o trabalho com bases de código complexas até ferramentas avançadas, e a Cognition conclui que o Claude supera qualquer outro modelo quando se trata de planejar alterações de código e lidar com atualizações de pilha completa. A Vercel destaca a precisão superior do Claude em fluxos de trabalho de agentes complexos, enquanto o Replit Tendo implantado com sucesso o Claude para criar aplicativos e painéis complexos da Web a partir do zero, algo que é difícil de conseguir em outros modelos, a avaliação do Canva mostrou que o Claude produz consistentemente código pronto para produção que não é apenas melhor projetado, mas também reduz drasticamente os bugs.

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
Claude 3.7 O Sonnet obteve o melhor desempenho no SWE-bench Verified, um benchmark que mede a capacidade dos modelos de IA de resolver problemas reais de software. Para obter mais informações sobre scaffolding, consulte o Apêndice.

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
Claude 3.7 O Sonnet obteve o melhor desempenho no TAU-bench, uma estrutura para testar o desempenho de agentes de IA em tarefas complexas do mundo real que envolvem interações entre usuários e ferramentas. Para obter mais informações sobre scaffolding, consulte o Apêndice.

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
O Claude 3.7 Sonnet é excelente em seguir instruções, raciocínio generalizado, recursos multimodais e codificação agêntica, e o modo de pensamento estendido melhora significativamente seu desempenho em matemática e ciências. Além dos benchmarks tradicionais, o Claude 3.7 Sonnet supera até mesmo todos os modelos anteriores nos testes do jogo Pokémon.

Claude Code: um novo assistente para desenvolvedores

Desde junho de 2024, o Sonnet tem sido o modelo preferido dos desenvolvedores em todo o mundo. Agora, o Anthropic está disponível em uma versão prévia de pesquisa limitada Código Claude -- A primeira ferramenta de codificação agêntica da Anthropic para capacitar ainda mais os desenvolvedores.

O Claude Code é um colaborador ativo que pesquisa e lê códigos, edita arquivos, grava e executa testes, confirma códigos e os envia para o GitHub e usa ferramentas de linha de comando, mantendo os usuários informados em cada etapa.

O Claude Code ainda está em seus estágios iniciais, mas se tornou uma ferramenta indispensável para a equipe da Anthropic, especialmente para o desenvolvimento orientado por testes, depuração de problemas complexos e refatoração em larga escala. Nos primeiros testes, o Claude Code foi capaz de executar tarefas em uma única operação que normalmente levaria mais de 45 minutos para ser realizada manualmente, reduzindo significativamente o tempo de desenvolvimento e os custos administrativos.

Nas próximas semanas, o Anthropic planeja fazer melhorias contínuas com base no uso do usuário, incluindo o aumento da confiabilidade da chamada da ferramenta, a adição de suporte para comandos de longa duração, o aprimoramento da renderização no aplicativo e o aumento da compreensão do próprio Claude sobre seus recursos.

O objetivo da Anthropic ao lançar o Claude Code é entender melhor como os desenvolvedores codificam com o Claude para informar futuros aprimoramentos do modelo. Ao participar dessa visualização, os usuários terão acesso às mesmas ferramentas poderosas que a Anthropic usa para criar e aprimorar o Claude, e o feedback dos usuários influenciará diretamente seu desenvolvimento futuro.

Trabalhando com Claude na base de código

A Anthropic também aprimorou a experiência de codificação no Claude.ai, e a integração do GitHub da Anthropic agora está disponível em todos os planos do Claude, permitindo que os desenvolvedores conectem seus repositórios de código diretamente ao Claude.

Claude 3.7 O Sonnet é o melhor modelo de codificação do Anthropic até o momento. Com uma compreensão mais profunda dos projetos pessoais, de trabalho e de código aberto dos usuários, ele se torna um parceiro ainda mais forte para corrigir bugs, desenvolver novos recursos e criar documentação para os projetos mais importantes do GitHub.

Construção responsável

A Anthropic realizou testes e avaliações abrangentes do Claude 3.7 Sonnet e trabalhou com especialistas externos para garantir que ele atendesse aos padrões de segurança, confiabilidade e proteção da Anthropic. O Claude 3.7 Sonnet também é mais sutil na distinção entre solicitações prejudiciais e benignas do que seu antecessor, com 45% menos rejeições desnecessárias.

Esta versão do cartão do sistema abrange as mais recentes descobertas de segurança em várias categorias, detalhando a avaliação da Política de Extensão Responsável da Anthropic, que outros laboratórios e pesquisadores de IA podem aplicar em seu próprio trabalho. O cartão do sistema também explora os riscos emergentes apresentados pelo uso do computador, especificamente ataques de injeção imediata, e explica como a Anthropic avalia essas vulnerabilidades e treina a Claude para resistir e atenuá-las. Além disso, o cartão do sistema examina os possíveis benefícios de segurança que os modelos de inferência podem trazer: a capacidade de entender como os modelos tomam decisões e se a inferência do modelo é realmente confiável e fidedigna. Leia o cartão do sistema completo para obter mais informações.

olhando para frente

O lançamento do Claude 3.7 Sonnet e do Claude Code marca uma etapa importante na direção de sistemas de IA realmente capacitados. Com sua capacidade de raciocinar profundamente, trabalhar de forma autônoma e colaborar com eficiência, eles estão nos levando a um futuro em que a IA pode enriquecer e ampliar as conquistas humanas.

O Anthropic está animado para que os usuários explorem esses novos recursos e espera ver o que os usuários criarão. O Anthropic sempre recebe [feedback] (mailto: feedback@anthropic.com) dos usuários para que o Anthropic possa continuar a melhorar e desenvolver os modelos do Anthropic.

apêndice

^1 ^ Lições sobre nomeação.

Avaliação das fontes de dados

Grok
Gêmeos 2 Pro
o1 e o3-mini
Suplementar o1
o1 TAU-bench
Suplemento o3-mini
Deepseek R1

Banco TAU

Informações sobre andaimes

Essas pontuações foram obtidas com a adição de um apêndice de prompt à Política do Agente da Companhia Aérea que instruía Claude a usar melhor a ferramenta "planejamento". Nesse modo, o Anthropic incentiva o modelo a anotar seu processo de pensamento durante várias rodadas de interação na solução de problemas para utilizar plenamente suas habilidades de raciocínio, o que é um desvio do modo de pensamento habitual do Anthropic. Para acomodar o consumo adicional de tokens do Claude devido ao uso de mais etapas de raciocínio, o Anthropic aumentou o número máximo de etapas (em termos de conclusões do modelo) de 30 para 100 (a maioria das interações foi concluída em 30 etapas, e apenas uma interação ultrapassou 50 etapas).

Além disso, as pontuações do TAU-bench para o Claude 3.5 Sonnet (novo) diferem das relatadas pelo Anthropic no momento do lançamento original devido a algumas pequenas melhorias no conjunto de dados desde então. para comparar com mais precisão com o Claude 3.7 Sonnet.

SWE-bench Verificado

Informações sobre andaimes

Há muitas abordagens para resolver tarefas agênticas abertas, como o SWE-bench. Algumas abordagens transferem grande parte da complexidade (por exemplo, decidir quais arquivos investigar ou editar e quais testes executar) para um software mais tradicional, deixando apenas o modelo de linguagem central para gerar código em locais predefinidos ou para escolher entre um conjunto mais limitado de operações. Deepseek R1 Uma estrutura popular comumente usada na avaliação do Aide e de outros modelos, ela aprimora os recursos do agente usando mecanismos de recuperação de documentos prontos e incorporados, localização de patches e amostragem de rejeição da melhor de 40 para testes de regressão. Outros scaffolds (por exemplo, Aide) aumentam ainda mais o modelo com computação adicional de tempo de teste na forma de novas tentativas, melhor de N ou Monte Carlo Tree Search (MCTS).

Para o Claude 3.7 Sonnet e o Claude 3.5 Sonnet (novo), o Anthropic usa uma abordagem mais simples com o mínimo de andaimes. Nessa abordagem, o modelo decide quais comandos executar e quais arquivos editar em uma única sessão. O principal resultado do pass@1 "no extended thinking" do Anthropic é simplesmente equipar o modelo com duas das ferramentas descritas aqui - o utilitário bash e uma ferramenta de edição de arquivos que opera por meio da substituição de strings. - utilitário bash e uma ferramenta de edição de arquivos que opera por meio da substituição de strings - bem como a "ferramenta de planejamento" mencionada pelo Anthropic nos resultados do TAU-bench. Devido a limitações de infraestrutura, apenas 489/500 problemas puderam ser resolvidos na infraestrutura interna da Anthropic (ou seja, a solução gold passou no teste). Para a pontuação vanilla pass@1, a Anthropic contabilizou 11 problemas não solucionáveis como falhas para se alinhar à tabela de classificação oficial. Por uma questão de transparência, a Anthropic publicou separadamente os casos de teste que não funcionaram na infraestrutura da Anthropic.

Para os números de "alta computação", o Anthropic usa complexidade adicional e cálculos paralelos de tempo de teste, conforme mostrado abaixo:

Amostras antrópicas de várias tentativas paralelas usando a estrutura acima
O Anthropic descarta os patches que corrompem os testes de regressão visíveis no repositório, semelhante ao método de amostragem de rejeição usado pelo Agentless; observe que o Anthropic não usa informações de teste ocultas.
Em seguida, o Anthropic classificou as tentativas restantes usando um modelo de pontuação semelhante aos resultados do GPQA e do AIME do Anthropic descritos no artigo de pesquisa e selecionou as melhores tentativas para envio.

Isso produz uma pontuação de 70,3% no subconjunto de n=489 tarefas verificadas que funcionam na infraestrutura do Anthropic. Sem esse andaime, o Claude 3.7 Sonnet obteve uma pontuação de 63,7% no SWE-bench Verified usando o mesmo subconjunto. Os 11 casos de teste com os quais a infraestrutura interna do Anthropic não é compatível estão listados abaixo: