Hoje, a Anthropic anunciou o lançamento de uma versão atualizada doClaude 3.5 Sonetoe novos modelosClaude 3.5 Haiku. Essa atualização não apenas aprimora os recursos de codificação, mas também introduz um recurso inovador - oUso do computadorque atualmente está em fase de testes públicos.
atualizado Claude O Claude 3.5 Sonnet melhora em relação ao seu antecessor em todas as frentes e, em especial, faz progressos significativos na área de codificação, onde já era líder. O Claude 3.5 Haiku tem um desempenho equivalente ao do nosso maior modelo anterior, o Claude 3 Opus, atingindo o mesmo custo e velocidades semelhantes às da geração anterior do Haiku em muitas avaliações.
Atualização importante para o Claude 3.5 Sonnet
O Sonnet Claude 3.5 atualizado se destaca em várias áreas, especialmente na codificação, onde seu desempenho melhora de 33,41 TP3T para 49,01 TP3T no benchmark SWE-bench Verified, superando todos os modelos disponíveis publicamente. Além disso, o desempenho do Sonnet nos domínios de varejo e aeroespacial do TAU-bench também melhorou significativamente, de 62,61 TP3T para 69,21 TP3T e de 36,01 TP3T para 46,01 TP3T, respectivamente.
Os primeiros comentários dos usuários mostram que o Claude 3.5 Sonnet tem um bom desempenho durante o desenvolvimento de software em várias etapas, com empresas como a GitLab descobrindo que ele melhora o raciocínio em 101 TP3T sem aumentar a latência.
Cláudio 3.5 Haiku: eficiente e econômico ao mesmo tempo
O novo Claude 3.5 Haiku é o modelo mais rápido disponível atualmente e apresenta um desempenho particularmente bom em tarefas de codificação, com pontuação de 40,61 TP3T no SWE-bench Verified. O Haiku supera seu antecessor, o maior modelo, o Claude 3 Opus, com o mesmo custo e velocidade.
Recursos inovadores de uso do computador
O Claude 3.5 Sonnet é o primeiro modelo de IA de ponta a oferecer recursos de uso do computador em testes públicos. Os desenvolvedores podem instruir o Claude a usar o computador como um ser humano por meio da API, incluindo visualizar a tela, mover o cursor, clicar em botões e inserir texto. Essa funcionalidade, embora ainda esteja em fase experimental, foi usada pela Asana, Canva, Cognition e outras empresas para executar tarefas complexas.
Embora o Claude atual ainda seja desajeitado ao executar determinadas ações, ele obteve 14,91 TP3T na avaliação da OSWorld, muito mais do que os 7,81 TP3T de outros sistemas de IA. A Anthropic afirma que continuará aprimorando esse recurso e tomará medidas para garantir o uso seguro e evitar possíveis abusos.
olhando para frente
À medida que a tecnologia continua a evoluir, a Anthropic espera aprender mais sobre o potencial e o impacto dessa nova funcionalidade por meio do feedback dos usuários. A empresa incentiva os desenvolvedores a explorar esses novos modelos e espera ver como eles usam essas inovações para aumentar a produtividade.
A Anthropic acredita que esses novos desenvolvimentos abrirão novas possibilidades para os usuários interagirem com o Claude.