Claude 3.7 Sonnet: primeiro modelo de raciocínio híbrido e lançamento da ferramenta de codificação inteligente Claude Code

Notícias sobre IAPublicado há 7 meses Círculo de compartilhamento de IA

16.9K 00

Na noite passada, a notícia do lançamento de um novo modelo pela Anthropic se espalhou rapidamente pela comunidade de IA, mas não da maneira esperada. Claude 4.0, mas sim a versão Claude 3.7 Sonnet.

Claude 3.7 Sonnet：首创混合推理模式并推出智能编码工具 Claude Code

No início desta manhã, a Anthropic lançou seu mais recente modelo principal bem na hora certa, oO lançamento oficial do Claude 3.7 Sonnet, considerado o mais inteligente até o momento e o primeiro modelo de inferência híbrida do mercado!.

Claude 3.7 O Sonnet oferece uma resposta rápida quase em tempo real e um raciocínio passo a passo mais profundo e detalhado com base nas necessidades do usuário. Como Antrópica A descrição "Um modelo, duas maneiras de pensar..." refere-se ao fato de que ele tem modos de pensamento padrão e estendido. Além disso, os usuários da API podem ter um controle mais detalhado sobre a duração do pensamento do modelo.

Além do lançamento do Claude 3.7 Sonnet.A Anthropic também lançou uma ferramenta de linha de comando paralela chamada Claude Code, que se concentra na codificação inteligente. No momento, a ferramenta está disponível como uma prévia limitada de pesquisa e foi projetada para permitir que os desenvolvedores deixem um grande número de tarefas de engenharia para a Claude diretamente no ambiente do terminal.

Em termos de recursos de codificação, a Anthropic otimizou ainda mais a experiência de codificação na plataforma Claude.ai. Sua integração com o GitHub agora está disponível em todos os programas do Claude, permitindo que os desenvolvedores conectem seus repositórios de código diretamente ao Claude e, ao fornecer uma compreensão mais profunda de projetos pessoais, de trabalho e de código aberto, o Claude se tornará um assistente ainda mais poderoso para os desenvolvedores quando se trata de correção de bugs, desenvolvimento de recursos e criação de documentação em projetos do GitHub.

Por causa disso, e se beneficiando de melhorias significativas nos recursos de codificação e desenvolvimento web front-end.O Claude 3.7 Sonnet tornou-se o melhor modelo de codificação do Anthropic até o momento..

Os usuários agora podem experimentar o mais recente modelo Sonnet do Claude 3.7 em todos os planos do Claude (incluindo Free, Pro, Team e Enterprise), bem como em plataformas como Anthropic API, Amazon Bedrock e Google Cloud Vertex AI. Além dos usuários gratuitos, todos os assinantes pagos podem experimentar o modelo Extended Thinking.

Nos modos de raciocínio padrão e estendido, oO preço do Claude 3.7 Sonnet permanece o mesmo da geração anterior do Claude 3.5 Sonnet: US$ 3 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída (incluindo think tokens)..

Como comentou um usuário, "Cada novo lançamento da Anthropic é surpreendente e empolgante!"

Maximum Claude 3.7 Soneto

Colocando raciocínio de ponta na ponta de seus dedos

A Anthropic enfatiza que o Claude 3.7 Sonnet foi desenvolvido com uma filosofia diferente dos outros modelos de inferência existentes no mercado, argumentando que, assim como o cérebro humano é capaz de reagir rapidamente e pensar profundamente ao mesmo tempo, a inferência de IA também deve ser capaz de integrar os recursos dos modelos de ponta, em vez de separá-los uns dos outros. Essa abordagem de design unificado visa proporcionar uma experiência de usuário mais tranquila.

Alinhado a essa filosofia, o Claude 3.7 Sonnet oferece uma série de vantagens exclusivas.

Em primeiro lugar.Claude 3.7 O Sonnet é único, pois pode ser usado como um LLM de uso geral, mas também tem recursos poderosos de raciocínio. Dependendo das suas necessidades, você pode optar por fazer com que o modelo lhe dê uma resposta rápida ou pense mais profundamente antes de responder.No modo padrão, o Claude 3.7 Sonnet pode ser visto como uma atualização do Claude 3.5 Sonnet anterior. No modo padrão, o Claude 3.7 Sonnet pode ser visto como uma versão atualizada de seu antecessor, o Claude 3.5 Sonnet. No modo Extended Thinking, o modelo reflete sobre si mesmo antes de dar uma resposta, o que melhora significativamente seu desempenho em uma ampla gama de tarefas, incluindo matemática, física, seguimento de instruções, codificação etc. Os funcionários antrópicos observam que, em ambos os modos, o modelo entende e processa as palavras-chave de maneira semelhante.

Em segundo lugar.Ao chamar o Claude 3.7 Sonnet usando a API, o usuário também pode personalizar o "orçamento de pensamento" do modelo. Especificamente, o usuário pode configurar o Claude para pensar em termos do número máximo de token Número (N). Independentemente do valor de N, o modelo limita o número de tokens de saída a 128K. Isso permite que o usuário encontre o equilíbrio ideal entre a velocidade (e o custo) da resposta e a qualidade da resposta.

Em terceiro lugar, ao desenvolver seu modelo de inferência, oEm vez de se concentrar excessivamente na otimização do desempenho do modelo em questões de competições de matemática e ciência da computação, como outras organizações têm feito, o Anthropic se concentra em tarefas do mundo real que são mais relevantes para cenários práticos de aplicativos empresariais.

Com base nos resultados do benchmark Sonnet do Claude 3.7, no benchmark SWE-bench Verified (projetado para avaliar a capacidade do LLM de resolver problemas reais de software no GitHub), oO Claude 3.7 Sonnet alcançou desempenho em nível SOTA, significativamente à frente de modelos como o Claude 3.5 Sonnet, o3-mini (high) e o1 da OpenAI e o DeepSeek R1..

No benchmark TAU-bench, que é uma plataforma de benchmarking usada para avaliar a capacidade do LLM de interagir com a ferramenta em cenários complexos e realistas, o Claude 3.7 Sonnet também teve um bom desempenho, alcançando um desempenho em nível SOTA que supera o desempenho do Claude 3.5 Sonnet e do modelo o1 da OpenAI.

Claude 3.7 O Sonnet demonstra excelente desempenho em várias áreas, incluindo adesão às instruções, raciocínio generalizado, recursos multimodais e codificação inteligente, com aprimoramentos significativos em matemática e ciências, especialmente no modo Extended Thinking. Entretanto, em algumas áreas específicas, ele ainda fica um pouco aquém do desempenho da OpenAI o3-mini (alta), Grok-3 Beta e outros modelos.

É fácil ver que a Anthropic se concentrou nos recursos de codificação com o Claude 3.7 Sonnet, com melhorias relativamente menos proeminentes em outras áreas. Está claro que a Anthropic pretende posicionar a série Sonnet como modelos de IA focados em codificação (e está realmente se movendo nessa direção).

Vale ressaltar que, além de se destacar nos benchmarks tradicionais, o Claude 3.7 Sonnet superou até mesmo todos os modelos anteriores no teste de jogo do Pokémon.

A Anthropic já realizou testes iniciais extensivos com seus parceiros, e os resultados demonstraram amplamente a liderança da família de modelos Claude em termos de capacidade de codificação.

Por exemplo, a equipe da Cursor observou que o Claude foi mais uma vez a solução preferida para tarefas de codificação do mundo real e mostrou melhorias significativas no manuseio de bases de código complexas e no uso de ferramentas avançadas, enquanto a equipe da Cognition descobriu que o Claude superou os outros modelos no planejamento de alterações de código e no manuseio de atualizações de pilha completa. A Vercel destacou a precisão do Claude em fluxos de trabalho de agentes complexos, e a Replit usou o Claude com sucesso para criar aplicativos da Web e painéis complexos do zero, onde outros modelos tiveram dificuldades, enquanto a avaliação da Canva mostrou que o Claude produziu consistentemente códigos bem projetados e prontos para produção e reduziu significativamente os bugs. Reduziu significativamente as taxas de erro.

Código Claude

Codificação inteligente para um desenvolvimento mais fácil

Desde junho de 2024, a família de modelos Sonnet tem sido a escolha ideal para desenvolvedores em todo o mundo. Atualmente, osA Anthropic lançou oficialmente o Claude Code, sua primeira ferramenta de codificação inteligente (atualmente em uma prévia de pesquisa limitada), projetada para aprimorar ainda mais a produtividade e os recursos do desenvolvedor.

Funcionalmente, o Claude Code está posicionado como um parceiro de colaboração proativo, capaz de executar tarefas como pesquisar e ler código, editar arquivos, escrever e executar testes, fazer commit e push de código para o GitHub e invocar várias ferramentas de linha de comando.

Vejamos alguns exemplos Código Claude cenários de aplicativos, como a explicação da estrutura do projeto:

Testes de redação:

Crie o aplicativo:

Embora ainda esteja em fase inicial, o Claude Code tornou-se uma ferramenta indispensável para a equipe da Anthropic, especialmente para o desenvolvimento orientado por testes, depuração de problemas complexos e refatoração de código em grande escala.

Nos primeiros testes, o Claude Code conseguiu realizar tarefas que normalmente levariam mais de 45 minutos para serem concluídas manualmente em uma única passagem, reduzindo significativamente o tempo e os custos de desenvolvimento..

Nas próximas semanas, a Anthropic planeja continuar a otimizar o Claude Code com base em seu próprio feedback de uso, incluindo a melhoria da confiabilidade das chamadas de ferramentas, o aprimoramento do suporte a comandos de longa duração, a melhoria da renderização no aplicativo e a expansão da profundidade do entendimento do Claude sobre sua própria funcionalidade.

O lançamento do Claude Code foi projetado para fornecer uma compreensão mais profunda de como os desenvolvedores trabalham com o Claude para codificação, fornecendo assim uma referência valiosa para futuras iterações dos modelos da Anthropic. Aqueles que participarem da experiência de visualização do Claude Code terão acesso antecipado às poderosas ferramentas que a Anthropic usa internamente para criar e otimizar os modelos do Claude.

Construção responsável e perspectivas futuras

A Anthropic testou e avaliou minuciosamente o Claude 3.7 Sonnet e trabalhou com especialistas externos em segurança para garantir que o modelo atendesse plenamente aos padrões de segurança e confiabilidade que definiu para si mesmo.

Ao mesmo tempo, o Claude 3.7 Sonnet demonstra um julgamento mais apurado na distinção entre solicitações prejudiciais e benignas. Em comparação com o modelo da geração anterior, ele reduziu o número de rejeições desnecessárias em 45%.

Resultados da avaliação de fidelidade do CoT.

No Model Card for Claude 3.7 Sonnet, a Anthropic detalha sua estrutura para avaliar políticas responsáveis de escalonamento de IA e baseia-se na experiência prática de outros laboratórios e pesquisadores de IA em trabalhos relacionados. Além disso, o cartão modelo descreve os novos tipos de riscos apresentados pela aplicação de tecnologias de IA, especialmente ataques de injeção rápida, e explica como a Anthropic avalia e responde a essas possíveis vulnerabilidades de segurança, bem como treina o modelo Claude para se defender e atenuar esses riscos. Além disso, o Model Card investiga os possíveis benefícios de segurança que os modelos de inferência podem trazer e examina questões como "como entender o processo de tomada de decisão do modelo" e "se os resultados da inferência do modelo são realmente confiáveis e fidedignos".

A Anthropic acredita que o lançamento do Claude 3.7 Sonnet e do Claude Code marca uma etapa fundamental para capacitar verdadeiramente os seres humanos com sistemas de IA. Com raciocínio profundo superior, trabalho autônomo e colaboração eficiente, a Anthropic está nos aproximando da visão de um futuro em que a tecnologia de IA enriquece e expande totalmente o potencial humano.

A Anthropic também tem uma visão empolgante para o futuro: até 2025, eles esperam que Claude tenha evoluído para uma inteligência especializada capaz de trabalhar de forma autônoma por horas a fio e, até 2027, a Anthropic espera que Claude seja capaz de lidar com problemas complexos que levariam anos para serem resolvidos por uma equipe humana.

Notícias sobre IA

Direitos autorais do artigo Círculo de compartilhamento de IA A todos, favor não reproduzir sem permissão.

Estrelas pornôs vendem semelhanças para a IA: o setor adulto usa duplas virtuais para libertar meninas

Notícias sobre IA

8 meses atrás

017.7K

DeepSeek 发布了 v3 模型的首个开源版本，现阶段拥有（国产）最强代码能力

A DeepSeek lançou a primeira versão de código aberto de seu modelo v3, agora com o recurso de código mais forte (na China)

Notícias sobre IA

9 meses atrás

030.7K

Análise da ferramenta AI PPT: comparação detalhada e guia de seleção de cinco plataformas principais

Notícias sobre IA

5 meses atrás

036.4K

Red_Panda（小熊猫）被认领，原来是recraft的Recraft V3模型，每日50张免费！

O Red_Panda (Little Panda) foi reivindicado e acabou sendo o modelo Recraft V3 da Recraft, 50 diárias grátis!

Notícias sobre IA

11 meses atrás

011.5K

Sem comentários

Você precisa estar conectado para participar dos comentários!

Faça login agora

Nenhum comentário...

Claude 3.7 Sonnet: primeiro modelo de raciocínio híbrido e lançamento da ferramenta de codificação inteligente Claude Code

Maximum Claude 3.7 Soneto

Colocando raciocínio de ponta na ponta de seus dedos

Código Claude

Codificação inteligente para um desenvolvimento mais fácil

Construção responsável e perspectivas futuras

Monica (Mônica) abre um nome de domínio doméstico e o compara com o modelo pago no exterior; a versão doméstica é de uso gratuito!

Claude 3.7 Sonnet e Claude Code: o raciocínio de ponta encontra a codificação Agentic

Artigos relacionados

Estrelas pornôs vendem semelhanças para a IA: o setor adulto usa duplas virtuais para libertar meninas

A DeepSeek lançou a primeira versão de código aberto de seu modelo v3, agora com o recurso de código mais forte (na China)

Análise da ferramenta AI PPT: comparação detalhada e guia de seleção de cinco plataformas principais

O Red_Panda (Little Panda) foi reivindicado e acabou sendo o modelo Recraft V3 da Recraft, 50 diárias grátis!

Sem comentários

Últimas coleções

Artigos mais recentes

Claude 3.7 Sonnet: primeiro modelo de raciocínio híbrido e lançamento da ferramenta de codificação inteligente Claude Code

Maximum Claude 3.7 Soneto

Colocando raciocínio de ponta na ponta de seus dedos

Código Claude

Codificação inteligente para um desenvolvimento mais fácil

Construção responsável e perspectivas futuras

Monica (Mônica) abre um nome de domínio doméstico e o compara com o modelo pago no exterior; a versão doméstica é de uso gratuito!

Claude 3.7 Sonnet e Claude Code: o raciocínio de ponta encontra a codificação Agentic

Artigos relacionados

Estrelas pornôs vendem semelhanças para a IA: o setor adulto usa duplas virtuais para libertar meninas

A DeepSeek lançou a primeira versão de código aberto de seu modelo v3, agora com o recurso de código mais forte (na China)

Análise da ferramenta AI PPT: comparação detalhada e guia de seleção de cinco plataformas principais

O Red_Panda (Little Panda) foi reivindicado e acabou sendo o modelo Recraft V3 da Recraft, 50 diárias grátis!

Sem comentários

Ferramentas de IA selecionadas

Últimas coleções

Artigos mais recentes