Claude 3.7 Sonnet: primer modelo de razonamiento mixto y lanzamiento de la herramienta de codificación inteligente Claude Code

Anoche mismo, la noticia de que Anthropic iba a lanzar un nuevo modelo se extendió rápidamente por la comunidad de la IA, pero no de la forma que se esperaba. Claude 4.0, sino la versión Claude 3.7 Sonnet.

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

A primera hora de esta mañana, Anthropic ha lanzado justo a tiempo su último modelo estrella, elLanzamiento oficial de Claude 3.7 Sonnet, considerado el más inteligente hasta la fecha y el primer modelo de inferencia híbrido del mercado..

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Claude 3.7 Sonnet proporciona tanto una respuesta rápida casi en tiempo real como una reflexión paso a paso más profunda y detallada basada en las necesidades del usuario.. En Antrópico La descripción "Un modelo, dos formas de pensar..." hace referencia al hecho de que dispone de modos de pensamiento estándar y ampliado. Además, los usuarios de la API pueden tener un control más preciso de la duración del pensamiento del modelo.

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Además del lanzamiento de Claude 3.7 Sonnet.Anthropic también ha lanzado una herramienta paralela de línea de comandos llamada Claude Code, que se centra en la codificación inteligente. La herramienta está disponible actualmente como una vista previa de investigación limitada y está diseñada para permitir a los desarrolladores dejar un gran número de tareas de ingeniería a Claude directamente en el entorno del terminal.

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

En términos de capacidades de codificación, Anthropic ha optimizado aún más la experiencia de codificación en la plataforma Claude.ai. Su integración con GitHub ya está disponible en todos los programas de Claude, lo que permite a los desarrolladores conectar sus repositorios de código directamente a Claude, y al proporcionar una comprensión más profunda de los proyectos personales, de trabajo y de código abierto, Claude se convertirá en un asistente aún más potente para los desarrolladores a la hora de corregir errores, desarrollar funciones y crear documentación en los proyectos de GitHub.

Por ello, y beneficiándose de mejoras significativas en las capacidades de codificación y desarrollo web front-end.Claude 3.7 Sonnet se convirtió en el mejor modelo de codificación de Anthropic hasta la fecha..

Los usuarios ya pueden experimentar el último modelo Sonnet de Claude 3.7 a través de todos los planes de Claude (incluidos Free, Pro, Team y Enterprise), así como plataformas como Anthropic API, Amazon Bedrock y Google Cloud Vertex AI. Además de los usuarios Free, todos los suscriptores de pago pueden experimentar su modelo Extended Thinking.

En los modos de pensamiento estándar y ampliado, elEl precio de Claude 3.7 Sonnet sigue siendo el mismo que el de la generación anterior de Claude 3.5 Sonnet: 3 dólares por millón de fichas de entrada y 15 dólares por millón de fichas de salida (incluidas las fichas think)..

Como comentó un usuario: "¡Cada nuevo lanzamiento de Anthropic es sorprendente y emocionante!".

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Máximo Claude 3.7 Soneto

El razonamiento más avanzado al alcance de su mano

Anthropic subraya que Claude 3.7 Sonnet se desarrolló con una filosofía diferente a la de otros modelos de inferencia del mercado, argumentando que, al igual que el cerebro humano es capaz de reaccionar con rapidez y pensar en profundidad al mismo tiempo, la inferencia de la IA también debería ser capaz de integrar las capacidades de los modelos de vanguardia en lugar de separarlas entre sí. Este enfoque de diseño unificado pretende ofrecer una experiencia de usuario más fluida.

De acuerdo con esta filosofía, el Sonnet Claude 3.7 ofrece una serie de ventajas únicas.

En primer lugar.Claude 3.7 Sonnet es único en el sentido de que puede utilizarse como un LLM de propósito general, pero también tiene potentes capacidades de razonamiento. Dependiendo de sus necesidades, puede elegir que el modelo le dé una respuesta rápida o que piense más profundamente antes de responder.En modo estándar, el Claude 3.7 Sonnet puede verse como una versión mejorada del anterior Claude 3.5 Sonnet. En modo estándar, Claude 3.7 Sonnet puede verse como una versión mejorada de su predecesor, Claude 3.5 Sonnet. En el modo Extended Thinking, reflexiona sobre sí mismo antes de dar una respuesta, lo que mejora significativamente su rendimiento en una amplia gama de tareas, como matemáticas, física, seguimiento de instrucciones, codificación, etc. Los responsables de Anthropic observan que, en ambos modos, el modelo entiende y procesa las palabras clave de forma similar.

En segundo lugar.Al llamar a Claude 3.7 Sonnet mediante la API, el usuario también puede personalizar el "presupuesto de pensamiento" del modelo. En concreto, el usuario puede establecer que Claude piense en términos del número máximo de ficha Número (N). Independientemente del valor N, el modelo limita el número de tokens de salida a 128K. Esto permite al usuario encontrar el equilibrio óptimo entre velocidad (y coste) de respuesta y calidad de la respuesta.

En tercer lugar, al desarrollar su modelo de inferencia, laEn lugar de centrarse excesivamente en optimizar el rendimiento del modelo en preguntas de concursos de matemáticas e informática, como han hecho otras organizaciones, Anthropic se centra en tareas del mundo real que son más relevantes para los escenarios prácticos de aplicación empresarial.

A partir de los resultados de la prueba comparativa Claude 3.7 Sonnet, en la prueba comparativa SWE-bench Verified (que está diseñada para evaluar la capacidad de LLM para resolver problemas de software reales en GitHub), elClaude 3.7 Sonnet alcanzó un rendimiento de nivel SOTA, significativamente por delante de modelos como Claude 3.5 Sonnet, o3-mini (alto) y o1 de OpenAI, y DeepSeek R1..

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

En la prueba comparativa TAU-bench, que es una plataforma de pruebas comparativas utilizada para evaluar la capacidad de LLM para interactuar con la herramienta en escenarios complejos y realistas, Claude 3.7 Sonnet también obtiene buenos resultados, alcanzando un rendimiento de nivel SOTA que supera tanto a Claude 3.5 Sonnet como al modelo o1 de OpenAI.

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Claude 3.7 Sonnet demuestra un rendimiento excelente en varias áreas, como la adherencia a las instrucciones, el razonamiento generalizado, las capacidades multimodales y la codificación inteligente, con mejoras significativas en matemáticas y ciencias, especialmente en el modo Extended Thinking. Sin embargo, en algunas áreas específicas, sigue estando ligeramente por debajo de OpenAI. o3-mini (alto), Grok-3 Beta y otros modelos.

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Es fácil ver que Anthropic se ha centrado en las capacidades de codificación con Claude 3.7 Sonnet, con mejoras relativamente menos destacadas en otras áreas. Está claro que Anthropic pretende posicionar la serie Sonnet como modelos de IA centrados en la codificación (y de hecho está avanzando en esa dirección).

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Cabe destacar que, además de sobresalir en las pruebas de rendimiento tradicionales, el Sonnet Claude 3.7 incluso superó a todos los modelos anteriores en la prueba de juego Pokémon.

Anthropic ya ha realizado amplias pruebas preliminares con sus socios, y los resultados han demostrado ampliamente el liderazgo de la familia de modelos Claude en cuanto a capacidad de codificación.

Por ejemplo, el equipo de Cursor observó que Claude era una vez más la solución elegida para tareas de codificación del mundo real, y mostró mejoras significativas en el manejo de bases de código complejas y el uso de herramientas avanzadas, mientras que el equipo de Cognition descubrió que Claude superaba a los otros modelos en la planificación de cambios de código y el manejo de actualizaciones de pila completa. Vercel destacó la precisión de Claude en flujos de trabajo de agentes complejos, y Replit utilizó con éxito Claude para construir aplicaciones web complejas y cuadros de mando desde cero donde otros modelos tenían dificultades, mientras que la evaluación de Canva mostró que Claude producía sistemáticamente código bien diseñado y listo para producción y reducía significativamente los errores. Reducción significativa de las tasas de error.

Código Claude

Codificación inteligente para facilitar el desarrollo

Desde junio de 2024, la familia de modelos Sonnet ha sido la elección preferida de desarrolladores de todo el mundo. En la actualidad, laAnthropic ha lanzado oficialmente Claude Code, su primera herramienta de codificación inteligente (actualmente en una versión preliminar de investigación limitada), diseñada para mejorar aún más la productividad y las capacidades de los desarrolladores..

Funcionalmente, Claude Code se posiciona como un compañero de colaboración proactivo, capaz de realizar tareas como buscar y leer código, editar archivos, escribir y ejecutar pruebas, confirmar y enviar código a GitHub, e invocar varias herramientas de línea de comandos.

Veamos algunos ejemplos Código Claude escenarios de aplicación, como explicar la estructura del proyecto:

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Pruebas de redacción:

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Construye la aplicación:

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Aunque todavía se encuentra en fase preliminar, Claude Code se ha convertido en una herramienta indispensable para el equipo de Anthropic, especialmente para el desarrollo basado en pruebas, la depuración de problemas complejos y la refactorización de código a gran escala.

En las primeras pruebas, Claude Code ha sido capaz de realizar en una sola pasada tareas que normalmente se llevarían a cabo manualmente en más de 45 minutos, lo que reduce significativamente el tiempo y los costes de desarrollo..

En las próximas semanas, Anthropic tiene previsto seguir optimizando Claude Code basándose en sus propios comentarios de uso, lo que incluye mejorar la fiabilidad de las llamadas a herramientas, aumentar la compatibilidad con comandos de larga ejecución, mejorar la renderización dentro de la aplicación y ampliar la profundidad de la comprensión de Claude de su propia funcionalidad.

El lanzamiento de Claude Code está diseñado para proporcionar una comprensión más profunda de cómo los desarrolladores trabajan con Claude para la codificación, proporcionando así una valiosa referencia para futuras iteraciones de los modelos de Anthropic. Quienes participen en la experiencia previa a Claude Code tendrán acceso anticipado a las potentes herramientas que Anthropic utiliza internamente para construir y optimizar los modelos Claude.

Construcción responsable y perspectivas de futuro

Anthropic probó y evaluó a fondo Claude 3.7 Sonnet y trabajó con expertos externos en seguridad para garantizar que el modelo cumplía plenamente las normas de seguridad y fiabilidad que se había fijado.

Al mismo tiempo, Claude 3.7 Sonnet demuestra un juicio más fino a la hora de distinguir entre solicitudes perjudiciales y benignas. En comparación con el modelo de la generación anterior, ha reducido el número de rechazos innecesarios en 45%.

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Resultados de la evaluación de la fidelidad del CdT.

En la tarjeta modelo para Claude 3.7 Sonnet, Anthropic detalla su marco para evaluar políticas responsables de escalado de IA y se basa en la experiencia práctica de otros laboratorios e investigadores de IA en trabajos relacionados. Además, la tarjeta modelo esboza los nuevos tipos de riesgos que plantea la aplicación de tecnologías de IA, en particular los ataques de inyección rápida, y explica cómo Anthropic evalúa y responde a estas posibles vulnerabilidades de seguridad y cómo entrena a los modelos Claude para defenderse de estos riesgos y mitigarlos. Además, la tarjeta de modelo profundiza en las posibles ventajas para la seguridad que pueden aportar los modelos de inferencia, y examina cuestiones como "cómo entender el proceso de toma de decisiones del modelo" y "si los resultados de inferencia del modelo son realmente dignos de confianza y fiables".

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code

Anthropic cree que el lanzamiento de Claude 3.7 Sonnet y Claude Code marca un paso crítico hacia el verdadero empoderamiento de los humanos con sistemas de IA. Con un razonamiento profundo superior, trabajo autónomo y colaboración eficiente, Anthropic nos acerca a la visión de un futuro en el que la tecnología de IA enriquezca y expanda plenamente el potencial humano.

Anthropic también tiene una emocionante visión de futuro: para 2025, esperan que Claude haya evolucionado hasta convertirse en una inteligencia experta capaz de trabajar de forma autónoma durante horas y horas, y para 2027, Anthropic espera que Claude sea capaz de abordar problemas complejos que un equipo humano tardaría años en resolver.

Claude 3.7 Sonnet:首创混合推理模式并推出智能编码工具 Claude Code
© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...