클로드 3.7 소네트와 클로드 코드: 최첨단 추론과 에이전틱 코딩의 만남

55.3K 00

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合

인류학 오늘 발표된 Claude 3.7 소네트 ^1^는 지금까지 출시된 제품 중 가장 스마트한 모델일 뿐만 아니라 업계 최초의 하이브리드 추론 모델입니다. claude 3.7 소네트는 거의 즉각적인 응답과 심층적인 단계별 사고를 모두 제공하며, 사용자는 사고 과정을 확인할 수 있습니다. 또한 API 사용자는 모델이 생각하는 내용을 세밀하게 제어할 수 있습니다. 시간 길이.

Claude 3.7 소네트는 특히 코딩 및 프론트엔드 웹 개발에서 상당한 개선이 이루어졌습니다. 이 모델에는 현재 제한된 연구용 프리뷰 버전으로 제공되는 에이전트 코딩을 위한 명령줄 도구인 Claude Code가 함께 제공되므로 개발자는 터미널에서 직접 다양한 엔지니어링 작업을 Claude에 위임할 수 있습니다.

이제 모든 Claude 요금제(무료, 프로, 팀, 엔터프라이즈 포함)와 Anthropic API, Amazon Bedrock, Google Cloud Vertex AI에서 Claude 3.7 Sonnet이 지원됩니다. 확장 사고 모드는 무료 버전을 제외한 모든 플랫폼에서 사용할 수 있으며, 확장 사고 모드는 무료 버전의 Claude에서 사용할 수 있습니다. 확장 사고 모드는 무료 버전의 Claude를 제외한 모든 플랫폼에서 사용할 수 있습니다.

클로드 3.7 소네트의 가격은 표준 및 확장 사고 모드 모두에서 이전 모델과 동일하게 백만 입력당으로 유지됩니다. 토큰 100만 출력 토큰당 3달러, 100만 출력 토큰당 15달러 - 사고 토큰 포함.

클로드 3.7 소네트: 최첨단 추론의 실용화

앤트로픽은 다른 추론 모델과는 다른 철학을 가지고 클로드 3.7 소네트를 개발했습니다. 인간이 동일한 두뇌를 사용해 빠르게 반응하고 깊이 생각하는 것처럼, 앤트로픽은 추론이 완전히 분리된 모델이 아니라 최첨단 모델에 본질적으로 통합된 기능이어야 한다고 믿습니다. 이러한 통합된 접근 방식은 또한 사용자에게 더 원활한 경험을 제공합니다.

Claude 3.7 Sonnet은 이 아이디어를 여러 가지 방식으로 구현합니다. 첫째, 클로드 3.7 소네트는 일반 LLM과 추론 모델을 결합하여 사용자가 표준 모드에서 모델이 빠르게 응답할 때와 응답하기 전에 더 오래 생각할 때를 선택할 수 있습니다. 표준 모드에서 클로드 3.7 소네트는 클로드 3.5 소네트의 업그레이드 버전입니다. 확장 사고 모드에서는 모델이 대답하기 전에 스스로를 반성하여 수학, 물리학, 명령 팔로잉, 코딩 및 기타 여러 작업에서 성능이 향상되며, 두 모드에서 모델이 거의 동일한 방식으로 프롬프트되는 것을 발견했습니다.

둘째, API를 통해 클로드 3.7 소네트를 사용할 때, 사용자는 또한 예산사용자는 클로드에게 최대 N개의 토큰을 생각하도록 지시할 수 있으며, N의 값은 최대 128K 토큰의 출력 제한으로 설정할 수 있습니다. 이를 통해 사용자는 필요에 따라 속도(및 비용)와 답변 품질 간의 균형을 유연하게 맞출 수 있습니다.

셋째, 추론 모델을 개발하는 동안 Anthropic은 최적화 방향에서 수학 및 컴퓨터 과학 경시대회 주제에 대한 초점을 약간 줄이고 대신 비즈니스 사용자가 실제로 LLM을 사용하는 방식을 더 잘 반영하기 위해 실제 적용 시나리오에 더 집중했습니다.

초기 테스트에서 Claude는 코딩의 모든 측면에서 리더로 입증되었습니다. Cursor는 복잡한 코드 기반 작업부터 고급 툴링까지 다양한 영역에서 상당한 개선을 보이며 실제 코딩 작업의 리더로 다시 한 번 인정받았고, Cognition은 코드 변경 계획 및 전체 스택 업데이트 처리에서 다른 어떤 모델보다 뛰어난 성능을 보인다고 밝혔습니다. Vercel은 복잡한 에이전트 워크플로우에서 Claude의 뛰어난 정확성을 강조하며, 다음과 같이 설명합니다. Replit 다른 모델에서는 달성하기 어려운 복잡한 웹 애플리케이션과 대시보드를 처음부터 구축하기 위해 Claude를 성공적으로 배포한 Canva의 평가에 따르면 Claude는 더 나은 디자인뿐만 아니라 버그가 훨씬 적은 프로덕션 준비 코드를 지속적으로 생성하는 것으로 나타났습니다.

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
Claude 3.7 Sonnet은 실제 소프트웨어 문제를 해결하는 AI 모델의 능력을 측정하는 벤치마크인 SWE 벤치 검증에서 최고의 성능을 달성했습니다. 스캐폴딩에 대한 자세한 내용은 부록을 참조하세요.

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
클로드 3.7 소네트는 사용자와 도구의 상호 작용이 포함된 복잡한 실제 작업에서 AI 에이전트의 성능을 테스트하는 프레임워크인 TAU-bench에서 최고의 성능을 달성했습니다. 스캐폴딩에 대한 자세한 내용은 부록을 참조하세요.

Claude 3.7 Sonnet 与 Claude Code：前沿推理与 Agentic 编码的结合
클로드 3.7 소네트는 지시 추종, 일반화된 추론, 멀티모달 기능, 에이전트 인코딩에서 탁월하며 확장 사고 모드를 통해 수학과 과학에서 성능이 크게 향상되었습니다. Claude 3.7 Sonnet은 기존 벤치마크 외에도 포켓몬 게임 테스트에서도 이전 모델을 모두 능가하는 성능을 보였습니다.

클로드 코드: 개발자를 위한 새로운 도우미

2024년 6월부터 소네트는 전 세계 개발자들이 선택한 모델입니다. 이제 Anthropic은 제한된 연구용 프리뷰 버전으로 제공됩니다. 클로드 코드 -- 개발자의 역량을 강화하기 위한 Anthropic 최초의 에이전트 코딩 도구입니다.

Claude Code는 코드를 검색 및 읽고, 파일을 편집하고, 테스트를 작성 및 실행하고, 코드를 커밋하여 GitHub에 푸시하고, 명령줄 도구를 사용하여 모든 단계에서 사용자에게 정보를 제공하는 적극적인 공동 작업자입니다.

클로드 코드는 아직 초기 단계이지만 테스트 중심 개발, 복잡한 문제 디버깅, 대규모 리팩토링 등 Anthropic 팀에게 없어서는 안 될 도구가 되었습니다. 초기 테스트에서 클로드 코드는 일반적으로 수동으로 수행하면 45분 이상 걸리는 작업을 단 한 번의 작업으로 수행할 수 있어 개발 시간과 관리 비용을 크게 절감할 수 있었습니다.

앞으로 몇 주 안에 도구 호출 안정성 개선, 장기 실행 명령 지원 추가, 인앱 렌더링 개선, Claude의 기능에 대한 자체 이해도 향상 등 사용자 사용 현황을 바탕으로 지속적인 개선 작업을 진행할 계획입니다.

클루드 코드 출시의 목표는 개발자가 클루드로 코딩하는 방식을 더 잘 이해하여 향후 모델 개선에 반영하는 것입니다. 이 프리뷰에 참여함으로써 사용자는 Anthropic이 Claude를 구축하고 개선하는 데 사용하는 것과 동일한 강력한 도구에 액세스할 수 있으며, 사용자 피드백은 향후 개발에 직접적인 영향을 미치게 됩니다.

코드베이스에서 클로드와 함께 작업하기

또한 Anthropic은 Claude.ai의 코딩 환경을 개선했으며, 이제 모든 Claude 플랜에서 Anthropic의 GitHub 통합을 사용할 수 있어 개발자가 코드 저장소를 Claude에 직접 연결할 수 있습니다.

Claude 3.7 Sonnet은 지금까지 출시된 Anthropic 최고의 코딩 모델입니다. 사용자의 개인, 업무 및 오픈 소스 프로젝트에 대한 깊은 이해를 바탕으로 버그를 수정하고, 새로운 기능을 개발하고, 가장 중요한 GitHub 프로젝트에 대한 문서를 작성하는 데 더욱 강력한 파트너가 됩니다.

책임감 있는 시공

안트로픽은 클로드 3.7 소네트에 대한 광범위한 테스트와 평가를 수행했으며 외부 전문가와 협력하여 보안, 신뢰성 및 안전에 대한 안트로픽의 기준을 충족하는지 확인했습니다. 또한 클로드 3.7 소네트는 이전 버전보다 유해한 요청과 정상 요청을 더 미묘하게 구분하여 불필요한 거부를 45% 감소시켰습니다.

이 버전의 시스템 카드는 여러 범주에 걸친 최신 보안 결과를 다루며, 다른 AI 연구소 및 연구자들이 자신의 작업에 적용할 수 있는 Anthropic의 책임 있는 확장 정책 평가를 자세히 설명합니다. 또한 시스템 카드에서는 컴퓨터 사용으로 인해 발생하는 새로운 위험, 특히 프롬프트 인젝션 공격에 대해 살펴보고 Anthropic이 이러한 취약성을 평가하고 이를 방지하고 완화하기 위해 Claude를 훈련하는 방법을 설명합니다. 또한 시스템 카드에서는 추론 모델이 가져올 수 있는 잠재적인 보안 이점, 즉 모델이 의사 결정을 내리는 방식을 이해하는 능력과 모델 추론이 진정으로 신뢰할 수 있고 신뢰할 수 있는지 여부를 살펴봅니다. 자세한 내용은 시스템 카드 전문을 읽어보세요.

기대

클로드 3.7 소네트와 클로드 코드의 출시는 AI 시스템의 진정한 역량을 강화하는 방향으로 나아가는 중요한 발걸음입니다. 깊이 추론하고, 자율적으로 작업하고, 효과적으로 협업할 수 있는 능력을 갖춘 이 두 시스템은 AI가 인간의 성취를 더욱 풍요롭게 하고 확장할 수 있는 미래로 우리를 이끌고 있습니다.

Anthropic은 사용자들이 이러한 새로운 기능들을 살펴볼 수 있게 되어 기쁘게 생각하며, 사용자들이 어떤 결과물을 만들어낼지 기대가 됩니다.

부록

1 ^ 이름 지정에 대한 수업.

데이터 원본 평가

Grok
쌍둥이자리 2 Pro
o1 및 o3-mini
보충 설명 o1
o1 TAU-벤치
보충용 O3-mini
Deepseek R1

TAU-벤치

비계에 대한 정보

이 점수는 항공사 상담원 정책에 '계획' 도구를 더 잘 활용하도록 안내하는 프롬프트 부록을 추가하여 얻은 것입니다. 이 모드에서는 모델이 문제 해결을 위해 여러 차례 상호 작용하는 동안 사고 과정을 기록하도록 권장하여 추론 능력을 최대한 활용하도록 하는데, 이는 Anthropic의 일반적인 사고 모드에서 벗어난 것입니다. 더 많은 사고 단계 사용으로 인한 클로드의 추가 토큰 소비를 수용하기 위해 Anthropic은 최대 단계 수(모델 완료 기준)를 30단계에서 100단계로 늘렸습니다(대부분의 상호작용은 30단계 이내에 완료되었고 50단계를 초과한 상호작용은 단 한 번뿐이었습니다).

또한 클로드 3.5 소네트(신규)의 TAU 벤치 점수는 그 이후 데이터 세트의 일부 개선으로 인해 최초 출시 당시 Anthropic에서 보고한 점수와 차이가 있었으며, 업데이트된 데이터 세트에서 테스트를 다시 실행하여 클로드 3.7 소네트와의 보다 정확한 비교를 위해 Anthropic에서 재실행했습니다. 클로드 3.7 소네트와 보다 정확하게 비교하기 위해 업데이트된 데이터셋으로 테스트를 다시 실행했습니다.

SWE 벤치 검증

비계에 대한 정보

SWE-bench와 같은 개방형 에이전트 작업을 해결하기 위한 접근 방식에는 여러 가지가 있습니다. 일부 접근 방식은 복잡성의 대부분(예: 조사 또는 편집할 파일과 실행할 테스트 결정)을 보다 전통적인 소프트웨어로 이전하고 핵심 언어 모델만 미리 정의된 위치에서 코드를 생성하거나 보다 제한된 작업 집합에서 선택하도록 남겨두며, 에이전트리스(Xia et al., 2024)는 이러한 접근 방식에 대한 접근 방식입니다. Deepseek R1 Aide 및 기타 모델의 평가에 일반적으로 사용되는 프레임워크로, 신속한 임베딩 문서 검색 메커니즘, 패치 현지화, 회귀 테스트를 위한 베스트 오브 40 거부 샘플링을 사용하여 에이전트의 기능을 향상시킵니다. 다른 스캐폴드(예: Aide)는 재시도, 베스트 오브 N 또는 몬테카를로 트리 검색(MCTS)의 형태로 추가 테스트 시간 계산을 통해 모델을 더욱 보강합니다.

Claude 3.7 소네트 및 Claude 3.5 소네트(신규)의 경우, Anthropic은 최소한의 스캐폴딩으로 더 간단한 접근 방식을 사용합니다. 이 접근 방식에서는 모델이 단일 세션에서 실행할 명령과 편집할 파일을 결정합니다. Anthropic의 주요 "확장 사고 없음" pass@1 결과는 단순히 모델에 여기에 설명된 두 가지 도구, 즉 - bash 유틸리티와 문자열 대체를 통해 작동하는 파일 편집 도구, 그리고 TAU 벤치 결과에서 Anthropic이 언급하는 "계획 도구"입니다. 인프라의 한계로 인해 실제로 Anthropic의 사내 인프라에서 해결할 수 있는 문제는 489/500개에 불과했습니다(즉, 골드 솔루션이 테스트를 통과했습니다). 바닐라 합격 점수인 1점에서는 공식 순위표에 맞추기 위해 풀지 못한 11개의 문제를 실패로 계산했습니다. 투명성을 위해 Anthropic은 자체 인프라에서 작동하지 않은 테스트 사례를 별도로 공개했습니다.

"높은 컴퓨팅" 수치의 경우, Anthropic은 아래와 같이 추가적인 복잡성과 병렬 테스트 시간 계산을 사용합니다:

위의 스캐폴드를 사용하여 여러 번 병렬 시도를 시도하는 인트로픽 샘플
에이전트리스에서 사용하는 거부 샘플링 방법과 유사하게 저장소에서 보이는 회귀 테스트를 손상시키는 패치를 삭제하며, 숨겨진 테스트 정보를 사용하지 않는다는 점에 유의하세요.
그런 다음 연구 기사에 설명된 Anthropic의 GPQA 및 AIME 결과와 유사한 채점 모델을 사용하여 나머지 시도의 순위를 매기고 제출할 최고의 시도를 선정했습니다.

이렇게 하면 Anthropic의 인프라에서 작동하는 n=489개의 검증된 작업의 하위 집합에서 70.3%의 점수가 생성됩니다. 이 스캐폴드가 없는 경우, Claude 3.7 Sonnet은 동일한 하위 집합을 사용하여 SWE 벤치 검증에서 63.7%의 점수를 얻었습니다. Anthropic의 내부 인프라가 호환되지 않는 11개의 테스트 케이스는 다음과 같습니다: