Goedel-Prover-V2 - 칭화대, NVIDIA 등과 함께 사용하는 프린스턴의 오픈 소스 정리 증명 모델입니다.

43.3K 00

Goedel-Prover-V2란 무엇인가요?

Goedel-Prover-V2는 프린스턴 대학교, 칭화 대학교, NVIDIA와 같은 주요 기관의 오픈 소스 정리 증명 모델입니다. 이 모델은 계층적 데이터 합성, 검증자 가이드 자체 수정, 모델 평균화와 같은 혁신적인 기술을 기반으로 자동화된 형식 증명의 성능을 크게 향상시킵니다. Goedel-Prover-V2 모델은 32B와 8B의 두 가지 버전으로 제공되며, 여러 벤치마크에서 매우 우수한 성능을 보입니다. 예를 들어 32B 모델은 MiniF2F 테스트에서 Pass@32에서 90.41 TP3T의 높은 점수를 기록하며 훨씬 더 큰 규모의 DeepSeek-Prover보다 뛰어난 성능을 보였습니다. 예를 들어, MiniF2F 테스트에서 32B 모델은 Pass@32에서 90.4%의 점수를 획득하여 훨씬 더 큰 규모의 DeepSeek-Prover-V2를 능가했습니다. 이 모델은 복잡한 수학 문제에 대한 증명을 자동으로 생성할 수 있으며 린 컴파일러의 피드백을 기반으로 자체 수정하여 증명의 품질을 개선하고 Goedel-Prover-V2의 오픈 소스 특성상 연구자들이 추가 개발 및 개선할 수 있는 기반을 제공합니다.

Goedel-Prover-V2 - 普林斯顿联合清华和英伟达等开源的定理证明模型

Goedel-Prover-V2의 주요 기능

인증서 자동 생성복잡한 수학 문제에 대한 공식적인 증명 프로세스를 생성하여 복잡한 수학 퍼즐을 푸는 데 도움을 줍니다.
자체 수정 기능린 컴파일러의 피드백을 통해 모델은 반복적으로 증명을 수정하여 정확성과 품질을 향상시킬 수 있습니다.
효율적인 교육 및 최적화계층적 데이터 합성 및 모델 평균화 기법을 기반으로 학습 효율성을 개선하고 모델 성능을 향상시켜 여러 벤치마크 테스트에서 우수한 성능을 발휘할 수 있습니다.
오픈 소스 및 확장성오픈 소스 모델과 데이터세트를 제공하여 연구자들의 추가 개발 및 개선이 용이하도록 합니다.

Goedel-Prover-V2의 성능

MiniF2F 벤치마크::
- 32B 모델의 Pass@32 점수는 90.41 TP3T로 671B의 DeepSeek-Prover-V2(82.41 TP3T)를 크게 앞섰습니다.
- 8B 모델은 83.3%의 Pass@32 점수를 달성하여, 매개변수 수는 DeepSeek-Prover-V2의 약 1/100에 불과하지만 DeepSeek-Prover-V2의 성능과 비슷한 수준입니다.
풋남벤치 벤치마크::
- 32B 모델은 64개의 문제를 해결하여 Pass@64 메트릭에서 1위를 차지했습니다.
- Pass@32 메트릭에서 32B 모델은 57개의 문제를 해결하여 47개의 문제를 해결한 DeepSeek-Prover-V2-671B보다 훨씬 뛰어난 성능을 보였습니다.
- 8B 모델도 성능이 매우 우수하며 DeepSeek-Prover-V2-671B와 비슷합니다.
수학올림피아드벤치 벤치마크::
- 32B 모델은 73개의 문제를 해결하여 50개의 문제를 해결한 DeepSeek-Prover-V2-671B보다 훨씬 더 나은 성능을 보입니다.
- 8B 모델도 32B 모델 수준에 근접하는 우수한 성능을 보이며 강력한 정리 증명 능력을 보여줍니다.

Goedel-Prover-V2 공식 웹사이트 주소

프로젝트 웹사이트:: https://blog.goedel-prover.com/
허깅페이스 모델 라이브러리::
- https://huggingface.co/Goedel-LM/Goedel-Prover-V2-8B
- https://huggingface.co/Goedel-LM/Goedel-Prover-V2-32B

Goedel-Prover-V2 사용 방법

프로젝트 리소스에 액세스: 허깅페이스 모델 라이브러리에 액세스하여 허깅페이스에서 모델 파일을 다운로드하고 적절한 버전(예: 8B 또는 32B)을 선택합니다.
하드웨어 요구 사항고성능 GPU 또는 GPU 클러스터를 권장합니다.
소프트웨어 환경대규모 모델 추론을 지원하는 환경을 위해 Python 및 PyTorch와 같은 딥 러닝 프레임워크를 설치합니다.
입력 문제: 증명이 필요한 수학 문제를 모델에서 지원하는 형식(예: 린 언어)으로 변환합니다.
데이터 전처리모델 요구 사항에 따라 문제를 코딩하고 서식을 지정합니다.
모델 로드허깅페이스에서 제공하는 도구로 사전 학습된 모델을 로드합니다.
생성 증명: 문제가 모델에 입력되면 Lean 컴파일러를 사용하여 검증 및 수정된 증명을 자동으로 생성합니다.
인증 인증서: 생성된 증명이 올바른지 Lean 컴파일러로 확인합니다.
반복 보정: 증명이 잘못된 경우 올바른 증명이 생성될 때까지 피드백을 기반으로 모델이 자체 수정합니다.

Goedel-Prover-V2의 핵심 이점

뛰어난 성능예를 들어 32B 모델은 MiniF2F의 Pass@32 테스트에서 90.4%의 정확도를 달성하여 다른 유사한 모델보다 훨씬 앞서는 등 Goedel-Prover-V2는 여러 벤치마크에서 우수한 성능을 발휘합니다.
혁신적인 기술 아키텍처계층적 데이터 합성, 검증자 가이드 자체 수정 및 모델 평균화 기법을 기반으로 모델 학습 효율성과 증명 품질을 효과적으로 개선합니다.
오픈 소스 및 확장성연구자들이 자유롭게 액세스하고, 사용하고, 더 발전시켜 개선할 수 있는 오픈 소스 모델과 데이터 세트를 제공합니다.
광범위한 애플리케이션 시나리오수학 연구, 소프트웨어 및 하드웨어 검증, 교육 보조, 인공 지능 및 기계 학습, 과학 연구 및 엔지니어링 등 다양한 분야에 적용 가능합니다.
효율적인 교육 및 최적화계층적 데이터 합성 및 모델 평균화 기법을 기반으로 효율적인 학습 및 성능 최적화를 통해 모델 견고성을 강화합니다.

Goedel-Prover-V2가 표시되는 사람

수학자 및 수학 연구자수학적 추측을 검증하고, 복잡한 문제의 증명을 생성하며, 수학 이론의 탐구와 연구를 가속화하는 데 사용됩니다.
컴퓨터 과학자 및 소프트웨어 엔지니어소프트웨어 및 하드웨어 개발에서 알고리즘, 프로그램 로직 및 회로 설계의 정확성을 검증하고 시스템의 신뢰성과 안전성을 개선하는 데 사용됩니다.
인공 지능 연구원머신러닝 모델의 수학적 기초와 알고리즘 로직을 검증하여 모델의 신뢰성과 정확성을 보장합니다.
교육자 및 학생수학 교육에 도움을 주기 위해 공식 증명의 예를 제공함으로써 학생들이 수학 개념과 정리를 더 잘 이해하고 숙달할 수 있도록 돕습니다.
연구원 및 엔지니어과학 연구 및 엔지니어링 설계에서 수학적 모델과 이론을 검증하여 설계 솔루션의 실현 가능성과 신뢰성을 보장합니다.