최근 대규모 언어 모델링 분야는 학습 후기 단계에서 새로운 패러다임의 강화 학습으로 업계의 주목을 받고 있습니다. OpenAI의 GPT-4o와 같은 O 시리즈 모델과 DeepSeek-R1 의 뛰어난 성능은 최적화 프로세스에서 강화 학습의 핵심적인 역할을 보여줍니다.
텐센트 혼합 메타 모델 팀도 최근 상당한 진전을 이루었습니다. 올해 2월 중순, 팀은 중간 규모의 혼합 위안화 기반에 기반한 혼합 위안화 T1-프리뷰 추론 모델을 텐센트 위안바오 앱에 출시했습니다. 이제 혼합 메타 모델 시리즈의 딥씽킹 모델이 혼합 메타-T1의 공식 버전으로 업그레이드되었습니다.
경험 주소:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
https://huggingface.co/spaces/tencent/Hunyuan-T1
위안바오/위안치: 텐센트의 혼합 요소 지원 AI 어시스턴트 및 개방형 지능형 신체 설계 플랫폼
하이브리드-T1은 3월 초에 출시된 TurboS 신속한 사고 기반.TurboS는 세계 최초의 하이퍼스케일 혼합 전문성 모델(MoE)로, 다음과 같은 기능을 통합합니다. 트랜스포머 및 Mamba 아키텍처를 기반으로 합니다. 대규모 사후 학습을 통해 Mamba-T1의 추론 기능은 크게 확장되고 사람의 선호도에 더 잘 부합합니다.
Hybrid-T1은 심층 추론에서 고유한 장점을 가지고 있습니다. 첫째, TurboS의 긴 텍스트 캡처 기능은 긴 텍스트 추론에서 흔히 발생하는 문맥 손실과 원격 정보 의존성 문제를 효과적으로 해결하는 데 도움이 됩니다. 둘째, Mamba 아키텍처는 긴 시퀀스에 특별히 최적화되어 있으며 효율적인 계산 방법을 통해 계산 리소스 소비를 크게 줄이면서도 긴 텍스트 정보를 캡처할 수 있는 기능을 보장합니다. 동일한 배포 조건에서 디코딩 속도가 2배 향상됩니다.
모델의 후반 훈련 단계에서는 96.7%의 컴퓨팅 리소스를 강화 학습 훈련에 투자하여 순수 추론을 개선하고 인간의 선호도에 맞게 최적화하는 데 중점을 둡니다.
이 목표를 달성하기 위해 연구팀은 수학, 논리적 추론, 과학, 코드 분야를 아우르는 세계적 수준의 과학 및 추론 문제를 수집했습니다. 이러한 데이터 세트는 기본적인 수학적 추론부터 복잡한 과학적 문제 해결까지 광범위한 작업을 포괄합니다. 이는 실제 피드백(실측 데이터)과 결합되어 모델이 다양한 추론 작업에서 우수한 성능을 발휘할 수 있도록 보장합니다.
훈련은 데이터의 난이도를 점진적으로 높이면서 모델 컨텍스트의 길이를 점차 확장하는 커리큘럼 학습(CLE) 방식을 사용하여 진행되어 모델이 추론 능력을 향상시키면서 데이터를 효과적으로 활용하는 방법을 학습하도록 했습니다. 토큰 추론.
훈련 전략 측면에서는 데이터 재생 및 주기적 정책 재설정과 같은 고전적인 강화 학습 전략을 차용하여 모델 훈련의 장기 안정성을 50% 이상 향상시켰습니다. 인간 선호도와의 연계 단계에서는 자체 보상(이전 버전의 T1-Preview를 기반으로 한 모델 출력의 종합 평가 및 점수 매기기) 및 보상 모드를 포함한 통합 보상 시스템 피드백 체계를 사용하여 모델이 스스로 개선하도록 유도합니다. 모델은 응답에 더 풍부한 콘텐츠 세부 사항과 더 효율적인 정보를 표시합니다.
중국어 및 영어 지식, 경쟁 수준의 수학 및 논리적 추론(예: MMLU-pro, CEval, AIME, Zebra Logic 등)에 대한 공개 벤치마크 테스트에서 DeepSeek-R1과 비슷하거나 약간 더 나은 결과를 얻었을 뿐 아니라, Mixed Elements-T1은 내부 인간 평가 데이터 세트에서도 우수한 성능을 보이며 문화 및 창의 교육 추종, 텍스트 요약 및 스마트 바디 역량에서 약간의 우위를 점합니다. .
종합적인 평가 지표 측면에서 하이브리드-T1의 전반적인 성능은 일류 프론티어 추론 모델과 비슷한 수준입니다. 종합적인 역량 평가에서 T1은 다음과 같습니다. MMLU-PRO 목록에서 O1에 이어 두 번째로 높은 점수를 얻었습니다. 87.2 고득점자 비율. 이 시험은 인문학, 사회과학, 과학 및 공학의 14개 영역의 문제를 다루며 광범위한 지식에 대한 모델의 기억력과 이해력을 테스트하는 데 중점을 둡니다. 또한 전문 분야 지식과 복잡한 과학적 추론에 중점을 두고 있습니다. GPQA-다이아몬드(T1은 다음과 같은 결과를 얻었습니다(주로 물리학, 화학, 생물학 분야의 박사급 문제). 69.3 점수입니다.
코딩, 수학, 논리적 추론 등 강력한 추론 능력이 필요한 시나리오가 과학 및 공학 분야에서 테스트되었습니다. 과학 및 공학 분야의 라이브코드벤치 코드 평가에서 T1은 64.9 점수. 한편 T1은 수학에서 두각을 나타냈습니다. 특히 MATH-500 또한 96.2 딥시크-R1에 이은 우수한 결과는 T1이 수학 문제 해결에 있어 종합적인 능력을 갖추고 있음을 입증했습니다. 또한 T1은 여러 정렬 작업, 명령 따르기 작업, 도구 활용 작업에서 강력한 적응력을 보여주었습니다. 예를 들어, T1은 다음 과제에서 우수한 성적을 거두었습니다. 아레나하드 이 미션은 91.9 점수입니다.
모델링 효과

참고: 표의 다른 모델에 대한 평가 지표는 공식 평가 결과에서 가져온 것입니다. 공식 평가 결과에 포함되지 않은 부분의 데이터는 하이브리드 내부 평가 플랫폼에서 가져온 것입니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...