미스트랄, 오픈 소스 미스트랄 스몰 3 출시: 라마 3를 능가하는 성능으로 GPT-4o의 라이벌로 부상

43.9K 00

미스트랄 소형 3: 아파치 2.0 프로토콜, 81% MMLU, 초당 150토큰.

오늘 미스트랄 AI는 지연 시간이 최적화된 240억 개의 파라미터 모델인 미스트랄 스몰 3을 출시하고 Apache 2.0 프로토콜에 따라 이를 공개했습니다.

Mistral 发布开源 Mistral Small 3：性能媲美 GPT-4o，速度超越 Llama 3

미스트랄 스몰 3은 라마 3.3 70B나 퀀 32B와 같은 대형 모델과 비슷하며, GPT4o-mini와 같은 불투명한 독점 모델에 대한 훌륭한 오픈 소스 대안입니다. 미스트랄 스몰 3은 라마 3.3 70B 인스트럭트와 비슷하지만 동일한 하드웨어에서 3배 이상 빠릅니다.

미스트랄 스몰 3는 강력한 언어 능력과 매우 짧은 지연 시간으로 명령어 준수 성능이 필요한 제너레이티브 AI 작업에서 '80%'의 요구 사항을 충족하도록 사전 학습 및 명령어 미세 조정된 모델입니다.

미스트랄 AI 이 새로운 모델은 로컬 배포에 적합한 규모로 성능을 포화 상태로 설계되었습니다. 특히 미스트랄 스몰 3는 경쟁 모델보다 레이어 수가 훨씬 적어 순방향 전파당 시간이 크게 단축되며, 81% 이상의 MMLU 정확도와 초당 150토큰의 지연 시간을 갖춘 미스트랄 스몰은 지금까지 출시된 모델 중 가장 효율적인 모델입니다.

미스트랄 AI는 아파치 2.0 프로토콜에 따라 사전 학습 및 인스트럭션 미세 조정 체크포인트를 출시합니다. 이러한 체크포인트는 가속화를 위한 강력한 기반이 될 수 있습니다. 미스트랄 스몰 3는 강화 학습(RL)이나 합성 데이터를 사용하지 않고 학습하므로 모델 제작 프로세스에서 Deepseek R1(훌륭하고 상호 보완적인 오픈 소스 기술!) 미스트랄 AI는 오픈 소스 커뮤니티가 이를 어떻게 채택하고 커스터마이징하는지 지켜볼 수 있기를 기대하고 있습니다. 누적된 추론 능력을 구축하기 위한 훌륭한 기본 모델이 될 수 있으며, 미스트랄 AI는 오픈 소스 커뮤니티가 이를 어떻게 채택하고 커스터마이징하는지 지켜보고 있습니다.

공연

수동 평가

미스트랄 AI는 외부 타사 공급업체와 함께 1,000개 이상의 독점 코드 및 일반 단서 세트에 대해 나란히 평가를 실시했습니다. 평가자들은 Mistral Small 3가 생성한 익명화된 결과와 다른 모델 중에서 선호하는 모델 응답을 선택하는 임무를 맡았습니다. Mistral AI는 사람의 판단 기준이 공개적으로 이용 가능한 기준과 크게 다를 수 있다는 점을 알고 있지만, 평가의 공정성을 확인하기 위해 각별히 주의를 기울였습니다. Mistral AI는 위의 기준이 유효하다고 확신합니다.

지시어 함수

미스트랄 AI의 인스트럭션 미세 조정 모델은 코드, 수학, 일반 지식, 벤치마크에 따른 인스트럭션에서 3배 더 큰 오픈 소스 가중치 모델과 독점적인 GPT4o-mini 모델에 비해 경쟁 우위를 점합니다.

모든 벤치마크의 성능 정확도는 동일한 내부 평가 프로세스를 통해 얻어지므로 이전에 보고된 성능(Qwen2.5-32B-Instruct, Llama-3.3-70B-Instruct, Gemma-2-27B-IT)과 약간 다를 수 있습니다. 야생 벤치, Arena 하드 및 와일드벤치, 아레나 하드 및 MTB벤치 판사 기반 평가는 gpt-4o-2024-05-13에 기반합니다.

사전 교육 성과

미스트랄 스몰 3는 24B 모델로서 동급 크기 대비 최고의 성능을 제공하며, 라마 3.3 70B와 같이 세 배 이상 큰 모델과도 견줄 수 있습니다.

미스트랄 스몰 3 사용 시기

미스트랄 AI의 고객과 커뮤니티에서는 이러한 규모의 사전 학습된 모델에 대한 몇 가지 독특한 사용 사례가 등장하고 있습니다:

빠른 응답 대화 지원: 미스트랄 스몰 3는 빠르고 정확한 응답이 필요한 시나리오에서 탁월한 성능을 발휘합니다. 여기에는 사용자가 즉각적인 피드백과 실시간에 가까운 상호작용을 기대하는 많은 가상 비서 시나리오가 포함됩니다.
지연 시간이 짧은 함수 호출: 자동화 또는 에이전트 워크플로우의 일부로 사용할 경우 Mistral Small 3는 빠른 함수 실행을 처리할 수 있습니다.
미세 조정을 통한 분야별 전문가 양성: 미스트랄 스몰 3는 특정 분야에 집중하도록 미세 조정하여 매우 정확한 분야별 전문가를 양성할 수 있습니다. 이는 법률 자문, 의료 진단 및 기술 지원과 같이 도메인별 지식이 중요한 분야에서 특히 유용합니다.
로컬 추론: 민감한 정보나 독점 정보를 다루는 취미 활동가나 조직에 특히 유용합니다. 양자화 시, 미스트랄 스몰 3는 단일 RTX 4090 또는 32GB RAM이 장착된 맥북에서 비공개로 실행할 수 있습니다.

미스트랄 AI 고객들은 다음과 같은 다양한 산업 분야에서 미스트랄 스몰 3를 평가하고 있습니다:

금융 서비스 고객이 사기 탐지를 위해 사용
의료 서비스 제공자가 고객 분류를 위해 사용
온디바이스 명령 및 제어를 위한 로봇 공학, 자동차 및 제조 기업
고객 간 수평적 사용 사례에는 가상 고객 서비스, 감정 및 피드백 분석이 포함됩니다.

선호하는 기술 스택에 미스트랄 스몰 3 사용

미스트랄 스몰 3는 이제 라 플레이트포르메에서 다음과 같이 구매할 수 있습니다. mistral-small-latest 어쩌면 mistral-small-2501 텍스트는 미스트랄 AI 모델의 형태로 제공됩니다. 텍스트 생성을 위해 미스트랄 AI 모델을 사용하는 방법에 대한 자세한 내용은 미스트랄 AI의 설명서를 참조하세요.

또한 미스트랄 AI는 허깅 페이스, 올라마, 캐글, 투게더 AI, 파이어웍스 AI와 제휴하여 오늘부터 해당 플랫폼에서 이 모델을 사용할 수 있게 되었습니다:

포옹하는 얼굴(기본 모델)
Ollama
Kaggle
함께 AI
불꽃놀이 AI
곧 NVIDIA NIM, 아마존 세이지메이커, Groq, 데이터브릭스, 스노우플레이크에 출시될 예정입니다!

앞으로의 방향

오픈 소스 커뮤니티에 흥분되는 날입니다! 미스트랄 스몰 3는 최근 출시된 딥시크와 같은 대규모 오픈 소스 추론 모델을 보완하며 추론 기능을 전면에 내세우는 강력한 기본 모델로 사용할 수 있습니다.

무엇보다도 앞으로 몇 주 안에 출시될 추론 기능이 강화된 중소형 미스트랄 모델도 기대해 주세요. 미스트랄 AI의 여정에 동참하고 싶거나(미스트랄 AI에서 채용 중), 지금 바로 미스트랄 스몰 3를 크랙하여 더 나은 제품을 만드는 데 관심이 있으시다면!

미스트랄의 오픈 소스 모델

미스트랄 AI는 MRL 라이선스 모델을 단계적으로 폐지하면서 일반 모델에 아파치 2.0 프로토콜을 사용하겠다는 미스트랄 AI의 약속을 재확인합니다. 미스트랄 스몰 3와 마찬가지로 모델 가중치는 다운로드 및 로컬 배포에 사용할 수 있습니다. 미스트랄 스몰 3와 마찬가지로 모델 가중치는 다운로드 및 로컬 배포가 가능하며, 어떤 환경에서도 자유롭게 수정하여 사용할 수 있습니다. 또한 이 모델은 라 플레이트폼(la Plateforme)의 서버리스 API, 미스트랄 AI의 로컬 및 VPC 배포, 커스터마이징 및 오케스트레이션 플랫폼, 미스트랄 AI의 추론 및 클라우드 파트너를 통해 사용할 수 있습니다. 특수한 기능(향상된 속도와 컨텍스트, 도메인별 지식, 작업별 모델(예: 코드 완성)이 필요한 기업 및 개발자는 커뮤니티에 대한 Mistral AI의 기여를 보완하기 위해 추가적인 상용 모델을 사용할 수 있습니다.