ChatGPT는 여전히 많은 AI 차트에서 1위를 차지하고 있지만, 그 바로 뒤에는 경쟁자가 있습니다.

47.3K 00

현재 사용 가능한 가장 강력한 AI 모델을 어떻게 확인할 수 있을까요? 순위를 확인하여 알아보세요.

최근 몇 달 동안 커뮤니티에서 집계한 AI 모델 순위표가 온라인에서 인기를 끌면서 AI 분야의 주요 기술 대기업들의 경쟁을 실시간으로 확인할 수 있는 창구가 되었습니다.

다양한 순위표에는 특정 작업을 가장 잘 수행하는 AI 모델이 기록되어 있으며, AI 모델은 본질적으로 특정 목적을 달성하도록 설계된 코드로 감싼 수학 공식의 집합입니다.

구글의 제미니(이전의 바드)와 파리의 스타트업처럼 미스트랄 AI 미스트랄-미디엄과 같은 새로운 참가자들이 AI 커뮤니티에 활기를 불어넣으며 순위표의 상위권을 차지하기 위해 경쟁하고 있습니다.

그러나 OpenAI의 GPT-4가 여전히 우위를 점하고 있습니다.

사람들은 최첨단 기술에 관심이 많습니다."라고 스탠포드 대학교의 컴퓨터 공학 박사 과정 학생이자 챗봇 아레나 리더보드의 공동 제작자인 Ying Sheng은 말합니다. 사람들은 실제로 차트가 계속 바뀌는 것을 좋아한다고 생각합니다. 이는 게임이 여전히 진행 중이며 여전히 개선의 여지가 있다는 것을 보여줍니다."

이 순위는 AI 모델의 기능 테스트에 기반한 것으로, AI가 일반적으로 어떤 기능을 수행할 수 있는지, 음성 인식과 같은 특정 애플리케이션에서 어떤 모델이 가장 적합한지 파악하기 위해 고안되었습니다. 벤치마킹 테스트라고도 하는 이 테스트는 AI의 발성이 사람의 목소리에 얼마나 가까운지 또는 AI 챗봇이 얼마나 사람처럼 반응하는지 등의 지표를 통해 AI 성능을 측정합니다.

AI가 계속 발전함에 따라 이러한 테스트의 지속적인 개선도 마찬가지로 중요합니다.

스탠포드 대학교 인간 차원 센터의 인공 지능 연구소 연구 책임자인 바네사 팔리는 "이 벤치마크는 완벽하지는 않지만 현재로서는 시스템을 평가할 수 있는 유일한 방법입니다."라고 말했습니다.

스탠포드 인공 지능 지수에 대한 연구소의 연례 보고서는 다양한 지표에 따라 시간이 지남에 따라 AI 모델의 기술적 성능을 추적합니다. Parli에 따르면 작년 보고서에서는 50개의 벤치마크를 조사했지만 20개만 포함했습니다. 올해 보고서에서는 보다 새롭고 포괄적인 벤치마크에 초점을 맞추기 위해 일부 오래된 벤치마크를 제거할 예정입니다.

리더보드를 통해 개발 중인 모델의 수도 엿볼 수 있는데, 오픈소스 머신러닝 플랫폼인 Hugging Face가 구축한 오픈 LLM(대규모 언어 모델) 리더보드에서는 2월 초 현재 4,200개 이상의 모델을 평가하고 순위를 매겼으며, 모두 커뮤니티 회원들이 제출한 모델입니다.

모델들은 독해력, 수학 문제 해결력 등 다양한 범주에서 자신의 능력을 평가하기 위해 고안된 7가지 주요 벤치마크 테스트에 참여합니다. 평가 과정에는 모델의 상식적인 추론을 테스트하고 잘못된 정보를 유포하는 경향을 측정하는 초등학교 수학 및 과학 문제가 포함됩니다. 일부 테스트는 객관식 형식을 제공하는 반면, 다른 테스트는 단서를 바탕으로 모델이 직접 답을 생성하도록 요구합니다.

LMSYS 챗봇 아레나 순위표의 맨 위에는 OpenAI의 ChatGPT-4가 있으며, 그 뒤를 구글의 Geminivia가 바짝 뒤쫓고 있습니다. LMSYS

방문자는 특정 벤치마크 테스트에서 각 모델의 구체적인 성능과 평균 총점을 확인할 수 있습니다. 지금까지 어떤 벤치마크에서도 100점 만점을 받은 모델은 없었습니다. 샌프란시스코의 스타트업 Abacus.AI가 새로 개발한 AI 모델인 Smaug-72B가 평균 80점을 돌파한 최초의 모델이 되었습니다.

허깅 페이스의 공동 창립자이자 최고 과학 책임자인 토마스 울프는 많은 대규모 언어 모델이 이미 이러한 테스트에서 인간의 벤치마크를 넘어섰으며, 연구자들은 이를 '포화'라고 부른다고 말합니다. 이는 일반적으로 학생이 중학교에서 고등학교로 진학하여 이전 학습 단계를 점차 뛰어넘는 경우처럼 모델의 능력이 특정 시험 이상으로 증가하거나 모델이 특정 시험 문제에 답하는 방법을 암기했을 때 발생하는데, 이를 '과적합'이라고 합니다.