최근 OpenAI는 다음과 같은 프로젝트를 발표했습니다. BrowseComp 는 AI 에이전트의 인터넷 탐색 능력을 평가하기 위해 고안된 새로운 벤치마크 테스트입니다. 이 벤치마크는 과학적 발견에서 대중 문화에 이르기까지 광범위한 영역을 아우르는 1,266개의 질문으로 구성되어 있으며, 에이전트가 찾기 어렵고 정보와 얽혀 있는 답을 찾기 위해 개방형 웹 환경을 끈질기게 탐색해야 합니다.
그림 1: 다양한 브라우징 노력에 따른 이전 버전의 OpenAI Deep Research의 BrowseComp 성능. 정확도는 테스트 시점의 계산량이 증가함에 따라 원활하게 향상됩니다.
기존 벤치마크는 "포화 상태"이며 BrowseComp는 이러한 목적을 위해 개발되었습니다.
현재 SimpleQA와 같이 널리 사용되는 일부 벤치마크는 고립된 단순한 사실을 검색하는 모델의 능력에 초점을 맞추고 있습니다. 탐색 도구가 탑재된 GPT-4o와 같은 고급 모델의 경우 이러한 작업은 너무 단순하여 성능 포화에 가까워집니다. 즉, 심층적인 네트워크 탐색을 통해 찾아야 하는 복잡한 정보를 처리할 때 SimpleQA와 같은 벤치마크는 더 이상 모델의 실제 성능을 구별하는 데 효과적이지 않습니다.
이러한 격차를 해소하기 위해 OpenAI는 BrowseComp('탐색 경쟁'이라는 뜻)를 개발했습니다. 이 벤치마크는 1,266개의 까다로운 질문으로 구성되어 있으며, 찾기 어렵고 정보 포인트가 얽혀 있으며 수십 또는 수백 개의 웹사이트를 방문해야 답을 찾을 수 있는 질문을 찾는 AI 에이전트의 능력을 평가하기 위해 고안되었습니다. 개발팀은 이 벤치마크를 OpenAI의 간단한 평가 GitHub 리포지토리를 통해 자세한연구 논문.
BrowseComp의 디자인 컨셉
BrowseComp는 원래 기존 벤치마크 테스트의 공백을 메우기 위해 고안되었습니다. 과거에도 정보 검색 능력을 평가하는 여러 벤치마크가 있었지만, 대부분 기존 언어 모델로 쉽게 풀 수 있는 비교적 간단한 문제를 기반으로 한 것이었고, BrowseComp는 답을 찾기 위해 심층적인 검색과 창의적인 추론이 필요한 복잡한 문제에 초점을 맞췄습니다.
다음은 BrowseComp의 몇 가지 샘플 문제입니다:
- 샘플 질문 11990년과 1994년 사이에 브라질 심판과 경기에서 옐로카드가 4개(각 팀당 2개)가 나왔고, 그 중 3개가 후반전에 나왔으며, 경기 도중 4번의 교체가 있었고, 그 중 한 번은 경기 시작 25분 안에 부상으로 인한 교체였던 축구 팀은?
- 참조 답변: 아일랜드 대 루마니아
- 질문 2의 예:: 때때로 제4의 벽을 허물고 관객과 소통하며 유머로 유명하고 1960년대부터 1980년대까지 방영된 50회 미만의 텔레비전 프로그램을 가진 가상의 인물을 고르세요.
- 참조 답변: 플라스틱 맨
- 질문 3의 예2018년부터 2023년 사이에 EMNLP 컨퍼런스에서 발표된 논문 중 제1저자가 다트머스 대학에서 학부 학위를, 제4저자가 펜실베니아 대학에서 학부 학위를 받은 논문의 제목을 밝히세요.
- 참조 답변:: 제빵의 기초: 빵의 과학
BrowseComp의 고유 기능
- 도전적BrowseComp의 문제는 기존 모델로는 단기간에 풀 수 없도록 세심하게 설계되었습니다. 인간 트레이너가 문제를 만들 때 여러 차례의 검증을 수행하여 난이도가 높은지 확인합니다. 다음은 문제의 난이도를 평가하는 데 사용되는 몇 가지 기준입니다:
- 기존 모델에서 해결되지 않음트레이너들은 GPT-4o(브라우징 포함 및 제외), OpenAI o1 및 이전 버전의 심층 연구 모델이 이러한 문제를 해결하지 못한다는 사실을 확인하도록 요청받았습니다.
- 검색 결과에서 사용할 수 없음:: 트레이너들은 5개의 간단한 Google 검색을 수행하고 검색 결과의 첫 몇 페이지에 답이 없는지 확인하도록 요청받았습니다.
- 인간은 10분 안에 이 문제를 해결할 수 없습니다.:: 트레이너들은 다른 사람이 10분 안에 풀 수 없을 정도로 어려운 문제를 만들도록 요청받았습니다. 일부 문제의 경우 두 번째 트레이너가 답을 찾도록 했습니다. 40% 이상 풀 수 있는 문제를 만든 트레이너는 문제를 수정하도록 요청받았습니다.
그림 2: BrowseComp의 토픽 분포. BrowseComp에서 토픽의 분포는 ChatGPT 이 모델은 사후에 각 질문의 주제를 분류했습니다. - 간편한 확인:: 질문의 난이도에도 불구하고 답변은 일반적으로 짧고 명확하며 참조 답변을 통해 쉽게 확인할 수 있습니다. 이러한 설계는 불공평하지 않으면서도 벤치마킹을 어렵지 않게 만듭니다.
- 잡색:: BrowseComp 문제는 텔레비전과 영화, 과학과 기술, 예술, 역사, 스포츠, 음악, 비디오 게임, 지리, 정치 등 다양한 분야를 다룹니다. 이러한 다양성 덕분에 시험이 포괄적으로 출제됩니다.
모델 성능 평가
BrowseComp에 대한 테스트 결과 기존 모델의 성능이 엇갈리는 것으로 나타났습니다:
- GPT-4o 노래로 응답 GPT-4.5 탐색 기능이 없으면 정확도는 0에 가깝습니다. 찾아보기 기능을 사용하더라도 GPT-4o의 정확도는 0.6%에서 1.9%로 향상되는 데 그쳐, 찾아보기 기능만으로는 복잡한 문제를 해결하기에는 충분하지 않다는 것을 나타냅니다.
- OpenAI o1 이 모델은 탐색 기능은 없지만 강력한 추론 능력으로 9.91 TP3T의 정확도를 달성하여 내부 지식 추론을 통해 일부 답변을 얻을 수 있음을 시사합니다.
- OpenAI 심층 연구 이 모델은 51.51 TP3T의 정확도를 기록하며 최고 성능을 보였습니다. 이 모델은 네트워크를 자율적으로 검색하여 여러 소스의 정보를 평가 및 종합하고 검색 전략을 조정하여 다른 방법으로는 해결할 수 없는 문제를 해결할 수 있도록 지원합니다.
심층 분석
1. 보정 오류
딥 리서치 모델은 정확도 측면에서 우수한 성능을 보이지만 보정 오류가 높습니다. 이는 모델이 오답을 자신 있게 제시할 때 모델 자체의 불확실성에 대한 정확한 평가가 부족하다는 것을 의미합니다. 이러한 현상은 검색 기능이 있는 모델에서 특히 두드러지게 나타나며, 이는 웹 도구에 대한 액세스가 오답에 대한 모델의 신뢰도를 높일 수 있음을 시사합니다.
그림 3: 사람이 BrowseComp 문제를 풀거나 포기하는 데 걸리는 시간을 보여주는 히스토그램. 트레이너는 최소 2시간 동안 문제 해결을 시도한 후에만 포기할 수 있었습니다.
2. 컴퓨팅 리소스의 영향
테스트 결과는 테스트 도중 계산 리소스가 증가함에 따라 모델의 성능이 점차 향상되는 것을 보여줍니다. 이는 BrowseComp의 문제에 상당한 양의 검색 및 추론 노력이 필요하며, 더 많은 계산 리소스를 사용하면 모델의 성능을 크게 향상시킬 수 있음을 시사합니다.
그림 4: 병렬 샘플링과 신뢰도 기반 투표를 사용할 때의 딥 리서치를 위한 BrowseComp 성능. 추가적인 계산 작업은 Best-of-N으로 모델 성능을 더욱 향상시킵니다.
3. 집계 전략
모델의 성능은 여러 번 시도하고 다양한 집계 전략(예: 다수결 투표, 가중치 투표, 최적 선택)을 사용하여 15%에서 25%까지 향상시킬 수 있으며, 여기서 최적 선택 전략이 가장 우수한 성능을 보여 딥서치 모델이 정답을 식별하는 정확도가 높음을 알 수 있습니다.
평결에 도달하기
BrowseComp의 출시는 AI 에이전트 평가에 새로운 차원을 제공합니다. 이 테스트는 모델의 정보 검색 능력을 테스트할 뿐만 아니라 복잡한 문제에 대한 지속성과 창의력도 검사합니다. BrowseComp의 기존 모델의 성능은 아직 개선이 필요하지만, 이 벤치마크 테스트의 출시는 의심할 여지없이 AI 분야의 연구를 발전시킬 것입니다.
앞으로 더 많은 모델이 참여하고 기술이 발전함에 따라 BrowseComp의 AI 에이전트 성능이 지속적으로 향상되어 궁극적으로 더욱 안정적이고 신뢰할 수 있는 AI 에이전트가 될 것으로 기대합니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...