최대 88.31 TP3T 정확도의 SimpleQA를 갖춘 지능형 신체 기반 검색 추론 엔진

41.1K 00

인공 지능 분야에서는 검색 엔진의 지능적인 개발이 각광을 받고 있습니다. 최근 살라헤딘 알주비, 크레스턴 브룩스, 푸르바 치니야, 에도아르도 콘텐테, 치아라 폰 겔라흐, 루카스 어윈, 이한 장, 아르다 카즈, 윈저 응우옌으로 구성된 팀이 그 주인공입니다, 오세웅, 히만슈 티아기, 프라모드 비스와나스 연구팀이 새로운 기술을 출시했습니다.오픈 딥서치(ODS) 오픈 소스 검색 엔진 프레임워크클로즈드 소스 AI 검색 엔진과 오픈 소스 솔루션 간의 격차를 해소하는 것을 목표로 합니다.

혁신 핵심: 개방형 검색 도구 및 개방형 추론 에이전트

ODS의 혁신은 최신 오픈 소스 대규모 언어 모델(LLM)과 추론 지능을 결합하여 웹 검색 도구를 사용하여 사용자 쿼리에 답변할 수 있다는 점입니다. 이 프레임워크는 오픈 검색 도구와 오픈 추론 에이전트라는 두 가지 주요 구성 요소로 이루어져 있습니다.

검색 도구 열기

개방형 검색 도구는 기존의 비공개 소스 검색 엔진보다 성능이 뛰어난 고급 웹 검색 도구입니다. 이 도구는 필요에 따라 사용자 검색어를 다시 작성할 뿐만 아니라 검색 결과에서 관련 문맥을 추출하고 관련 검색 결과가 모두 포함되도록 청크 및 재정렬합니다. 또한, 오픈 검색 도구는 Wikipedia, ArXiv, PubMed와 같은 주요 웹사이트에 맞게 맞춤화되어 검색 결과의 정확성과 포괄성을 더욱 향상시킵니다.

그림 1: 사용자는 원하는 기본 LLM을 연결하고 오픈 딥서치(ODS)의 오픈 소스 프레임워크를 활용할 수 있습니다.ODS는 오픈 검색 도구와 오픈 추론 에이전트의 두 가지 구성 요소로 이루어져 있으며, 쿼리는 먼저 오픈 추론 에이전트에 입력되고 인텔리전스가 쿼리를 해석하고 답변하기 위해 사용 가능한 도구 세트를 조정합니다. 가장 중요한 도구는 웹의 여러 검색 소스에서 고품질의 컨텍스트를 제공하는 개방형 검색 도구입니다. 실험에서는 Llama3.1-70B와 DeepSeek-R1을 기본 모델로 사용했습니다.

개방형 추론 에이전트

개방형 추론 에이전트는 ODS의 또 다른 핵심 구성 요소로, 사용자 작업을 해석하고 다양한 도구를 호출하여 쿼리를 완료하는 역할을 담당합니다. 이 인텔리전스의 두 가지 버전, 즉 ReAct 기반 버전(ODS-v1)과 CodeAct 기반 버전(ODS-v2)이 제공됩니다.

ODS-v1CoT (Chain-of-Thought) 추론과 ReAct 인텔리전스를 결합한 ReAct 프레임 워크 사용, CoT는 질문에 대답하기 전에 모델이 생각하도록 유도하여 추론을 향상시키고, ReAct는 추론 단계와 작업 실행을 결합하여 작업 완료 및 의사 결정을 더욱 향상시킵니다.ODS-v1은 또한 Wolfram의 Alpha API를 통합하여 복잡한 수학적 계산을 처리할 수 있습니다.
그림 2: ODS-v1에서 사용되는 ReAct 프롬프트 구조의 개략도.
ReAct 프레임워크는 표준화된 인터페이스를 통해 툴을 통합할 수 있도록 지원합니다:
```
Thought: [推理跟踪] Action: Tool[参数] Observation: [结果]
```
ODS-v1에서 ReAct 지능은 복잡한 문제 분해를 위한 '계속 생각하기'(=continue.think), Open-Perplex를 사용하여 사실 정보를 찾기 위한 '검색'(=search 인터넷)를 사용하여 사실 정보를 찾기 위한 '검색'(=검색), 기본 모델에서 처리하기 어려운 수치 계산을 처리하기 위해 Wolfram Alpha API에 연결하기 위한 '계산'(=계산)을 사용할 수 있습니다.
ODS-v2코드 생성 및 실행을 사용하여 추론을 향상시키는 CodeAct 프레임워크를 사용합니다.CodeAct는 도구 호출을 위한 실행 가능한 Python 코드를 생성하여 성능을 크게 향상시킵니다.ODS-v2는 더 복잡한 작업을 처리할 수 있으며 여러 도구와 인텔리전스의 공동 작업을 지원합니다.
그림 3: ODS-v2에서 멀티홉 질문에 답변하는 CodeAct 인텔리전스.

성능: 클로즈드 소스 솔루션 그 이상

ODS는 두 가지 유명 평가 벤치마크인 SimpleQA와 FRAMES에서 우수한 성능을 보여주었습니다.

SimpleQAODS-v1과 ODS-v2는 각각 87.71 TP3T와 88.31 TP3T의 정확도를 달성하여 Perplexity의 기본 검색 AI(82.41 TP3T)와 Perplexity Sonar Reasoning Pro(85.81 TP3T)보다 더 뛰어난 성능을 발휘합니다. OpenAI의 GPT-4o 검색 미리보기와 비교했을 때, ODS-v2는 FRAMES보다 성능이 뛰어나며 SimpleQA에서의 성능은 거의 동일합니다.
그림 4: ODS-v1은 Open Search Tool에서 검색한 고품질 컨텍스트를 사용하여 여러 소스를 교차 확인하여 정답을 식별하지만, Perplexity Sonar Reasoning Pro는 관련 검색 정보를 검색하지 못합니다.
그림 5: ODS+DeepSeek-R1은 케이틀린 암스트롱이 모리아 윌슨에 대한 살인 혐의에 대해 무죄를 주장하고 기소된 날짜로 2022년 7월 21일과 7월 20일을 올바르게 구분했습니다.ODS 인텔리전스는 상충되는 두 날짜를 교차 확인하여 7월 21일을 올바르게 선택했습니다. 반대로 퍼플렉서티 프로는 혼란스러워하며 2022년 7월 20일이라는 오답을 냈습니다.
프레임ODS-v1+DeepSeek-R1은 단일 웹 검색에서 56.71 TP3T의 정확도를 달성하는 반면, ODS-v2+DeepSeek-R1은 다중 검색에서 75.31 TP3T로 정확도가 향상되어 최상의 기준선을 크게 뛰어넘는 성능을 발휘합니다.
그림 6: ODS-v1+Llama3.1-70B는 Wolfram 계산기 도구를 사용하여 나이 차이를 정확하게 계산하여 정답을 산출합니다.90 반면, Perplexity는 잘못된 추론 경로를 추구하여 79세의 나이를 보고합니다.

오픈 소스: 커뮤니티 혁신 촉진

ODS의 출시는 검색 AI 영역에서 그 힘을 보여줄 뿐만 아니라 오픈 소스 커뮤니티를 위한 강력한 도구도 제공합니다. ODS의 오픈 소스 구현은 공개적으로 사용 가능하며, 연구자와 개발자는 https://github.com/sentient-agi/OpenDeepSearch来获取相关代码 에 액세스하여 이를 기반으로 다음을 수행할 수 있습니다. 혁신하고 최적화할 수 있습니다.

향후 전망: 오픈 소스가 검색 AI의 새로운 방향을 이끌다

ODS의 등장은 오픈 소스 검색 엔진의 중요한 이정표입니다. 고급 추론 기능과 고품질 웹 검색 도구를 결합한 ODS는 성능 면에서 기존 비공개 소스 솔루션보다 뛰어날 뿐만 아니라 향후 혁신과 발전을 위한 토대를 마련했습니다. 오픈 소스 커뮤니티가 계속 성장하고 기술이 계속 발전함에 따라 ODS는 검색 AI 분야를 완전히 새로운 시대로 이끌 것으로 기대됩니다.

요약

오픈 딥 서치의 출시는 검색 엔진 개발의 역사에서 중요한 돌파구입니다. AI 분야에서 오픈 소스 솔루션의 큰 잠재력을 보여줄 뿐만 아니라 사용자와 연구자에게 강력하고 유연한 도구를 제공합니다. 점점 더 많은 개발자가 이 오픈 소스 프로젝트에 참여함에 따라 ODS는 검색 AI 기술의 발전을 촉진하고 사용자에게 더욱 스마트하고 정확한 검색 경험을 제공할 것으로 기대됩니다.