Open-o3 비디오 - 북경대학교에서 오픈소스화한 비디오 추론 모델 유나이티드바이트

27.8K 00

Open-o3 비디오란?

Open-o3 Video는 북경대학교와 바이트댄스가 공동 개발한 오픈 소스 비디오 추론 모델로, 시간적 및 공간적 증거를 통해 비디오 추론을 향상시키는 데 중점을 두고 있습니다. 타임스탬프와 경계 상자로 주요 증거에 명시적으로 레이블을 지정함으로써 모델이 비디오 콘텐츠를 더 잘 이해하고 해석할 수 있도록 도와줍니다. 이 모델은 2단계 훈련 전략을 사용하여 훈련되며, 감독 미세 조정(SFT)을 통한 콜드 스타트로 시작한 다음 강화 학습(RL) 최적화와 결합하여 답변의 정확성과 시공간적 정렬을 보장합니다. 또한 모델 학습을 위한 풍부한 시공간적 감독 신호를 제공하기 위해 고품질 데이터 세트 STGR-CoT-30k 및 STGR-RL-36k를 만들었습니다.

Open-o3 비디오의 특징

추론을 강화하는 시간적 증거Open-o3 Video는 동영상 이해의 정확성과 해석 가능성을 높이기 위해 주요 타임스탬프와 경계 상자에 명시적으로 레이블을 지정하여 추론 과정에 시간적, 공간적 증거를 통합합니다.
고품질 데이터 세트 지원연구팀은 모델 학습을 위한 풍부한 시공간적 감독 신호를 제공하고 추론 능력을 향상시키기 위해 두 개의 고품질 데이터 세트인 STGR-CoT-30k와 STGR-RL-36k를 구축했습니다.
2단계 교육 전략지도 미세 조정(SFT)과 강화 학습(RL) 훈련을 결합하여 여러 보상 메커니즘을 통해 모델의 추론 정확도, 시간적 정렬 및 공간적 정밀도를 최적화하는 데 사용됩니다.
뛰어난 성능V-STAR 벤치마크 테스트에서 Open-o3 Video는 다른 모델을 크게 능가하는 mAM 및 mLGM 지표가 각각 35.5% 및 49.0%에 달해 강력한 비디오 추론 기능을 입증했습니다.
오픈 소스 및 사용 편의성코드와 모델은 연구자와 개발자가 쉽게 사용하고 더 발전시켜 영상 이해 기술의 폭넓은 적용을 촉진할 수 있도록 GitHub와 Hugging Face에 오픈소스로 공개되었습니다.

Open-o3 비디오의 핵심 이점

시공간적 증거 통합이 모델은 추론 과정에서 주요 타임스탬프와 경계 상자에 명시적으로 레이블을 지정하여 시간 및 공간 정보를 추론 경로와 긴밀하게 결합하여 비디오 추론의 정확성과 해석 가능성을 크게 향상시킵니다.
고품질 데이터 세트 기반개발팀은 균일한 시공간적 감독 신호를 제공하기 위해 두 개의 고품질 데이터 세트(STGR-CoT-30k 및 STGR-RL-36k)를 구축하여 모델 훈련을 위한 견고한 데이터베이스를 제공하고 복잡한 시나리오에서 모델의 성능을 보장합니다.
2단계로 최적화된 교육지도 미세 조정(SFT)과 강화 학습(RL)을 결합한 학습 전략으로 여러 보상 메커니즘을 통해 모델의 추론 정확도, 시간적 정렬 및 공간적 정밀도를 최적화하여 모델의 성능을 종합적으로 개선하는 데 사용됩니다.
뛰어난 성능V-STAR 벤치마크에서 Open-o3 Video는 주요 지표(예: mAM 및 mLGM)에서 다른 유사 모델보다 훨씬 뛰어난 성능을 보이며 비디오 추론 분야에서 강력한 경쟁력을 입증했습니다.
멀티모달 융합 기능강력한 멀티모달 기본 모델(예: Qwen3-VL-8B)을 기반으로 하는 Open-o3 Video는 비디오의 텍스트, 이미지 및 시간 정보를 효율적으로 처리하여 보다 정확한 추론과 해석을 수행할 수 있습니다.

Open-o3 Video의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://marinero4972.github.io/projects/Open-o3-Video/
깃허브 리포지토리:: https://github.com/marinero4972/Open-o3-Video
허깅페이스 모델 라이브러리:: https://huggingface.co/marinero4972/Open-o3-Video/tree/main
arXiv 기술 논문:: https://arxiv.org/pdf/2510.20579

Open-o3 비디오의 대상

인공 지능 연구원비디오 이해, 멀티모달 학습 및 자연어 처리에 중점을 둔 연구자들은 이 모델을 사용하여 최첨단 연구 및 알고리즘 최적화를 수행할 수 있습니다.
컴퓨터 비전 엔지니어비디오 분석, 표적 탐지, 비디오 콘텐츠 제작을 담당하는 엔지니어는 모델을 활용하여 프로젝트 성과와 개발 효율성을 개선할 수 있습니다.
데이터 과학자대규모 동영상 데이터를 처리하고 분석해야 하는 데이터 과학자는 이 모델을 사용하여 보다 정확한 동영상 추론 결과를 얻을 수 있습니다.
고등 교육 기관의 교사 및 학생컴퓨터 과학 및 인공지능 관련 학과의 교수진과 학생은 비디오 이해 분야의 최신 기술을 탐구하는 교육 및 연구 도구로 사용할 수 있습니다.
기업 기술팀비디오 콘텐츠 제작, 지능형 보안, 자동 운전 분야의 기업 기술팀은 이 모델을 실제 비즈니스 시나리오에 적용하여 제품 경쟁력을 강화할 수 있습니다.