Vidi2 - ByteHop의 오픈 소스 멀티모달 비디오 이해 및 대규모 모델 생성 솔루션

27.4K 00

Vidi2란 무엇인가요?

Vidi2는 비디오 콘텐츠 이해, 분석 및 제작에 중점을 둔 2세대 멀티모달 비디오 이해 및 세대 그랜드 모델로, ByteDance에서 오픈소스로 제공합니다. 텍스트, 비디오, 오디오 모달리티의 공동 입력을 지원하며, 영상 콘텐츠, 사운드 정보, 자연어 명령을 동시에 이해하여 모달 간 상호 작용과 추론을 수행할 수 있습니다. 비디오에서 특정 이벤트 또는 대상 물체의 시간 범위와 공간적 위치를 정확하게 찾아내면 모델이 화면에 해당 시간대와 대상 영역에 자동으로 주석을 달 수 있으며, 오차는 밀리초 수준까지 정확할 수 있습니다. 몇 시간 분량의 원본 비디오 영상을 처리하고 특정 의미와 일치하는 클립을 빠르게 검색할 수 있습니다.

Vidi2의 특징

멀티모달 처리 기능텍스트, 비디오, 오디오 모달리티의 공동 입력을 지원하며 화면 콘텐츠, 사운드 정보, 자연어 명령을 동시에 이해할 수 있어 모달리티 간 상호 작용과 추론이 가능합니다.
정밀한 공간 및 시간적 위치 지정(STG)예를 들어, "누군가 X 분에 특정 행동을 했습니다"라는 텍스트 설명에 따라 모델은 영상에서 특정 이벤트 또는 대상 객체의 시간 범위와 공간 위치를 정확하게 찾을 수 있으며, 해당 시간대와 대상 영역을 화면에 자동으로 표시하고 오차는 밀리초 수준까지 정확할 수 있습니다.
긴 동영상 이해 및 검색몇 시간 분량의 원본 비디오 영상을 처리하고, 특정 의미와 일치하는 세그먼트를 빠르게 검색하며, 비디오 콘텐츠가 복잡하고 장면이 자주 전환되는 경우에도 높은 정확도를 유지할 수 있습니다. 초장편 동영상(1시간 이상) 시나리오에서는 주류 상용 모델보다 앞선 성능을 제공합니다.
비디오 퀴즈 및 추리동영상 콘텐츠 기반의 개방형 Q&A를 지원하여 줄거리, 등장인물 관계, 사건의 원인과 결과 등에 대한 질문에 답하고 여러 차례의 추론을 통해 합리적인 답변을 생성하여 사용자가 동영상 속 핵심 정보에 빠르게 접근할 수 있도록 도와줍니다.
지능형 편집 및 크리에이티브 지원하이라이트 클립을 자동으로 추출하고 짧은 동영상 제목을 생성할 수 있을 뿐만 아니라 사용자의 필요에 따라 지능형 구도 자르기 및 자동 멀티 카메라 전환을 수행하여 동영상 제작의 문턱을 크게 낮추고 제작의 효율성을 향상시킬 수 있습니다.

Vidi2의 핵심 이점

정밀한 공간 및 시간적 포지셔닝 기능Vidi2는 영상에서 대상 물체의 타임스탬프와 경계 상자를 모두 인식할 수 있으며, 텍스트 쿼리가 주어지면 해당 시간대를 찾을 수 있을 뿐만 아니라 해당 시간 범위 내에서 특정 물체의 위치를 정확하게 표시하고 1초 단위로 특정 물체와 캐릭터를 추적하며 군중 속에서 특정 캐릭터를 추적하거나 불연속 샷에서 소품을 분리하는 등의 작업을 지원할 수 있습니다.
강력한 동영상 이해 및 생성Vidi2는 몇 시간 분량의 원본 영상을 처리하고, 그 안의 스토리 라인을 이해하며, 간단한 지시에 따라 전체 TikTok 단편 동영상 또는 영화 클립을 생성할 수 있습니다.
고급 기술 아키텍처Gemma-3를 백본 네트워크로 사용하고 재설계된 적응형 마크업 압축을 결합하여 긴 동영상을 처리할 때 중요한 세부 정보를 잃지 않고 효율성을 유지할 수 있습니다. 또한 텍스트, 비주얼, 오디오를 공동으로 처리하여 동영상을 이해하고 제작하는 크로스 모달 처리 흐름이 통합됩니다.
뛰어난 성능오픈 시간 검색에 대한 VUE-TR-V2 벤치마크에서 Vidi2는 전체 IoU 48.75를 달성했으며 특히 초장편 동영상(1시간 이상)에서 상용 모델보다 17.5% 포인트 더 뛰어난 성능을 보였습니다. 현지화 작업(VUE-STG)에서 Vidi2는 vIoU에서 32.57, tIoU에서 53.19의 최고 성능을 달성했습니다.
효율적인 데이터 교육 전략Vidi2의 훈련 과정은 실제의 다양한 비디오 데이터와 합성 로컬라이제이션 데이터 및 신중하게 선별된 주석을 결합하여 대규모로 공간적, 시간적 추론을 정렬하는 데 중점을 둡니다. 또한 단계적 양방향 강화 훈련 메커니즘을 통해 모델의 성능을 향상시키기 위해 시간 인식 멀티모달 정렬(TAMA) 전략을 사용합니다.

Vidi2의 공식 웹사이트는 무엇인가요?

프로젝트 웹사이트:: https://bytedance.github.io/vidi-website/
깃허브 리포지토리:: https://github.com/bytedance/vidi
arXiv 기술 논문:: https://arxiv.org/pdf/2511.19529

Vidi2의 대상 사용자

동영상 크리에이터Vidi2는 동영상 제작자가 동영상 스크립트, 개요 및 제목을 빠르게 생성하고 긴 동영상을 플랫폼 게시에 적합한 짧은 동영상으로 자동 편집하여 창작 효율성을 크게 향상시킬 수 있도록 도와줍니다.
콘텐츠 편집팀많은 양의 동영상 영상을 처리해야 하는 편집 팀의 경우 Vidi2를 사용하면 동영상에서 주요 클립을 자동으로 식별하고 추출하여 하이라이트 순간을 생성할 수 있으므로 수동으로 선별하고 편집하는 시간을 절약할 수 있습니다.
소셜 미디어 운영자Vidi2는 긴 동영상 콘텐츠를 소셜 미디어 플랫폼에 적합한 짧은 동영상으로 빠르게 변환하여 운영자가 콘텐츠를 보다 효율적으로 게시하고 배포를 개선할 수 있도록 지원합니다.
영화 제작자포스트 프로덕션에서 Vidi2는 줄거리 이해, 편집 및 자막을 지원하여 제작 효율성을 높일 수 있습니다.
광고 및 마케팅 팀Vidi2는 매력적인 동영상 콘텐츠를 빠르게 생성하여 광고 팀이 더욱 매력적인 광고 동영상을 제작하고 광고 효과를 개선할 수 있도록 지원합니다.
교육자교육자는 Vidi2를 사용하여 교육용 비디오 처리를 최적화하여 교육에 적합한 짧은 비디오 클립을 생성하고 교육 리소스 사용의 효율성을 개선할 수 있습니다.