Mochi 1 비디오 생성 모델: 오픈 소스 비디오 생성 모델의 SOTA

51.5K 00

Genmo AI는 최첨단 오픈 소스 동영상 생성 모델 개발에 전념하는 최첨단 인공지능 연구소입니다. 대표 제품인 Mochi 1은 텍스트 단서에서 고품질 비디오를 생성할 수 있는 오픈 소스 비디오 생성 모델로, 젠모의 목표는 비디오 생성 기술을 통해 인공지능의 혁신을 주도하여 가상 탐험과 창작에 무한한 가능성을 제공하는 것입니다.

모델은 동영상 생성 모델의 오픈 소스 라이브러리로, 최신 Mochi 1 모델이 포함되어 있습니다. Mochi 1은 비대칭 확산을 기반으로 합니다. 트랜스포머 10억 개의 파라미터를 포함하는 AsymmDiT(비대칭 데이터 전송) 아키텍처는 공개적으로 공개된 동영상 생성 모델 중 가장 큰 규모입니다. 이 모델은 텍스트 단서에 반응하는 고품질의 부드러운 액션 동영상을 생성할 수 있습니다.

모찌 1 프리뷰는 고충실도의 모션과 강력한 큐 팔로잉을 갖춘 개방형 고급 동영상 생성 모델입니다. 이 새로운 모델은 폐쇄형과 개방형 동영상 생성 시스템 간의 격차를 크게 해소합니다. 이 모델은 자유 Apache 2.0 라이선스에 따라 출시될 예정입니다.

모찌 1 미리보기 주소

포옹하는 얼굴(모델 웨이트)

플레이그라운드(온라인 데모)

[빌리빌리]https://www.bilibili.com/video/BV1FRy6YeEui/[/빌리빌리]

기능 목록

비디오 생성텍스트 프롬프트를 입력하여 고품질 동영상 콘텐츠를 생성합니다.
오픈 소스 모델Mochi 1은 오픈 소스 모델로 제공되므로 사용자가 개별적으로 조정하고 2차 개발할 수 있습니다.
고충실도 모션 품질부드러운 모션과 높은 충실도의 물리 효과로 동영상을 생성합니다.
강력한 큐 정렬텍스트 프롬프트를 기반으로 사용자의 요구사항에 정확히 일치하는 동영상을 생성하는 기능입니다.
커뮤니티 지원생성된 동영상 콘텐츠를 공유하고 토론할 수 있는 커뮤니티 플랫폼을 제공합니다.
멀티 플랫폼 지원웹 및 모바일 디바이스를 포함한 여러 플랫폼에서 사용 지원.

모찌 1 모델 아키텍처

Mochi 1은 새로운 비대칭 확산 트랜스포머(AsymmDiT) 아키텍처를 기반으로 한 100억 개의 파라미터 확산 모델을 통해 오픈 소스 비디오 생성의 획기적인 발전을 이뤘습니다. 완전히 처음부터 다시 학습된 이 모델은 지금까지 공개된 동영상 생성 모델 중 가장 큰 규모입니다. 가장 중요한 것은 간단하고 해킹이 가능한 아키텍처라는 점입니다.

커뮤니티가 우리 모델을 실행할 수 있도록 하려면 효율성이 중요합니다. Mochi 외에도 동영상을 128배의 작은 크기로 압축하여 8x8 공간과 6배의 시간 압축을 통해 12개 채널의 잠재적 공간으로 압축하는 동영상 VAE도 오픈 소스화했습니다.

텍스트 처리를 간소화하고 신경망 역량을 시각적 추론에 집중함으로써 사용자 단서와 압축된 비디오 마커를 효율적으로 처리합니다.AsymmDiT는 멀티모달 자기 주의 메커니즘을 사용하여 텍스트와 시각 마커에 공동으로 집중하고 Stable Diffusion과 유사한 각 양식에 대해 별도의 MLP 계층을 학습합니다.3 그러나 숨겨진 차원이 크기 때문에, 우리의 에는 텍스트 스트림에 비해 시각 스트림에 대한 파라미터가 거의 4배나 많습니다. 자기 주의 메커니즘에서 모달리티를 통합하기 위해 비대칭 QKV 및 출력 투영 레이어를 사용합니다. 이러한 비대칭 설계는 추론 메모리 요구 사항을 줄여줍니다.

많은 최신 전파 모델은 사용자 프롬프트를 표현하기 위해 사전 학습된 여러 언어 모델을 사용합니다. 이와 달리 Mochi 1은 단 하나의 T5-XXL 언어 모델만을 사용하여 단서를 인코딩합니다.

Mochi 1은 풀 3D 주의 메커니즘을 사용하여 44,520개의 비디오 마커로 구성된 컨텍스트 창을 공동으로 추론합니다. 각 마커의 위치를 파악하기 위해 학습 가능한 회전 위치 임베딩(RoPE)을 3차원으로 확장합니다. 네트워크는 공간 및 시간 축 주파수의 혼합을 엔드 투 엔드로 학습합니다.

Mochi는 SwiGLU 피드 포워드 레이어, 안정성 향상을 위한 쿼리 키 정규화, 내부 활성화 제어를 위한 메자닌 정규화 등 언어 모델 확장 기능의 최신 개선 사항의 이점을 누리고 있습니다.

동영상 생성의 발전을 촉진하는 데 도움이 되는 자세한 내용을 담은 기술 문서가 곧 공개될 예정입니다.

모찌 1 설치 과정

클론 창고 ::

git clone https://github.com/genmoai/models
cd models

종속성 설치 ::

pip install uv
uv venv .venv
source .venv/bin/activate
uv pip install -e .

모델 가중치 다운로드 허깅 페이스에서 또는 자석 링크를 통해 가중치 파일을 다운로드하여 로컬 폴더에 저장합니다.

사용 프로세스

사용자 인터페이스 시작하기 ::

python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"

상호 호환성<path_to_downloaded_directory>는 모델 가중치가 위치한 디렉터리입니다.

명령줄 비디오 생성 ::

python3 -m mochi_preview.infer --prompt "A hand with delicate fingers picks up a bright yellow lemon from a wooden bowl filled with lemons and sprigs of mint against a peach-colored background. The hand gently tosses the lemon up and catches it, showcasing its smooth texture. A beige string bag sits beside the bowl, adding a rustic touch to the scene. Additional lemons, one halved, are scattered around the base of the bowl. The even lighting enhances the vibrant colors and creates a fresh, inviting atmosphere." --seed 1710977262 --cfg_scale 4.5 --model_dir "<path_to_downloaded_directory>"

상호 호환성<path_to_downloaded_directory>는 모델 가중치가 위치한 디렉터리입니다.

온라인에서 모찌 1 체험하기

생성 페이지로 이동로그인 후 '플레이그라운드'를 클릭하여 동영상 생성 페이지로 들어갑니다.
입력 프롬프트: 프롬프트 상자에 생성하려는 동영상에 대한 설명을 입력합니다. 예: '빨간 모직 오토바이 헬멧을 쓴 30세 우주비행사의 모험을 담은 영화 예고편'.
설정 선택: 필요에 따라 동영상 스타일, 해상도 및 기타 설정을 선택합니다.
비디오 생성'생성' 버튼을 클릭하면 메시지에 따라 시스템이 동영상을 생성합니다.
다운로드 및 공유생성된 동영상은 로컬에서 미리 보고 다운로드하거나 소셜 미디어 플랫폼에 바로 공유할 수 있습니다.