미니맥스 멀티모달 생성 기술의 혁신: 피사체 레퍼런스, 스타일리시한 비디오 생성을 위한 레퍼런스 인물 이미지

50.2K 00

누구나 마음속에 영화에 대한 꿈이 있습니다. 다양한 역할을 맡아 극장에서의 삶을 경험하거나, 감독이 되어 각 장면을 연출하거나, 시나리오 작가가 되어 평행 우주의 무한한 가능성에 대해 글을 쓰고 싶어 합니다.

Conch AI는 다양한 사람들이 영화에 접근할 수 있는 방법을 제시하는 꿈을 만드는 기계입니다. 새해가 시작되면서 Conch AI는 전 세계 사용자에게 새로운 창작 도우미인 주제 참조를 제공합니다.

미니맥스 자체 개발한 최신 S2V-01 비디오 모델by싱글 피규어 바디 레퍼런스 아키텍처기존 프로그램과 함께최대 1%의 입력 및 계산 비용다음을 입력하기만 하면 됩니다.사진.이를 달성할 수 있습니다.시각적 디테일의 정확한 재현또한 사용 가능높은 수준의 자유도와 조합 가능성. 사용자대기 시간 대폭 단축를 사용하여 고가용성을 달성할 수 있습니다.

주요 참조 기능은 이제 전 세계적으로 완전히 온라인 상태입니다. 콘치 비디오 제작 플랫폼을 즉시 경험할 수 있습니다.

사진을 입력하면 고화질 블록버스터 영화가 출력됩니다.

AI 영상 제작 분야에서는 동적인 영상에서 다양한 각도에서 캐릭터의 얼굴의 사실성과 안정성을 유지하는 방법, 연속 클립 접합을 사용하여 제작할 때 캐릭터의 역할을 일관성 있게 유지하는 방법이 업계의 어려운 과제였습니다. 유니티는 자체 개발한 S2V-01 비디오 모델을 통해 사용자에게 최적의 솔루션을 제공합니다.

Conch AI에서 '피사체 참조' 기능을 선택한 후, 사용자는 사진을 업로드하기만 하면 피사체 역할을 식별하고 잠글 수 있습니다. 텍스트 상자에 프롬프트 단어를 입력하면 오래 기다릴 필요 없이 창의적이고 일관된 고품질 동영상을 생성할 수 있습니다.

S2V-01 모델은 사진 속 다양한 성별, 연령, 피부색, 얼굴 구조 등 얼굴 특징을 정확하게 식별할 수 있으며, 생성된 캐릭터는 안정적이고 일관성이 있으며 모든 프레임에서 캐릭터의 일관성을 유지할 수 있습니다. 주인공의 표정 제어와 피사체가 아닌 장면의 질감은 여전히 Conch AI의 '전문성'입니다.

주요 참조 + 프롬프트: 어두운 방에서 게임 콘솔의 빛나는 화면에 시선을 고정하고 있는 어린 소년을 클로즈업합니다. 카메라는 눈높이보다 약간 위에 위치하여 손가락으로 컨트롤러를 민첩하게 조작하는 소년의 집중된 표정에 초점을 맞춥니다. 카메라는 눈높이보다 약간 위에 위치하여 손가락으로 컨트롤러를 민첩하게 조작하는 그의 집중된 표정에 초점을 맞춥니다. 게임 캐릭터 가 나타나 화면의 제약에서 벗어나게 됩니다.

크리에이터 올리비오사리카스는 시청자를 동화의 나라로 안내하는 애니메이션의 소재로 유화 초상화를 업로드했습니다.

현재 Conch AI는 한 명의 사람을 참조하는 기능만 개방되어 있으며, 이를 위해서는 동영상 피사체가 생성한 얼굴 참조로 인식 가능한 얼굴 정보를 업로드해야 합니다. 향후 Conch AI는 여러 사람, 사물, 장면 및 기타 다양한 기능을 참조할 수 있는 기능을 지속적으로 개방할 예정입니다.

입력 및 계산 비용을 획기적으로 줄이고 동영상 제작 환경을 혁신하세요.

미니맥스는 초창기부터 역할, 스타일 등을 포함한 그림 참조의 기능을 지속적으로 탐구해 왔습니다. 수많은 기술적 탐구를 바탕으로, 우리는 그림 참조 체계의 효과의 상한이 주제 클래스 참조 문제에 충분히 높으며, 효과와 확장성을 고려할 때 미세 조정된 LoRA(로우랭크 적응) 체계보다 더 낫다고 생각합니다.좋은 기술이란 가능한 한 다양한 사용자에게 서비스를 제공할 수 있어야 하며, 동시에 실제 문제를 해결할 수 있을 정도로 잘 작동해야 한다고 생각합니다.

미니맥스의 피사체 참조 방식은 하나의 이미지만 입력하면 되기 때문에 추가적인 학습 연산 비용과 대기 시간이 없으며, 생성 비용도 기존의 텍스트 생성 및 그래프 생성 동영상과 비슷합니다.기존의 LoRA 솔루션에 비해 피사체 참조는 사용자 입력 비용과 계산 비용을 모두 1% 미만으로 줄여주며, 사용자 대기 시간을 크게 줄이고 사용자 경험을 두 배로 향상시킵니다.

주요 참조 + 프롬프트: 정교한 드레스와 흰 장갑을 낀 여성이 중세 성의 복도를 걸어갑니다. 그녀는 카메라를 등지고 달리다가 카메라를 돌아보며 표정이 평온함에서 공포로 바뀝니다. 그녀는 카메라를 등지고 달리다가 카메라를 돌아보며 평온함에서 공포로 표정이 변합니다. 복도 끝은 희미한 조명이 켜져 있습니다. 카메라가 여자를 따라 가까이 다가가고 화면이 중간에서 클로즈업으로 바뀌면서 여자의 얼굴에 초점이 맞춰집니다.

자세, 표정, 조명 등과 같은 다른 정보의 간섭 없이 피사체 자체의 필요한 시각 정보(예: 사람의 얼굴 특징)만 영상에 유지하기 위해 MiniMax는 데이터 구성, 모델 아키텍처 및 학습 전략에 대해 많은 최적화를 계속해 왔습니다. 이미 온라인에 공개된 S2V-01 모델에서는 두 가지 측면의 주요 효과를 동시에 달성했습니다:

시각적 디테일을 정확하게 재현합니다:생성된 동영상에 등장하는 캐릭터의 얼굴 특징은 레퍼런스 이미지와 매우 유사합니다;
높은 자유도 + 결합성:신원을 나타내는 얼굴 특징을 제외한 다른 모든 차원은 높은 수준의 자유도를 가지고 있습니다. 예를 들어, 캐릭터를 텍스트로 제어하여 어떤 포즈와 표정도 표현할 수 있으며, 자연스럽고 조화로운 조명이 있는 어떤 환경에도 캐릭터를 배치할 수 있습니다.

주제 참조 기술을 사용하면 사용자는 더 이상 카드 추첨을 통해 일관성 문제를 해결해야 하는 제약을 받지 않고 콘텐츠 표현에 더 집중할 수 있어 긴 동영상 콘텐츠 제작의 효율성을 획기적으로 높일 수 있습니다.여러분의 역할은 당연히 일관성이 있어야 합니다.

비주얼 모달리티, AI 공동 혁신의 시대를 열다

AI 기술은 이미 마이크로 필름, 광고, 버라이어티, 애니메이션, CG 효과 및 기타 콘텐츠 제작 산업에 편리함을 가져다 주었지만, 생성 과정에서 영상 본문이 쉽게 무너지고 콘텐츠 표현이 유연하지 않고 파편화되는 것이 가장 큰 문제입니다.

마스터 레퍼런스 기능의 출시는 전문 크리에이터에게 매우 일관된 시각적 표현과 창의적인 유연성을 제공하며, 단편 동영상과 광고를 포함한 여러 동영상 제작 업계에 파괴적인 혁신을 가져와 일관성과 일관성이 더 이상 문제가 되지 않도록 할 것입니다.현재 미니맥스는 오픈 플랫폼에 주제 참조 기능을 API 서비스 형태로 제공하고 있으며, 기업과 전문 크리에이터에게 보다 완벽한 솔루션을 제공하기 위해 다중 주제 참조 측면에서도 계속 연구할 예정입니다.

미니맥스가 비디오 모델을 출시한 이후, 콘치 AI는 계속해서 업계의 주목을 받고 있습니다.2024년 12월 미니맥스가 출시한 그래픽 비디오 모델인 I2V-01-Live가 호평을 받으며 콘치 AI의 해외 방문자 수가 2700만 명을 돌파하여 역대 최고치를 경신하고 12월 글로벌 AI 비디오 제품 목록에서 1위를 차지했습니다.

: 글로벌 AI 비디오 제품 목록 2024년 12월

사람들이 세상과 상호작용하는 방식은 본질적으로 멀티모달이므로, 멀티모달 이해와 생성은 바로 AGI로 이어지는 핵심 연결고리이자 AI 공동 창작의 시대를 여는 열쇠입니다. 더 많은 사용자가 미니맥스와 함께 인텔리전스를 공동 제작하고 콘치 AI에서 창작의 기쁨을 누릴 수 있기를 기대합니다. 주제 참조 기능을 사용하는 방법에 대한 튜토리얼 문서를 준비했으니, 원문을 클릭하시면 해당 문서로 이동하실 수 있습니다. 미니맥스와 콘치 AI를 지지하고 사랑해주시는 모든 분들께 감사드립니다.