Wan2.2-Animate - 통이 완샹 오픈 소스의 액션 생성을 위한 제너레이티브 모델
완2.2-애니메이트는 통이완샹의 오픈 소스 액션 생성 모델로, 액션 모방과 롤플레잉의 두 가지 모드를 지원합니다. 사용자는 캐릭터 사진과 참조 비디오 만 입력하면 모델이 비디오 캐릭터의 움직임과 표정을 그림 캐릭터로 마이그레이션하여 그림 캐릭터에 역동적 인 표현을 제공 할 수 있습니다 ...
InternVLA-A1 - 상하이 AI 랩, 대형 모델 구현을 위한 운영 기능의 오픈 소스 통합
InternVLA-A1은 상하이 인공 지능 연구소에서 오픈소스로 제공하는 대규모 구현 작업 모델입니다. 통합을 이해하고, 상상하고, 실행할 수 있는 능력을 갖추고 있으며, 작업을 정확하게 완료할 수 있습니다. 이 모델은 실제 및 시뮬레이션 운영 데이터를 융합하고 대규모 가상-실제 하이브리드 장면 에셋을 통해 대규모 멀티모달 구축을 자동화합니다.
VoxCPM - 직면 지능과 칭화 오픈 소스 엔드투엔드 TTS 모델
VoxCPM은 Facade Intelligence와 칭화대학교 선전 국제대학원이 공동으로 오픈소스화한 음성 생성 모델로, 엔드투엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 표현을 생성함으로써 기존의 이산적 명료화의 한계를 극복합니다. 계층적 언어 모델링과 유한 상태 양자화를 통해 ...
InternVLA-N1 - 상하이 AI 랩 오픈 소스 엔드투엔드 듀얼 시스템 내비게이션 대형 모델
InternVLA-N1은 상하이 인공 지능 연구소에서 오픈소스화한 엔드투엔드 듀얼 시스템 내비게이션 매크로 모델입니다. 이중 시스템 아키텍처를 사용하여 시스템 2는 언어 명령을 이해하고 장거리 경로를 계획하고, 시스템 1은 고주파 응답과 민첩한 장애물 회피에 중점을 둡니다. 이 모델은 전적으로 대규모 디지털을 통한 합성 데이터를 기반으로 훈련됩니다.
VLAC - 상하이 AI 랩의 오픈 소스 대규모 보상 구체화 모델
VLAC은 상하이 인공지능 연구소에서 오픈소스로 구현한 보상 매크로 모델입니다. InternVL 다중 모드 매크로 모델을 기반으로 인터넷 비디오 데이터와 로봇 작동 데이터를 통합하여 실제 세계에서 로봇 강화 학습을위한 프로세스 보상 및 작업 완료 추정을 제공합니다.VLAC는 효과적으로 ...
InternVLA-M1 - 오픈소스로 구현된 상하이 AI 랩의 이중 시스템 운영 '브레인'
InternVLA-M1은 상하이 인공 지능 연구소의 오픈 소스로 구현된 운영 '두뇌'로, 명령에 따라 작동하는 두 가지 시스템 운영의 대형 모델입니다. 이 모델은 '사고-행동-학습'을 포괄하는 완전한 폐쇄 루프를 구축하며 높은 수준의 공간 추론과 작업 계획을 담당합니다. 이 모델은 2단계 교육 정책을 채택합니다 ...
PromptEnancer - 텐센트 혼합 메타 오픈 소스 AI 프롬프트 단어 향상 도구
PromptEnhancer는 텍스트-대-이미지(텍스트-대-이미지, T2I) 모델의 생성을 개선하기 위해 Tencent의 혼합 메타 팀이 개발한 오픈 소스 프롬프트 단어 향상 도구입니다. 추론의 사슬(Chain-of-Thought, CoT) 접근 방식을 통해 ...
UnifoLM-WMA-0 - 유슈 테크놀로지 오픈 소스 월드 모델 액션 아키텍처
UnifoLM-WMA-0은 일반 로봇 학습을 위해 설계된 유슈 테크놀로지의 여러 로봇 온톨로지 클래스에 걸친 오픈 소스 월드 모델-액션 아키텍처입니다. 월드 모델과 액션 아키텍처로 구성된 월드 모델은 로봇과 환경 상호 작용의 물리적 법칙을 이해하고, 액션 아키텍처는 특정 동작을 담당합니다.
InfiniteTalk - 미션 비전 AI를 위한 오픈 소스 오디오 기반 비디오 생성 도구
인피니트토크는 입력된 오디오를 기반으로 길이에 제한 없이 말하는 동영상을 생성하는 오디오 기반 동영상 생성 도구로, MeiGen-AI 팀이 개발했습니다. 핵심 장점은 정밀한 립싱크 기술로 오디오와 캐릭터의 입 모양을 완벽하게 일치시켜 자연스럽고 부드러운...
ROMA - 병렬 처리를 위한 복잡한 작업의 자동 분해를 위한 오픈 소스 메타 에이전트 프레임워크
ROMA(Recursive-Open-Meta-Agent)는 재귀적 작업 분해와 병렬 처리를 통해 복잡한 문제를 효율적으로 해결하기 위해 Sentient AGI에서 개발한 오픈 소스 메타 에이전트 프레임워크입니다. Python 3.12 이상, Docker 및...