VoxCPM - 직면 지능과 칭화 오픈 소스 엔드투엔드 TTS 모델
VoxCPM은 Facade Intelligence와 칭화대학교 선전 국제대학원이 공동으로 오픈소스화한 음성 생성 모델로, 엔드투엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 표현을 생성함으로써 기존의 이산적 명료화의 한계를 극복합니다. 계층적 언어 모델링과 유한 상태 양자화를 통해 ...
InternVLA-N1 - 상하이 AI 랩 오픈 소스 엔드투엔드 듀얼 시스템 내비게이션 대형 모델
InternVLA-N1은 상하이 인공 지능 연구소에서 오픈소스화한 엔드투엔드 듀얼 시스템 내비게이션 매크로 모델입니다. 이중 시스템 아키텍처를 사용하여 시스템 2는 언어 명령을 이해하고 장거리 경로를 계획하고, 시스템 1은 고주파 응답과 민첩한 장애물 회피에 중점을 둡니다. 이 모델은 전적으로 대규모 디지털을 통한 합성 데이터를 기반으로 훈련됩니다.
VLAC - 상하이 AI 랩의 오픈 소스 대규모 보상 구체화 모델
VLAC은 상하이 인공지능 연구소에서 오픈소스로 구현한 보상 매크로 모델입니다. InternVL 다중 모드 매크로 모델을 기반으로 인터넷 비디오 데이터와 로봇 작동 데이터를 통합하여 실제 세계에서 로봇 강화 학습을위한 프로세스 보상 및 작업 완료 추정을 제공합니다.VLAC는 효과적으로 ...
InternVLA-M1 - 오픈소스로 구현된 상하이 AI 랩의 이중 시스템 운영 '브레인'
InternVLA-M1은 상하이 인공 지능 연구소의 오픈 소스로 구현된 운영 '두뇌'로, 명령에 따라 작동하는 두 가지 시스템 운영의 대형 모델입니다. 이 모델은 '사고-행동-학습'을 포괄하는 완전한 폐쇄 루프를 구축하며 높은 수준의 공간 추론과 작업 계획을 담당합니다. 이 모델은 2단계 교육 정책을 채택합니다 ...
PromptEnancer - 텐센트 혼합 메타 오픈 소스 AI 프롬프트 단어 향상 도구
PromptEnhancer는 텍스트-대-이미지(텍스트-대-이미지, T2I) 모델의 생성을 개선하기 위해 Tencent의 혼합 메타 팀이 개발한 오픈 소스 프롬프트 단어 향상 도구입니다. 추론의 사슬(Chain-of-Thought, CoT) 접근 방식을 통해 ...
UnifoLM-WMA-0 - 유슈 테크놀로지 오픈 소스 월드 모델 액션 아키텍처
UnifoLM-WMA-0은 일반 로봇 학습을 위해 설계된 유슈 테크놀로지의 여러 로봇 온톨로지 클래스에 걸친 오픈 소스 월드 모델-액션 아키텍처입니다. 월드 모델과 액션 아키텍처로 구성된 월드 모델은 로봇과 환경 상호 작용의 물리적 법칙을 이해하고, 액션 아키텍처는 특정 동작을 담당합니다.
InfiniteTalk - 미션 비전 AI를 위한 오픈 소스 오디오 기반 비디오 생성 도구
인피니트토크는 입력된 오디오를 기반으로 길이에 제한 없이 말하는 동영상을 생성하는 오디오 기반 동영상 생성 도구로, MeiGen-AI 팀이 개발했습니다. 핵심 장점은 정밀한 립싱크 기술로 오디오와 캐릭터의 입 모양을 완벽하게 일치시켜 자연스럽고 부드러운...
ROMA - 병렬 처리를 위한 복잡한 작업의 자동 분해를 위한 오픈 소스 메타 에이전트 프레임워크
ROMA(Recursive-Open-Meta-Agent)는 재귀적 작업 분해와 병렬 처리를 통해 복잡한 문제를 효율적으로 해결하기 위해 Sentient AGI에서 개발한 오픈 소스 메타 에이전트 프레임워크입니다. Python 3.12 이상, Docker 및...
Lumina-DiMOO - 상하이 AI 랩과 화웨이 라이즈가 오픈소스화한 멀티모달 대형 모델
Lumina-DiMOO는 세계 인공지능 컨퍼런스 2025에서 화웨이 라이즈와 함께 상하이 인공 지능 연구소(AIL)가 출시한 차세대 멀티모달 생성 및 이해를 위한 통합 모델입니다. Rise AI 기본 하드웨어 및 소프트웨어 플랫폼과 MindSpeed MM 멀티모달 대형 모델 제품군을 기반으로 ...
하이프노트 - 오픈 소스 로컬 최초의 AI 회의 노트 필기 도구
하이프노트는 사용자의 개인정보를 보호하고 회의 효율성을 개선하기 위해 전문가를 위해 설계된 로컬 우선의 오픈 소스 AI 회의 노트 필기 도구입니다. '로컬 우선' 원칙을 채택하여 모든 데이터 저장과 처리가 사용자의 로컬 장치에서 이루어지므로 데이터 보안을 보장하고 오프라인 작업을 지원합니다.