Youtu-GraphRAG - 텐센트 유투 랩의 오픈 소스 그래프 검색 증강 생성 프레임워크
Youtu-GraphRAG는 대규모 언어 모델이 복잡한 Q&A 작업을 보다 정확하게 처리할 수 있도록 지원하는 텐센트 유투 연구소의 오픈 소스 그래프 검색 증강 생성 프레임워크입니다. 4계층 지식 트리를 구성하여 지식을 속성, 관계, 키워드 및 커뮤니티의 네 가지 수준으로 분해하여 행위의 자기 숙달에 대한 교차 도메인 지식을 달성합니다....
스탠드인 - 텐센트 위챗 비주얼 오픈 소스 경량 비디오 생성 프레임워크
스탠드인(Stand-In)은 텐센트 WeChat 비전 팀이 개발한 가벼운 플러그 앤 플레이 방식의 신원 보존 동영상 생성 프레임워크입니다. 동영상 생성 시 특정 신원 특징을 보존하는 데 초점을 맞춘 이 프레임워크는 기본 모델 1%의 추가 파라미터만 학습하면 얼굴 유사성과 자연스러움에서 탁월한 결과를 얻을 수 있습니다.
IndexTTS2 - 정밀한 지속 시간 제어를 최초로 지원하는 B 스테이션 오픈 소스 무료 TTS 모델
IndexTTS2는 B 스테이션 음성 팀이 오픈소스화한 새로운 무료 텍스트 음성 변환(TTS) 모델로, 감정 표현과 지속 시간 제어에서 획기적인 발전을 이루었으며, 정밀한 지속 시간 제어를 지원하는 최초의 자동 회귀형 TTS 모델입니다. 제로 샘플 음성 복제를 지원하며 하나의 오디오 파일 만 사운드를 정확하게 복사 할 수 있습니다....
HuMo - 칭화대학교 유나이티드 바이트 오픈 소스 멀티모달 비디오 생성 프레임워크
HuMo는 칭화대학교와 바이트댄스 인텔리전트 크리에이션 랩이 공동으로 오픈소스화한 멀티모달 비디오 생성 프레임워크로, 인간 중심의 비디오 생성에 중점을 두고 있습니다. 텍스트, 이미지 및 오디오와 같은 멀티모달 입력에서 고품질의 세밀하고 제어 가능한 휴먼 비디오를 생성할 수 있으며, HuMo는 강력한 텍스트 큐 팔로잉 기능을 지원합니다.
AntSK FileChunk - 무료 AI 시맨틱 문서 슬라이싱 도구, 동적 슬라이싱 조정
AntSK FileChunk는 RAG(검색 증강 생성) 애플리케이션을 위해 설계된 무료 지능형 문서 슬라이싱 도구입니다. 시맨틱을 핵심으로 하여 문서를 의미적으로 완전하고 일관된 세그먼트로 지능적으로 슬라이스하고, 다국어를 지원하며, 슬라이스 크기를 동적으로 조정하여 문맥의 일관성을 보장합니다.
UnifiedTTS - 원스톱 TTS API 서비스 플랫폼, 실시간 성능 모니터링
UnifiedTTS는 텍스트 음성 변환(TTS) 서비스를 위한 원스톱 플랫폼입니다. 중국어, 영어, 일본어, 한국어를 포함한 여러 언어를 지원하여 글로벌 비즈니스의 요구 사항을 충족합니다. 통합 API 인터페이스를 통해 마이크로를 비롯한 여러 주요 TTS 서비스를 통합합니다.
MiniCPM 4.1 - 직면면 인텔리전스를 통한 매우 효율적인 엔드사이드 매크로 모델링
MiniCPM 4.1은 Facade Intelligence에서 도입한 매우 효율적인 엔드 사이드 대규모 언어 모델입니다. InfLLM v2 희소주의 아키텍처를 사용하면 각 어휘는 5% 미만의 어휘와의 상관관계만 계산하면 되므로 긴 텍스트의 처리 오버헤드를 크게 줄일 수 있습니다. 128K의 긴 텍스트 시나리오에서...
WeKnora - 텐센트 위챗 오픈 소스 문서 이해 및 시맨틱 검색 프레임워크
WeKnora는 대규모 언어 모델(LLM) 문서 이해 및 의미 검색 프레임워크에 기반한 텐센트 위챗 팀의 오픈 소스로, 복잡하고 이질적인 문서 콘텐츠 시나리오의 구조를 위해 설계되었으며 모듈식 아키텍처, 다중 모드 전처리 통합, 의미 벡터 인덱싱, 지능형 리콜 및 대규모 모델 생성 추론을 사용하도록 설계되었습니다 ....
XTuner V1 - 상하이 AI 랩 오픈 소스 대규모 모델 학습 엔진
XTuner V1은 상하이 인공 지능 연구소에서 오픈 소스화한 차세대 대규모 모델 훈련 엔진으로, 초대형 스파스 혼합 전문가(MoE) 모델 훈련을 위해 설계되었습니다. PyTorch FSDP를 기반으로 개발된 이 엔진은 메모리, 통신 및 로드의 다차원 최적화를 통해 고성능을 달성합니다.
알리 통이 첸첸이 출시한 일련의 음성 인식 모델, Qwen3-ASR-Flash
Qwen3-ASR-Flash는 방대한 멀티모달 데이터로 학습된 Qwen3 기본 모델을 기반으로 하는 알리바바의 최신 고정밀 음성 인식 모델입니다. 만다린어, 쓰촨어, 민난어, 우어, 광둥어 및 기타 방언을 포함한 11개 언어와 여러 억양을 지원합니다....









