대규모 모델 기초는 대규모 언어 모델(LLM)의 핵심 기술과 실무 경로를 심도 있게 분석합니다. 언어 모델링의 기초 이론부터 시작해 통계, 순환신경망(RNN), 트랜스포머 아키텍처를 기반으로 한 모델 설계 원리를 3대 대규모 언어 모델에 초점을 맞춰 체계적으로 설명합니다.
QVQ-Max는 이미지와 비디오 콘텐츠를 "읽기"하고 분석 및 문제 해결을 위한 정보와 결합할 수 있는 알리토닉스의 최첨단 시각 추론 모델로, QVQ-72B-Preview의 업그레이드 버전입니다. QVQ-Max는 이미지 및 비디오 콘텐츠를 "읽기"하고 분석, 추론 및 문제 해결을 위해 정보를 결합할 수 있는 QVQ-72B-Preview의 업그레이드 버전입니다.QVQ-Max의 주요 기능에는 이미지 구문 분석, 비디오 분석 및 ...
Ovis-U1은 알리바바 그룹의 Ovis 팀이 30억 개의 매개변수 규모로 도입한 멀티모달 통합 모델입니다. 이 모델은 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집의 세 가지 핵심 기능을 갖추고 있으며 고급 아키텍처 설계와 협업 및 통합 교육 방법을 통해 고충실도 이미지 구현을 지원합니다.
Qwen VLo는 통이 첸첸 팀이 도입한 멀티모달 통합 이해 및 생성 모델입니다. Qwen VLo는 세계를 '이해'하고 그 이해를 바탕으로 고품질로 재창조하여 인식에서 생성으로의 도약을 실현할 수 있습니다. VLo는 이미지의 내용을 정확하게 이해할 수 있으며, 이를 바탕으로 일관되고 고품질의 생성을 수행할 수 있습니다.
GLM-4.7은 AI 프로그래밍, 복잡한 추론 및 지능형 신체 작업에 심도 있게 최적화된 스마트 스펙트럼 AI에서 출시하고 오픈소스로 제공하는 최신 플래그십 그랜드 모델입니다. 이 모델은 다국어 코딩, 장거리 작업 계획 및 도구 협업 기능을 통해 200k 컨텍스트 길이와 최대 128k 출력을 지원합니다....
일반 소개 "아내가 나에게 소리치는 이유"는 인공지능을 통해 파트너의 감정 반응과 의사소통 패턴을 이해할 수 있도록 설계된 독특한 결혼 관계 시뮬레이션 웹사이트입니다. 사용자는 다양한 시나리오를 입력하고 가상 파트너의 반응을 경험하며 실제와 같은 시뮬레이션을 할 수 있습니다.
AIMangaStudio는 창작자에게 줄거리 생성, 서브 장면 디자인, 캐릭터 설정 및 기타 기능을 포함한 완벽한 만화 제작 파이프라인을 제공하는 무료 AI 만화 제작 도구로, 스크립트에서 만화 페이지까지 제작 프로세스를 간소화할 수 있습니다. 줄거리, 대사를 포함한 만화 대본의 자연어 생성을 지원합니다.
완싱 캐노피는 완싱 테크놀로지가 출시한 AIGC 동영상 제작 플랫폼으로, 동영상, 사진, 오디오 생성의 3대 창작 분야를 다루며 미디어 및 문화 산업 종사자, 영화 및 텔레비전/포스트 프로덕션 종사자, 예술 및 디자인 종사자, 광고 및 마케팅 실무자 등을 위해 특별히 설계되어 원스톱 전문 창작 솔루션을 제공합니다.
영국에 본사를 둔 초보안 하드웨어 및 소프트웨어 회사인 SECQAI는 양자 컴퓨팅 기술을 기존 AI 모델에 통합하여 계산 효율성과 문제 해결 능력을 향상시키는 세계 최초의 양자 대용량 언어 모델(QLM)을 출시했다고 발표했습니다. 양자 역학 + AI = 더 강력한 AI?...
우아한 요야는 중커 웬지가 출시한 멀티모달 리터러티브 비디오 플랫폼으로, AI 멀티모달 기술을 기반으로 비디오 콘텐츠 제작의 전체 체인을 강화합니다. 사용자는 테마 요구 사항 만 입력하면 플랫폼에서 스크립트, 이미지, 비디오를 빠르게 생성 할 수 있으며 지능형 편집, 음성 합성 및 캐릭터 입 드라이브 및 기타 작업, 출력을 완료 할 수 있습니다 ...
Confucius3-Math는 넷이즈유다오가 오픈소스로 공개한 국내 최초의 수학 교육용 오픈소스 추론 모델입니다. 초중고 수학 교육 시나리오에 최적화된 140억 개의 매개 변수를 사용하여 단일 소비자용 GPU(예: RTX 4090D)에서 효율적으로 실행할 수 있으며, 추론 성능은 약...
AudioFly는 텍스트에서 음향 효과를 생성하기 위한 오픈 소스 AI 모델입니다. 10억 개의 파라미터가 포함된 잠재적 확산 모델 아키텍처를 기반으로 AudioSet, AudioCaps, TUT 및 내부 데이터 세트와 같은 대규모의 다양한 오디오 텍스트 데이터 세트에 대해 학습된 모델입니다.
FLUX.1 Kontext는 문맥 인식 이미지 처리 기술을 제공하는 Black Forest Labs의 이미지 생성 및 편집 모델입니다. 이 모델은 텍스트 및 이미지 단서에 대한 반응을 이해하고 개체 수정, 스타일 변환, 배경 교체와 같은 작업을 수행하면서 모서리를 유지합니다.
미즈윅스는 메이퇀의 M17 팀이 모델의 지시를 따르는 능력을 평가하기 위해 사용하는 오픈 소스 대규모 모델 평가 세트입니다.미즈윅스는 3단계 평가 프레임워크를 사용하여 모델이 매크로에서 마이크로 수준까지 사용자의 지시에 따라 답변을 생성할 수 있는지 종합적으로 측정하며 답변 내용에 대한 지식은 긍정적으로 평가하지 않습니다.
FineVision은 고급 시각 언어 모델 학습을 위한 허깅 페이스의 오픈 소스 시각 언어 데이터 세트입니다. 여기에는 1,730만 개의 이미지, 2,430만 개의 샘플, 8,890만 건의 대화, 95억 개의 답변 토큰이 포함되어 있습니다. 데이터 세트는 다음과 같이 집계됩니다...
Job AI 이력서는 효율적이고 편리한 지능형 이력서 생성 및 최적화 플랫폼입니다. 이 플랫폼은 AI 기술을 기반으로 사용자가 전문적이고 개인화된 이력서를 빠르게 생성할 수 있도록 도와줍니다. 사용자는 기본 정보와 경력만 입력하면 다양한 직무를 포괄하는 2800개 이상의 아름다운 템플릿을 제공하여 단시간에 고품질의 이력서를 생성할 수 있습니다.
논리 구문 분석은 Qwen2.5-VL-7B를 기반으로하는 Ali 오픈 소스 엔드 투 엔드 문서 구문 분석 모델입니다. 강화 학습을 통해 문서 레이아웃 분석 및 읽기 순서 추론을 최적화하고 PDF 이미지를 구조화 된 HTML 출력으로 변환하고 다양한 콘텐츠를 지원할 수 있습니다 ...
SkyReels-A3는 쿤룬 월드 와이드 그룹의 오디오 기반 디지털 휴먼 제작 툴입니다. SkyReels-A3는 오디오 기반 디지털 휴먼 제작 도구로, 간단한 입력(예: 인물 이미지 및 음성)을 통해 고품질의 동적 비디오 콘텐츠를 생성하고, 정적인 사진을 '생동감 있게' 만들고, 기존 비디오의 대사를 캐릭터가 자동으로 일치하는 새로운 립싱크로 대체할 수 있습니다....
마인드링크는 쿤룬 월드와이드웹에서 출시한 오픈소스 추론의 대규모 모델입니다. 적응 형 추론 메커니즘을 통해 작업의 복잡성에 따라 유연한 전환 추론 모드, 간단한 작업 빠르게 생성, 복잡한 작업 심층 추론, 효율성과 정확성을 고려합니다. "생각"태그를 제거하기위한 계획 중심 추론 패러다임, 감소 ...
유다오 리틀 P는 넷이즈 유다오에서 출시한 AI 전과목 학습 도우미로, 초등학교, 중학교, 고등학교 전과목 Q&A를 다루고 개인화된 학습 조언을 제공하는 유다오 즈이 교육 빅 모델을 탑재하여 초중고 학생들을 위해 설계되었습니다. 인공지능 단어 검색 및 인공지능 번역 기능을 갖춘 Youdao Little P는 학생들이 언어 문제를 빠르게 해결할 수 있도록 도와줍니다.
DeckSpeed는 대화형 상호작용을 기반으로 하는 AI 프레젠테이션 제작 도구로, 사용자가 자연어를 기반으로 자신의 요구를 표현하여 기존 템플릿에 의존하지 않고도 개인화된 슬라이드를 빠르게 생성할 수 있습니다. 이 도구는 실시간 피드백 조정을 지원하며, 사용자는 언제든지 슬라이드의 색상, 스타일, 내용을 수정하여 프레젠테이션을 완성할 수 있습니다.
후위안 월드-보이저(줄여서 후위안 보이저)는 텐센트에서 출시한 업계 최초의 초장거리 로밍 월드 모델로, 네이티브 3D 재구성을 지원합니다. 단일 이미지에서 사용자 정의 카메라 경로의 3D 포인트 클라우드 시퀀스를 생성하는 새로운 비디오 확산 프레임워크로, 다음을 지원합니다.
InternVLA-A1은 상하이 인공 지능 연구소에서 오픈소스로 제공하는 대규모 구현 작업 모델입니다. 통합을 이해하고, 상상하고, 실행할 수 있는 능력을 갖추고 있으며, 작업을 정확하게 완료할 수 있습니다. 이 모델은 실제 및 시뮬레이션 운영 데이터를 융합하고 대규모 가상-실제 하이브리드 장면 에셋을 통해 대규모 멀티모달 구축을 자동화합니다.
OpenReasoning-Nemotron은 수학, 과학 및 코드에서 추론 작업의 처리를 지원하기 위해 NVIDIA에서 오픈 소스화한 일련의 대규모 언어 모델입니다. 이 모델은 15억 개의 매개변수 스케일을 가진 DeepSeek R1 0528 모델을 기반으로 증류되었습니다....
Qwen3-Max-Preview는 통이췐웬에서 출시한 최신 플래그십 대형 언어 모델입니다. Qwen3 제품군에서 가장 많은 파라미터를 가진 모델로, 파라미터 크기가 1조 개가 넘습니다. 이 모델은 추론, 명령어 추종, 다국어 지원 및 롱테일 지식 범위에서 상당한 개선을 이루었습니다...
Skywork-SWE-32B는 쿤룬 월드와이드웹에서 도입한 오픈 소스 32B 규모의 소프트웨어 엔지니어링(SWE) 자율 코드 인텔리전스 기본 모델입니다. 이 모델은 소프트웨어 엔지니어링 작업에 초점을 맞추고 강력한 저장소 수준의 코드 복구 기능을 갖추고 있으며 다단계 상호 작용 및 긴 텍스트 처리가 있는 복잡한 시나리오에서 수행할 수 있습니다.
하이프노트는 사용자의 개인정보를 보호하고 회의 효율성을 개선하기 위해 전문가를 위해 설계된 로컬 우선의 오픈 소스 AI 회의 노트 필기 도구입니다. '로컬 우선' 원칙을 채택하여 모든 데이터 저장과 처리가 사용자의 로컬 장치에서 이루어지므로 데이터 보안을 보장하고 오프라인 작업을 지원합니다.
AntSK FileChunk는 RAG(검색 증강 생성) 애플리케이션을 위해 설계된 무료 지능형 문서 슬라이싱 도구입니다. 시맨틱을 핵심으로 하여 문서를 의미적으로 완전하고 일관된 세그먼트로 지능적으로 슬라이스하고, 다국어를 지원하며, 슬라이스 크기를 동적으로 조정하여 문맥의 일관성을 보장합니다.
웬신 빅 모델 X1.1은 언어 이해와 생성을 개선하는 데 중점을 둔 하이브리드 강화 학습 프레임워크를 기반으로 바이두에서 출시한 심층 사고 모델입니다. 이 모델은 복잡한 질문을 처리하고, 지시를 따르고, 지능의 행동을 시뮬레이션하는 데 탁월하며, 지식이 풍부한 답변과 고품질 텍스트 콘텐츠를 정확하게 제공할 수 있습니다.
샤오미 미모 오디오는 다국어 대화, 음성 연속, 적은 샘플 일반화 및 오디오 이해와 같은 강력한 기능을 갖춘 샤오미의 오픈 소스 70억 개 파라미터 엔드투엔드 음성 매크로 모델로, 음성 지능 및 오디오 이해 벤치마크에서 구글 제미를 능가하는 SOTA 레벨에 도달할 수 있습니다.
Lumina-DiMOO는 세계 인공지능 컨퍼런스 2025에서 화웨이 라이즈와 함께 상하이 인공 지능 연구소(AIL)가 출시한 차세대 멀티모달 생성 및 이해를 위한 통합 모델입니다. Rise AI 기본 하드웨어 및 소프트웨어 플랫폼과 MindSpeed MM 멀티모달 대형 모델 제품군을 기반으로 ...
SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. SoulX-Podcast는 여러 차례의 대화를 생성할 수 있으며 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어 및 여러 개의 중국어를 지원합니다.
NeuTTS Air는 Neuphonic 팀이 개발한 오픈 소스 경량 음성 합성 모델로, 클라우드에 의존하지 않고 로컬 장치(예: 휴대폰, 노트북, 라즈베리파이)에서 실시간으로 실행할 수 있습니다. 0.5B 매개변수 Qwen 아키텍처와 자체 개발한 NeuCodec 코덱 사용...
InternVLA-N1은 상하이 인공 지능 연구소에서 오픈소스화한 엔드투엔드 듀얼 시스템 내비게이션 매크로 모델입니다. 이중 시스템 아키텍처를 사용하여 시스템 2는 언어 명령을 이해하고 장거리 경로를 계획하고, 시스템 1은 고주파 응답과 민첩한 장애물 회피에 중점을 둡니다. 이 모델은 전적으로 대규모 디지털을 통한 합성 데이터를 기반으로 훈련됩니다.
플라이카운트 자바AI는 플라이카운트 테크놀로지에서 출시한 지능형 자바 개발 어시스턴트입니다. 이 플랫폼은 자연어 입력을 지원하여 요구사항 분석부터 코드 생성까지 지능형 개발의 전 과정을 지원합니다. 개발자는 요구 사항에 대한 설명만 입력하면 Flycount JavaAI가 완전한 엔지니어링 코드 프레임워크인 플랫폼을 정확하게 이해하고 생성할 수 있습니다.
Youtu-GraphRAG는 대규모 언어 모델이 복잡한 Q&A 작업을 보다 정확하게 처리할 수 있도록 지원하는 텐센트 유투 연구소의 오픈 소스 그래프 검색 증강 생성 프레임워크입니다. 4계층 지식 트리를 구성하여 지식을 속성, 관계, 키워드 및 커뮤니티의 네 가지 수준으로 분해하여 행위의 자기 숙달에 대한 교차 도메인 지식을 달성합니다....
제로서치는 알리바바 통이랩의 오픈소스 혁신적 대형 모델 검색 엔진 프레임워크입니다. 이 프레임 워크는 검색 엔진의 시뮬레이션을 기반으로 실제 검색 엔진과 상호 작용할 필요가 없으며 자체 사전 학습 지식의 대규모 모델을 사용하여 관련 문서 또는 노이즈 문서를 생성하여 교육 비용을 크게 줄입니다 (80% 이상 감소 ...
종합 소개 Meiman은 주택 디자인 및 마케팅 협상에 중점을 둔 온라인 플랫폼입니다. 이 사이트는 디자이너와 주택 소유주가 고품질 디자인 제안서를 신속하게 생성할 수 있도록 풍부한 디자인 자료, 소프트 퍼니싱 및 제안서 PPT 템플릿, 포스터 템플릿 등을 제공합니다. 메이만의 온라인 소프트 퍼니싱 디자인 도구는 단 10초 만에 사용할 수 있습니다 ...
네오베이트 코드는 앤트그룹 알리페이 경험 기술 부서의 오픈소스 지능형 프로그래밍 도우미로, 인공지능 기술을 통해 개발 효율성을 향상시킵니다. 대화형 개발 기능을 통해 개발자는 자연어를 통해 요구 사항을 설명할 수 있으며, Neovate Code는 이를 이해하고 해당 세대를 생성할 수 있습니다.
FLM-Audio는 베이징 즈위안 인공지능 연구소가 스핀 매트릭스 및 싱가포르 난양 공과대학교와 함께 출시한 네이티브 전이중 오디오 대화 매크로 모델로, 중국어와 영어를 모두 지원합니다. 네이티브 전이중 아키텍처를 채택하여 각 시간 단계에서 듣기, 말하기 및 독백을 병합 할 수 있습니다 ...
Code2Video는 코드 스니펫을 고품질 비디오 콘텐츠(MP4 형식)로 자동 변환하는 혁신적인 오픈 소스 프로젝트입니다. 독특한 코드 중심 패러다임을 통한 이 프로젝트는 탄소-now-cli 도구를 사용하여 코드를 아름다운 이미지로 생성하고, ffmpeg를 사용합니다 ...
미니맥스 뮤직 1.5는 사용자의 자연어 설명을 기반으로 최대 4분 분량의 음악 생성을 지원하는 고급 AI 음악 생성 도구입니다. 이 모델은 다양한 음악 스타일과 분위기 사용자 지정을 지원하며 자연스럽고 완전한 보컬 톤, 부드러운 전환 및 풍부한 레이어 편곡을 생성합니다....
모비에이전트는 상하이교통대학교 IPADS 연구소의 오픈 소스 모바일 지능형 바디 툴 체인으로, 사용자가 자신만의 모바일 지능형 비서를 구축할 수 있도록 도와줍니다. 사용자의 동작 궤적을 기록하고 고품질 데이터를 생성하여 자연어 명령을 이해할 수 있는 지능형 바디를 훈련시킵니다. 핵심 기능에는 효율적인...
원캣은 메이투안이 상하이교통대학교와 함께 출시한 새로운 통합 멀티모달 모델로, 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집 기능을 원활하게 통합하는 순수 디코더 아키텍처를 채택하고 있습니다. 이 모델은 외부 시각 코더와 모달리티별 디스모게이터에 의존하는 기존 멀티모달 모델의 설계를 버리고 모달리티별 ...
Hunyuan-MT-7B는 텐센트 혼합 메타 팀이 도입한 경량 번역 모델로 70억 개의 레퍼런스를 보유하고 있으며 광둥어, 위구르어, 티베트어를 포함한 33개 언어와 5개 중국 민속 언어/방언의 상호 번역을 지원합니다. 국제 컴퓨터 언어학 협회(ACL) WMT2025 대회에서...
Ask White o4는 8개의 사고 경로를 동시에 열어 여러 관점에서 문제를 분석하고 최적의 해결책을 자동으로 필터링하는 혁신적인 병렬 사고 모델입니다. 이 모델은 고급 Long-CoT 강화 학습 및 프로세스 보상 학습 기법을 통합하고 강력한 심층 추론 기능을 갖추고 있으며 복잡한 작업에서 뛰어난 성능을 발휘합니다.
바나나 슬라이드는 자연어 명령을 사용해 전문적인 프레젠테이션을 빠르게 만들 수 있도록 지원하는 나노 바나나 프로 AI 모델을 기반으로 하는 오픈 소스 지능형 PPT 생성기입니다. 사용자가 주제를 한 문장(예: "인간이 생태계에 미치는 영향")으로 설명할 수 있으며, 이는 스스로 할 수 있습니다.
TRELLIS.2는 40억 개의 파라미터를 갖춘 Microsoft의 오픈 소스 대규모 3D 생성 모델로, 고충실도 이미지에서 3D 생성에 중점을 두고 있습니다. 혁신적인 "O-Voxel"스파 스 복셀 구조를 사용하여 복잡한 토폴로지와 날카로운 특징을 효율적으로 처리하여 전체 PBR 재료로 고품질 3D 정보를 생성 할 수 있습니다 ...
텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5는 1.8B와 7B 두 가지 모델을 포함하여 33 개 국제 언어와 5 가지 중국어 및 중국어 / 방언 번역을 지원하는 텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5입니다.1.8B 모델은 휴대 전화 및 기타 소비자 등급 장치에 특별히 최적화되어 있으며 1GB의 RAM 만 얻을 수 있습니다.
rStar2-Agent는 Microsoft에서 오픈소스로 제공하는 고급 AI 수학적 추론 모델로, AIME24 테스트에서 80.61 TP3T의 정확도를 달성하여 강력한 수학적 문제 해결 능력을 입증했습니다. 이 모델은 과학적 추론 기능을 갖추고 있으며, GPQA-Diamond 벤치마크에서 ...
스텝스 딥 리서치는 스텝스 스타에서 출시한 효율적인 인공지능 리서치 도구로, 복잡한 이슈에 대한 리서치를 자율적으로 완료하고 단기간에 전문적인 보고서를 생성할 수 있습니다. 이 도구는 금융, 컨설팅, 의료, 법률 및 기타 분야를 위해 설계되었으며 심층적인 검색 및 정보 통합 기능으로 업계에서 뛰어난 평가를 받고 있습니다.
완2.2-애니메이트는 통이완샹의 오픈 소스 액션 생성 모델로, 액션 모방과 롤플레잉의 두 가지 모드를 지원합니다. 사용자는 캐릭터 사진과 참조 비디오 만 입력하면 모델이 비디오 캐릭터의 움직임과 표정을 그림 캐릭터로 마이그레이션하여 그림 캐릭터에 역동적 인 표현을 제공 할 수 있습니다 ...
DiaMoE-TTS는 방언 데이터 부족, 직교 불일치, 복잡한 음운 변화 문제를 해결하기 위해 칭화대학교와 거대 네트워크가 공동으로 오픈소스화한 다중 방언 음성 합성 프레임워크로, 국제 음성 알파벳(IPA)을 기반으로 합니다. 통합된 IPA 프런트엔드 표준화된 음소 표현을 통해 방언 간 차이를 제거하여 ...
스탠드인(Stand-In)은 텐센트 WeChat 비전 팀이 개발한 가벼운 플러그 앤 플레이 방식의 신원 보존 동영상 생성 프레임워크입니다. 동영상 생성 시 특정 신원 특징을 보존하는 데 초점을 맞춘 이 프레임워크는 기본 모델 1%의 추가 파라미터만 학습하면 얼굴 유사성과 자연스러움에서 탁월한 결과를 얻을 수 있습니다.
Qwen-Image-Layered는 Ali 팀의 오픈 소스 AI 이미지 편집 모델로, 일반 이미지를 독립적인 투명 레이어로 지능적으로 분해하여 포토샵과 같은 정밀 편집을 구현합니다. 이 모델은 Apache 2.0 프로토콜을 사용하여 오픈 소스이며 유연한 레이어 제어를 지원합니다....
XTuner V1은 상하이 인공 지능 연구소에서 오픈 소스화한 차세대 대규모 모델 훈련 엔진으로, 초대형 스파스 혼합 전문가(MoE) 모델 훈련을 위해 설계되었습니다. PyTorch FSDP를 기반으로 개발된 이 엔진은 메모리, 통신 및 로드의 다차원 최적화를 통해 고성능을 달성합니다.
송블룸은 홍콩 중문대학교(선전) 및 난징대학교와 협력하여 Tencent AI Lab에서 개발한 오픈 소스 노래 생성 모델로, AI 음악 생성의 '가소성' 문제를 해결하고 구조적으로 완벽한 고품질의 노래를 생성할 수 있습니다. 10초 분량의 레퍼런스 오디오와 해당 가사를 입력하기만 하면...
밍유니오디오는 텍스트, 오디오, 이미지, 비디오의 혼합 입력 및 출력을 지원하는 Ant Group의 오픈 소스 통합 오디오 멀티모달 생성 모델입니다. 멀티스케일 트랜스포머 및 혼합 전문가(MoE) 아키텍처를 사용하여 모달 인식 라우팅 메커니즘을 통해 크로스 모달을 효율적으로 처리합니다.
드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리할 수 있으며, 여러 참조 이미지를 지원하여 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 이 모델은 3단계 데이터 합성 프로세스, 공동 학습 생성/편집을 통해 훈련됩니다.
VoxCPM 1.5는 Facade Intelligence에서 출시한 오픈 소스 음성 생성 모델로, 스플리터 없이 텍스트 음성 변환(TTS) 기술을 기반으로 몇 가지 혁신과 개선 사항을 적용했습니다. 엔드 투 엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 파형을 생성하므로 기존 세분화 방법의 한계를 피할 수 있습니다....
MiniCPM 4.1은 Facade Intelligence에서 도입한 매우 효율적인 엔드 사이드 대규모 언어 모델입니다. InfLLM v2 희소주의 아키텍처를 사용하면 각 어휘는 5% 미만의 어휘와의 상관관계만 계산하면 되므로 긴 텍스트의 처리 오버헤드를 크게 줄일 수 있습니다. 128K의 긴 텍스트 시나리오에서...