최신 AI 리소스

共 2985 篇文章
QVQ-Max - 阿里通义推出视觉推理模型

QVQ-Max - 알리 통이, 시각적 추론 모델 출시

QVQ-Max는 이미지와 비디오 콘텐츠를 "읽기"하고 분석 및 문제 해결을 위한 정보와 결합할 수 있는 알리토닉스의 최첨단 시각 추론 모델로, QVQ-72B-Preview의 업그레이드 버전입니다. QVQ-Max는 이미지 및 비디오 콘텐츠를 "읽기"하고 분석, 추론 및 문제 해결을 위해 정보를 결합할 수 있는 QVQ-72B-Preview의 업그레이드 버전입니다.QVQ-Max의 주요 기능에는 이미지 구문 분석, 비디오 분석 및 ...
9개월 전
039.8K
Ovis-U1 - 阿里推出的多模态统一AI模型

Ovis-U1 - Ali에서 출시한 멀티모달 통합 AI 모델

Ovis-U1은 알리바바 그룹의 Ovis 팀이 30억 개의 매개변수 규모로 도입한 멀티모달 통합 모델입니다. 이 모델은 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집의 세 가지 핵심 기능을 갖추고 있으며 고급 아키텍처 설계와 협업 및 통합 교육 방법을 통해 고충실도 이미지 구현을 지원합니다.
9개월 전
039.7K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型

Qwen VLo - 통이 첸첸의 통합된 멀티모달 이해 및 생성 모델

Qwen VLo는 통이 첸첸 팀이 도입한 멀티모달 통합 이해 및 생성 모델입니다. Qwen VLo는 세계를 '이해'하고 그 이해를 바탕으로 고품질로 재창조하여 인식에서 생성으로의 도약을 실현할 수 있습니다. VLo는 이미지의 내용을 정확하게 이해할 수 있으며, 이를 바탕으로 일관되고 고품질의 생성을 수행할 수 있습니다.
9개월 전
039.7K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - Wisdom Spectrum AI 오픈 소스의 최신 세대 플래그십 대형 모델

GLM-4.7은 AI 프로그래밍, 복잡한 추론 및 지능형 신체 작업에 심도 있게 최적화된 스마트 스펙트럼 AI에서 출시하고 오픈소스로 제공하는 최신 플래그십 그랜드 모델입니다. 이 모델은 다국어 코딩, 장거리 작업 계획 및 도구 협업 기능을 통해 200k 컨텍스트 길이와 최대 128k 출력을 지원합니다....
3 개월 전
039.6K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具

아내가 나에게 소리를 지르는 이유: 부부 의사소통 모델링을 위한 대화형 도구

일반 소개 "아내가 나에게 소리치는 이유"는 인공지능을 통해 파트너의 감정 반응과 의사소통 패턴을 이해할 수 있도록 설계된 독특한 결혼 관계 시뮬레이션 웹사이트입니다. 사용자는 다양한 시나리오를 입력하고 가상 파트너의 반응을 경험하며 실제와 같은 시뮬레이션을 할 수 있습니다.
11개월 전
039.5K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - 완벽한 창작 과정을 위한 무료 AI 만화 제작 도구!

AIMangaStudio는 창작자에게 줄거리 생성, 서브 장면 디자인, 캐릭터 설정 및 기타 기능을 포함한 완벽한 만화 제작 파이프라인을 제공하는 무료 AI 만화 제작 도구로, 스크립트에서 만화 페이지까지 제작 프로세스를 간소화할 수 있습니다. 줄거리, 대사를 포함한 만화 대본의 자연어 생성을 지원합니다.
5개월 전
039.5K
万兴天幕 – 万兴科技推出AIGC视频创作平台

완싱 캐노피 - 완싱 테크놀로지, AIGC 비디오 제작 플랫폼 출시

완싱 캐노피는 완싱 테크놀로지가 출시한 AIGC 동영상 제작 플랫폼으로, 동영상, 사진, 오디오 생성의 3대 창작 분야를 다루며 미디어 및 문화 산업 종사자, 영화 및 텔레비전/포스트 프로덕션 종사자, 예술 및 디자인 종사자, 광고 및 마케팅 실무자 등을 위해 특별히 설계되어 원스톱 전문 창작 솔루션을 제공합니다.
9개월 전
039.3K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台

우아한 요야 - 시노텍 윙코가 출시한 AI 오디오 및 비디오 콘텐츠 제작 플랫폼

우아한 요야는 중커 웬지가 출시한 멀티모달 리터러티브 비디오 플랫폼으로, AI 멀티모달 기술을 기반으로 비디오 콘텐츠 제작의 전체 체인을 강화합니다. 사용자는 테마 요구 사항 만 입력하면 플랫폼에서 스크립트, 이미지, 비디오를 빠르게 생성 할 수 있으며 지능형 편집, 음성 합성 및 캐릭터 입 드라이브 및 기타 작업, 출력을 완료 할 수 있습니다 ...
9개월 전
039.2K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfei 오픈 소스 텍스트 생성 사운드 AI 모델

AudioFly는 텍스트에서 음향 효과를 생성하기 위한 오픈 소스 AI 모델입니다. 10억 개의 파라미터가 포함된 잠재적 확산 모델 아키텍처를 기반으로 AudioSet, AudioCaps, TUT 및 내부 데이터 세트와 같은 대규모의 다양한 오디오 텍스트 데이터 세트에 대해 학습된 모델입니다.
6개월 전
039.1K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型

Gemini 2.5 Deep Think - Google의 AI 추론 모델

Gemini 2.5 Deep Think는 복잡한 작업을 해결하기 위해 설계된 Google의 AI 추론 모델입니다. 2025년 국제 수학 올림피아드(IMO)에서 금메달을 획득한 모델의 변형으로, 병렬을 통해 복잡한 작업을 해결하도록 설계되었습니다 ...
7개월 전
039.1K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 모델 지침이 루브릭 세트를 따르는 능력에 대한 Meeseeks 오픈 소스 평가

미즈윅스는 메이퇀의 M17 팀이 모델의 지시를 따르는 능력을 평가하기 위해 사용하는 오픈 소스 대규모 모델 평가 세트입니다.미즈윅스는 3단계 평가 프레임워크를 사용하여 모델이 매크로에서 마이크로 수준까지 사용자의 지시에 따라 답변을 생성할 수 있는지 종합적으로 측정하며 답변 내용에 대한 지식은 긍정적으로 평가하지 않습니다.
7개월 전
039.1K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议

JobTech AI 이력서 - 문제를 정확하게 분석하고 최적화 제안을 제공하는 AI 이력서 생성 및 최적화 플랫폼입니다.

Job AI 이력서는 효율적이고 편리한 지능형 이력서 생성 및 최적화 플랫폼입니다. 이 플랫폼은 AI 기술을 기반으로 사용자가 전문적이고 개인화된 이력서를 빠르게 생성할 수 있도록 도와줍니다. 사용자는 기본 정보와 경력만 입력하면 다양한 직무를 포괄하는 2800개 이상의 아름다운 템플릿을 제공하여 단시간에 고품질의 이력서를 생성할 수 있습니다.
9개월 전
038.7K
Logics-Parsing - 阿里开源的文档解析模型

논리 구문 분석 - Ali 오픈 소스 문서 구문 분석 모델

논리 구문 분석은 Qwen2.5-VL-7B를 기반으로하는 Ali 오픈 소스 엔드 투 엔드 문서 구문 분석 모델입니다. 강화 학습을 통해 문서 레이아웃 분석 및 읽기 순서 추론을 최적화하고 PDF 이미지를 구조화 된 HTML 출력으로 변환하고 다양한 콘텐츠를 지원할 수 있습니다 ...
5개월 전
038.7K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - 쿤룬왕웨이의 오디오 기반 디지털 휴먼 제작 도구

SkyReels-A3는 쿤룬 월드 와이드 그룹의 오디오 기반 디지털 휴먼 제작 툴입니다. SkyReels-A3는 오디오 기반 디지털 휴먼 제작 도구로, 간단한 입력(예: 인물 이미지 및 음성)을 통해 고품질의 동적 비디오 콘텐츠를 생성하고, 정적인 사진을 '생동감 있게' 만들고, 기존 비디오의 대사를 캐릭터가 자동으로 일치하는 새로운 립싱크로 대체할 수 있습니다....
7개월 전
038.7K
MindLink - 昆仑万维推出的开源推理大模型

MindLink - 쿤룬웨이의 오픈 소스 추론 빅 모델

마인드링크는 쿤룬 월드와이드웹에서 출시한 오픈소스 추론의 대규모 모델입니다. 적응 형 추론 메커니즘을 통해 작업의 복잡성에 따라 유연한 전환 추론 모드, 간단한 작업 빠르게 생성, 복잡한 작업 심층 추론, 효율성과 정확성을 고려합니다. "생각"태그를 제거하기위한 계획 중심 추론 패러다임, 감소 ...
7개월 전
038.7K
有道小P - 网易有道推出的新一代AI全科学习助手

Youdao Xiao P - 넷이즈 유다오가 출시한 차세대 AI 일반 학습 도우미

유다오 리틀 P는 넷이즈 유다오에서 출시한 AI 전과목 학습 도우미로, 초등학교, 중학교, 고등학교 전과목 Q&A를 다루고 개인화된 학습 조언을 제공하는 유다오 즈이 교육 빅 모델을 탑재하여 초중고 학생들을 위해 설계되었습니다. 인공지능 단어 검색 및 인공지능 번역 기능을 갖춘 Youdao Little P는 학생들이 언어 문제를 빠르게 해결할 수 있도록 도와줍니다.
9개월 전
038.6K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿

DeckSpeed - AI PPT 메이커, 자연어 생성 프레젠테이션

DeckSpeed는 대화형 상호작용을 기반으로 하는 AI 프레젠테이션 제작 도구로, 사용자가 자연어를 기반으로 자신의 요구를 표현하여 기존 템플릿에 의존하지 않고도 개인화된 슬라이드를 빠르게 생성할 수 있습니다. 이 도구는 실시간 피드백 조정을 지원하며, 사용자는 언제든지 슬라이드의 색상, 스타일, 내용을 수정하여 프레젠테이션을 완성할 수 있습니다.
9개월 전
038.5K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 상하이 AI 랩, 대형 모델 구현을 위한 운영 기능의 오픈 소스 통합

InternVLA-A1은 상하이 인공 지능 연구소에서 오픈소스로 제공하는 대규모 구현 작업 모델입니다. 통합을 이해하고, 상상하고, 실행할 수 있는 능력을 갖추고 있으며, 작업을 정확하게 완료할 수 있습니다. 이 모델은 실제 및 시뮬레이션 운영 데이터를 융합하고 대규모 가상-실제 하이브리드 장면 에셋을 통해 대규모 멀티모달 구축을 자동화합니다.
6개월 전
038.5K
FactSnap - 新一代AI信息核查工具

팩트스냅 - 차세대 AI 정보 검증 도구

팩트스냅은 사용자가 웹 정보의 진위 여부를 빠르게 확인할 수 있도록 도와주는 차세대 AI 정보 검증 도구입니다. 여러 모델과 검색 엔진을 통합하여 사용자가 웹을 탐색하는 동안 선택한 텍스트에 대한 실시간 검증을 수행합니다.
9개월 전
038.4K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - 통이 첸첸의 플래그십 빅 언어 모델

Qwen3-Max-Preview는 통이췐웬에서 출시한 최신 플래그십 대형 언어 모델입니다. Qwen3 제품군에서 가장 많은 파라미터를 가진 모델로, 파라미터 크기가 1조 개가 넘습니다. 이 모델은 추론, 명령어 추종, 다국어 지원 및 롱테일 지식 범위에서 상당한 개선을 이루었습니다...
6개월 전
038.3K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

Skywork-SWE-32B - 쿤룬완웨이 오픈 소스 자율 코드 지능형 바디 기본 모델

Skywork-SWE-32B는 쿤룬 월드와이드웹에서 도입한 오픈 소스 32B 규모의 소프트웨어 엔지니어링(SWE) 자율 코드 인텔리전스 기본 모델입니다. 이 모델은 소프트웨어 엔지니어링 작업에 초점을 맞추고 강력한 저장소 수준의 코드 복구 기능을 갖추고 있으며 다단계 상호 작용 및 긴 텍스트 처리가 있는 복잡한 시나리오에서 수행할 수 있습니다.
9개월 전
038.2K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI Agent

CRIC - 중국 최초의 부동산 AI 에이전트, CRIC 출시

CRIC 뎁스 인텔리전스는 CRIC가 독자적으로 개발한 중국 부동산 최초의 AI 지능체로, 부동산 업계에서 20년간 축적한 CRIC의 경험과 데이터, 멀티모달 대형 모델 기술을 바탕으로 데이터 통합, 지능형 분석, 콘텐츠 생성에 이르는 전체 사슬을 열어줍니다.
9개월 전
037.9K
Hyprnote - 开源的本地优先AI会议笔记工具

하이프노트 - 오픈 소스 로컬 최초의 AI 회의 노트 필기 도구

하이프노트는 사용자의 개인정보를 보호하고 회의 효율성을 개선하기 위해 전문가를 위해 설계된 로컬 우선의 오픈 소스 AI 회의 노트 필기 도구입니다. '로컬 우선' 원칙을 채택하여 모든 데이터 저장과 처리가 사용자의 로컬 장치에서 이루어지므로 데이터 보안을 보장하고 오프라인 작업을 지원합니다.
6개월 전
037.8K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - 무료 AI 시맨틱 문서 슬라이싱 도구, 동적 슬라이싱 조정

AntSK FileChunk는 RAG(검색 증강 생성) 애플리케이션을 위해 설계된 무료 지능형 문서 슬라이싱 도구입니다. 시맨틱을 핵심으로 하여 문서를 의미적으로 완전하고 일관된 세그먼트로 지능적으로 슬라이스하고, 다국어를 지원하며, 슬라이스 크기를 동적으로 조정하여 문맥의 일관성을 보장합니다.
6개월 전
037.8K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

웬신 빅 모델 X1.1 - 더 나은 이해를 위한 바이두의 딥씽킹 모델

웬신 빅 모델 X1.1은 언어 이해와 생성을 개선하는 데 중점을 둔 하이브리드 강화 학습 프레임워크를 기반으로 바이두에서 출시한 심층 사고 모델입니다. 이 모델은 복잡한 질문을 처리하고, 지시를 따르고, 지능의 행동을 시뮬레이션하는 데 탁월하며, 지식이 풍부한 답변과 고품질 텍스트 콘텐츠를 정확하게 제공할 수 있습니다.
6개월 전
037.7K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

샤오미 미모 오디오 - 샤오미 오픈 소스 최초의 네이티브 엔드투엔드 음성 빅 모델

샤오미 미모 오디오는 다국어 대화, 음성 연속, 적은 샘플 일반화 및 오디오 이해와 같은 강력한 기능을 갖춘 샤오미의 오픈 소스 70억 개 파라미터 엔드투엔드 음성 매크로 모델로, 음성 지능 및 오디오 이해 벤치마크에서 구글 제미를 능가하는 SOTA 레벨에 도달할 수 있습니다.
6개월 전
037.5K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Lab의 오픈 소스 대화형 음성 합성 모델

SoulX-Podcast는 고품질 팟캐스트 콘텐츠 생성을 위해 설계된 Soul AI Lab의 오픈 소스 고급 다중 화자 대화 음성 합성 모델입니다. SoulX-Podcast는 여러 차례의 대화를 생성할 수 있으며 실제 팟캐스트 시나리오에서 원활한 대화를 시뮬레이션할 수 있으며 중국어, 영어 및 여러 개의 중국어를 지원합니다.
5개월 전
037.4K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 상하이 AI 랩 오픈 소스 엔드투엔드 듀얼 시스템 내비게이션 대형 모델

InternVLA-N1은 상하이 인공 지능 연구소에서 오픈소스화한 엔드투엔드 듀얼 시스템 내비게이션 매크로 모델입니다. 이중 시스템 아키텍처를 사용하여 시스템 2는 언어 명령을 이해하고 장거리 경로를 계획하고, 시스템 1은 고주파 응답과 민첩한 장애물 회피에 중점을 둡니다. 이 모델은 전적으로 대규모 디지털을 통한 합성 데이터를 기반으로 훈련됩니다.
6개월 전
037.1K
Wide Research - Manus平台推出的多智能体协同功能

광범위한 연구 - Manus 플랫폼에 다중 지능 협업 도입

와이드 리서치는 복잡하고 대규모 작업을 처리하도록 설계된 마누스 플랫폼의 강력한 기능입니다. 이 플랫폼은 시스템 수준의 병렬 처리 메커니즘과 인텔리전스 협업 프로토콜을 통해 수백 개의 범용 인텔리전스가 동시에 작업할 수 있도록 지원합니다.
8개월 전
037K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发

Flycount JavaAI - 지능형 개발의 전 과정을 자연어로 구현하는 AI Java 개발 도우미입니다.

플라이카운트 자바AI는 플라이카운트 테크놀로지에서 출시한 지능형 자바 개발 어시스턴트입니다. 이 플랫폼은 자연어 입력을 지원하여 요구사항 분석부터 코드 생성까지 지능형 개발의 전 과정을 지원합니다. 개발자는 요구 사항에 대한 설명만 입력하면 Flycount JavaAI가 완전한 엔지니어링 코드 프레임워크인 플랫폼을 정확하게 이해하고 생성할 수 있습니다.
9개월 전
037K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - 텐센트 유투 랩의 오픈 소스 그래프 검색 증강 생성 프레임워크

Youtu-GraphRAG는 대규모 언어 모델이 복잡한 Q&A 작업을 보다 정확하게 처리할 수 있도록 지원하는 텐센트 유투 연구소의 오픈 소스 그래프 검색 증강 생성 프레임워크입니다. 4계층 지식 트리를 구성하여 지식을 속성, 관계, 키워드 및 커뮤니티의 네 가지 수준으로 분해하여 행위의 자기 숙달에 대한 교차 도메인 지식을 달성합니다....
6개월 전
036.8K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

제로서치 - 알리 통이, 오픈 소스 빅 모델 검색 엔진 프레임워크 출시

제로서치는 알리바바 통이랩의 오픈소스 혁신적 대형 모델 검색 엔진 프레임워크입니다. 이 프레임 워크는 검색 엔진의 시뮬레이션을 기반으로 실제 검색 엔진과 상호 작용할 필요가 없으며 자체 사전 학습 지식의 대규모 모델을 사용하여 관련 문서 또는 노이즈 문서를 생성하여 교육 비용을 크게 줄입니다 (80% 이상 감소 ...
9개월 전
036.6K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

키미 리니어 - 달의 어두운 면에 오픈소스화된 새로운 하이브리드 선형 주의 아키텍처

키미 리니어는 다크 사이드 오브 더 문에서 오픈소스화한 새로운 하이브리드 선형 주의 아키텍처로, 키미 델타 어텐션(KDA)을 핵심으로 하며, 세밀한 게이팅 메커니즘을 통해 기존 주의 모델을 최적화하여 하드웨어 효율성과 메모리 제어 능력을 크게 향상시킵니다....
5개월 전
036.5K
美间:在线软装(家装)设计工具,快速生成设计方案,软装辅助AI工具箱

메이만: 온라인 소프트 퍼니싱(홈 퍼니싱) 디자인 도구, 신속한 디자인 솔루션 생성, 소프트 퍼니싱 보조 AI 툴킷

종합 소개 Meiman은 주택 디자인 및 마케팅 협상에 중점을 둔 온라인 플랫폼입니다. 이 사이트는 디자이너와 주택 소유주가 고품질 디자인 제안서를 신속하게 생성할 수 있도록 풍부한 디자인 자료, 소프트 퍼니싱 및 제안서 PPT 템플릿, 포스터 템플릿 등을 제공합니다. 메이만의 온라인 소프트 퍼니싱 디자인 도구는 단 10초 만에 사용할 수 있습니다 ...
9개월 전
036.5K
Neovate Code - 蚂蚁开源的智能编程助手

네오베이트 코드 - Ant 오픈소스의 지능형 프로그래밍 도우미

네오베이트 코드는 앤트그룹 알리페이 경험 기술 부서의 오픈소스 지능형 프로그래밍 도우미로, 인공지능 기술을 통해 개발 효율성을 향상시킵니다. 대화형 개발 기능을 통해 개발자는 자연어를 통해 요구 사항을 설명할 수 있으며, Neovate Code는 이를 이해하고 해당 세대를 생성할 수 있습니다.
6개월 전
036.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 위즈덤소스가 남양기술연구소(NTI)와 협력하여 오픈소스화한 전이중 오디오 대화 모델(FLM-Audio)

FLM-Audio는 베이징 즈위안 인공지능 연구소가 스핀 매트릭스 및 싱가포르 난양 공과대학교와 함께 출시한 네이티브 전이중 오디오 대화 매크로 모델로, 중국어와 영어를 모두 지원합니다. 네이티브 전이중 아키텍처를 채택하여 각 시간 단계에서 듣기, 말하기 및 독백을 병합 할 수 있습니다 ...
6개월 전
036.1K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

미니막스 뮤직 1.5 - 미니막스의 최신 AI 음악 생성 모델!

미니맥스 뮤직 1.5는 사용자의 자연어 설명을 기반으로 최대 4분 분량의 음악 생성을 지원하는 고급 AI 음악 생성 도구입니다. 이 모델은 다양한 음악 스타일과 분위기 사용자 지정을 지원하며 자연스럽고 완전한 보컬 톤, 부드러운 전환 및 풍부한 레이어 편곡을 생성합니다....
6개월 전
035.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 상하이교통대학교 오픈 소스 모바일 인텔리전트 바디 풀스택 구축 프레임워크

모비에이전트는 상하이교통대학교 IPADS 연구소의 오픈 소스 모바일 지능형 바디 툴 체인으로, 사용자가 자신만의 모바일 지능형 비서를 구축할 수 있도록 도와줍니다. 사용자의 동작 궤적을 기록하고 고품질 데이터를 생성하여 자연어 명령을 이해할 수 있는 지능형 바디를 훈련시킵니다. 핵심 기능에는 효율적인...
6개월 전
035.8K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - 메이퇀과 상하이교통대학교를 위한 오픈 소스 멀티모달 모델

원캣은 메이투안이 상하이교통대학교와 함께 출시한 새로운 통합 멀티모달 모델로, 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집 기능을 원활하게 통합하는 순수 디코더 아키텍처를 채택하고 있습니다. 이 모델은 외부 시각 코더와 모달리티별 디스모게이터에 의존하는 기존 멀티모달 모델의 설계를 버리고 모달리티별 ...
6개월 전
035.6K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - 8가지 사고 경로를 동시에 열어주는 Ask o4에서 도입한 병렬 사고 모델

Ask White o4는 8개의 사고 경로를 동시에 열어 여러 관점에서 문제를 분석하고 최적의 해결책을 자동으로 필터링하는 혁신적인 병렬 사고 모델입니다. 이 모델은 고급 Long-CoT 강화 학습 및 프로세스 보상 학습 기법을 통합하고 강력한 심층 추론 기능을 갖추고 있으며 복잡한 작업에서 뛰어난 성능을 발휘합니다.
7개월 전
035.4K
Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具

바나나 슬라이드 - 나노 바나나 프로 모델 기반의 오픈 소스 AI PPT 생성 도구

바나나 슬라이드는 자연어 명령을 사용해 전문적인 프레젠테이션을 빠르게 만들 수 있도록 지원하는 나노 바나나 프로 AI 모델을 기반으로 하는 오픈 소스 지능형 PPT 생성기입니다. 사용자가 주제를 한 문장(예: "인간이 생태계에 미치는 영향")으로 설명할 수 있으며, 이는 스스로 할 수 있습니다.
3 개월 전
035.2K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - Microsoft 오픈 소스 대규모 3D 제너레이티브 모델

TRELLIS.2는 40억 개의 파라미터를 갖춘 Microsoft의 오픈 소스 대규모 3D 생성 모델로, 고충실도 이미지에서 3D 생성에 중점을 두고 있습니다. 혁신적인 "O-Voxel"스파 스 복셀 구조를 사용하여 복잡한 토폴로지와 날카로운 특징을 효율적으로 처리하여 전체 PBR 재료로 고품질 3D 정보를 생성 할 수 있습니다 ...
3 개월 전
035K
Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列

Tencent-HY-MT1.5 - 텐센트 하이브리드 오픈 소스 번역 모델 시리즈

텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5는 1.8B와 7B 두 가지 모델을 포함하여 33 개 국제 언어와 5 가지 중국어 및 중국어 / 방언 번역을 지원하는 텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5입니다.1.8B 모델은 휴대 전화 및 기타 소비자 등급 장치에 특별히 최적화되어 있으며 1GB의 RAM 만 얻을 수 있습니다.
3 개월 전
034.9K
阶跃深研 - 阶跃星辰推出的AI深入研究工具

스텝스 딥 리서치 - 스텝스 스타의 AI 딥 리서치 도구

스텝스 딥 리서치는 스텝스 스타에서 출시한 효율적인 인공지능 리서치 도구로, 복잡한 이슈에 대한 리서치를 자율적으로 완료하고 단기간에 전문적인 보고서를 생성할 수 있습니다. 이 도구는 금융, 컨설팅, 의료, 법률 및 기타 분야를 위해 설계되었으며 심층적인 검색 및 정보 통합 기능으로 업계에서 뛰어난 평가를 받고 있습니다.
7개월 전
034.8K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 통이 완샹 오픈 소스의 액션 생성을 위한 제너레이티브 모델

완2.2-애니메이트는 통이완샹의 오픈 소스 액션 생성 모델로, 액션 모방과 롤플레잉의 두 가지 모드를 지원합니다. 사용자는 캐릭터 사진과 참조 비디오 만 입력하면 모델이 비디오 캐릭터의 움직임과 표정을 그림 캐릭터로 마이그레이션하여 그림 캐릭터에 역동적 인 표현을 제공 할 수 있습니다 ...
6개월 전
034.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 칭화 및 거대 네트워크 오픈 소스 다중 방언 음성 합성 프레임워크

DiaMoE-TTS는 방언 데이터 부족, 직교 불일치, 복잡한 음운 변화 문제를 해결하기 위해 칭화대학교와 거대 네트워크가 공동으로 오픈소스화한 다중 방언 음성 합성 프레임워크로, 국제 음성 알파벳(IPA)을 기반으로 합니다. 통합된 IPA 프런트엔드 표준화된 음소 표현을 통해 방언 간 차이를 제거하여 ...
5개월 전
034.3K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

스탠드인 - 텐센트 위챗 비주얼 오픈 소스 경량 비디오 생성 프레임워크

스탠드인(Stand-In)은 텐센트 WeChat 비전 팀이 개발한 가벼운 플러그 앤 플레이 방식의 신원 보존 동영상 생성 프레임워크입니다. 동영상 생성 시 특정 신원 특징을 보존하는 데 초점을 맞춘 이 프레임워크는 기본 모델 1%의 추가 파라미터만 학습하면 얼굴 유사성과 자연스러움에서 탁월한 결과를 얻을 수 있습니다.
6개월 전
034.2K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHop의 오픈 소스 고해상도 비디오 생성 모델

Lynx는 바이트댄스에서 오픈소스화한 고퀄리티 개인 맞춤형 동영상 생성 모델로, 단 한 장의 인물 사진으로 신원이 일치하는 동영상을 생성할 수 있습니다. 확산 트랜스포머(DiT) 기본 모델을 기반으로 구축되었으며, ID 어댑터와 Ref 어댑터의 도입으로...
6개월 전
033.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - 상하이 AI 랩 오픈 소스 대규모 모델 학습 엔진

XTuner V1은 상하이 인공 지능 연구소에서 오픈 소스화한 차세대 대규모 모델 훈련 엔진으로, 초대형 스파스 혼합 전문가(MoE) 모델 훈련을 위해 설계되었습니다. PyTorch FSDP를 기반으로 개발된 이 엔진은 메모리, 통신 및 로드의 다차원 최적화를 통해 고성능을 달성합니다.
6개월 전
033.9K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Ant 오픈 소스 통합 오디오 멀티모달 생성 모델

밍유니오디오는 텍스트, 오디오, 이미지, 비디오의 혼합 입력 및 출력을 지원하는 Ant Group의 오픈 소스 통합 오디오 멀티모달 생성 모델입니다. 멀티스케일 트랜스포머 및 혼합 전문가(MoE) 아키텍처를 사용하여 모달 인식 라우팅 메커니즘을 통해 크로스 모달을 효율적으로 처리합니다.
5개월 전
033.6K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

드림옴니2 - HKUST 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델

드림옴니2는 HKUST의 Jiajia 팀이 개발한 오픈 소스 멀티모달 AI 이미지 편집 및 생성 모델입니다. 텍스트와 이미지 명령을 동시에 처리할 수 있으며, 여러 참조 이미지를 지원하여 크리에이터에게 보다 유연한 제작 방법을 제공합니다. 이 모델은 3단계 데이터 합성 프로세스, 공동 학습 생성/편집을 통해 훈련됩니다.
5개월 전
033.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - 패싯 인텔리전스 오픈 소스 엔드투엔드 텍스트 음성 변환 모델링

VoxCPM 1.5는 Facade Intelligence에서 출시한 오픈 소스 음성 생성 모델로, 스플리터 없이 텍스트 음성 변환(TTS) 기술을 기반으로 몇 가지 혁신과 개선 사항을 적용했습니다. 엔드 투 엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 파형을 생성하므로 기존 세분화 방법의 한계를 피할 수 있습니다....
3 개월 전
033.4K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - 직면면 인텔리전스를 통한 매우 효율적인 엔드사이드 매크로 모델링

MiniCPM 4.1은 Facade Intelligence에서 도입한 매우 효율적인 엔드 사이드 대규모 언어 모델입니다. InfLLM v2 희소주의 아키텍처를 사용하면 각 어휘는 5% 미만의 어휘와의 상관관계만 계산하면 되므로 긴 텍스트의 처리 오버헤드를 크게 줄일 수 있습니다. 128K의 긴 텍스트 시나리오에서...
6개월 전
033.3K