최신 AI 리소스

총 2788개의 기사
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - 정밀한 지속 시간 제어를 최초로 지원하는 B 스테이션 오픈 소스 무료 TTS 모델

IndexTTS2는 B 스테이션 음성 팀이 오픈소스화한 새로운 무료 텍스트 음성 변환(TTS) 모델로, 감정 표현과 지속 시간 제어에서 획기적인 발전을 이루었으며, 정밀한 지속 시간 제어를 지원하는 최초의 자동 회귀형 TTS 모델입니다. 제로 샘플 음성 복제를 지원하며 하나의 오디오 파일 만 사운드를 정확하게 복사 할 수 있습니다....
2개월 전
036.5K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

미니막스 뮤직 1.5 - 미니막스의 최신 AI 음악 생성 모델!

미니맥스 뮤직 1.5는 사용자의 자연어 설명을 기반으로 최대 4분 분량의 음악 생성을 지원하는 고급 AI 음악 생성 도구입니다. 이 모델은 다양한 음악 스타일과 분위기 사용자 지정을 지원하며 자연스럽고 완전한 보컬 톤, 부드러운 전환 및 풍부한 레이어 편곡을 생성합니다....
2개월 전
016.5K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 칭화대학교 유나이티드 바이트 오픈 소스 멀티모달 비디오 생성 프레임워크

HuMo는 칭화대학교와 바이트댄스 인텔리전트 크리에이션 랩이 공동으로 오픈소스화한 멀티모달 비디오 생성 프레임워크로, 인간 중심의 비디오 생성에 중점을 두고 있습니다. 텍스트, 이미지 및 오디오와 같은 멀티모달 입력에서 고품질의 세밀하고 제어 가능한 휴먼 비디오를 생성할 수 있으며, HuMo는 강력한 텍스트 큐 팔로잉 기능을 지원합니다.
2개월 전
024.8K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - 푸단 및 알리 다르마 연구소 및 기타 오픈 소스 지능형 이미지 애니메이션 생성 프레임워크

AnyI2V는 푸단대학교, 알리바바 다모 아카데미 등이 공동으로 출시한 이미지 애니메이션 생성 프레임워크로, 복잡한 학습 과정과 많은 양의 데이터 없이도 정적인 조건부 이미지(예: 그리드, 포인트 클라우드 등)를 동적인 동영상으로 변환할 수 있도록 지원합니다.
2개월 전
013.7K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

웬신 빅 모델 X1.1 - 더 나은 이해를 위한 바이두의 딥씽킹 모델

웬신 빅 모델 X1.1은 언어 이해와 생성을 개선하는 데 중점을 둔 하이브리드 강화 학습 프레임워크를 기반으로 바이두에서 출시한 심층 사고 모델입니다. 이 모델은 복잡한 질문을 처리하고, 지시를 따르고, 지능의 행동을 시뮬레이션하는 데 탁월하며, 지식이 풍부한 답변과 고품질 텍스트 콘텐츠를 정확하게 제공할 수 있습니다.
2개월 전
017.1K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - 무료 AI 시맨틱 문서 슬라이싱 도구, 동적 슬라이싱 조정

AntSK FileChunk는 RAG(검색 증강 생성) 애플리케이션을 위해 설계된 무료 지능형 문서 슬라이싱 도구입니다. 시맨틱을 핵심으로 하여 문서를 의미적으로 완전하고 일관된 세그먼트로 지능적으로 슬라이스하고, 다국어를 지원하며, 슬라이스 크기를 동적으로 조정하여 문맥의 일관성을 보장합니다.
2개월 전
017.3K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - 직면면 인텔리전스를 통한 매우 효율적인 엔드사이드 매크로 모델링

MiniCPM 4.1은 Facade Intelligence에서 도입한 매우 효율적인 엔드 사이드 대규모 언어 모델입니다. InfLLM v2 희소주의 아키텍처를 사용하면 각 어휘는 5% 미만의 어휘와의 상관관계만 계산하면 되므로 긴 텍스트의 처리 오버헤드를 크게 줄일 수 있습니다. 128K의 긴 텍스트 시나리오에서...
2개월 전
016.7K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - 텐센트 위챗 오픈 소스 문서 이해 및 시맨틱 검색 프레임워크

WeKnora는 대규모 언어 모델(LLM) 문서 이해 및 의미 검색 프레임워크에 기반한 텐센트 위챗 팀의 오픈 소스로, 복잡하고 이질적인 문서 콘텐츠 시나리오의 구조를 위해 설계되었으며 모듈식 아키텍처, 다중 모드 전처리 통합, 의미 벡터 인덱싱, 지능형 리콜 및 대규모 모델 생성 추론을 사용하도록 설계되었습니다 ....
2개월 전
024K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - 상하이 AI 랩 오픈 소스 대규모 모델 학습 엔진

XTuner V1은 상하이 인공 지능 연구소에서 오픈 소스화한 차세대 대규모 모델 훈련 엔진으로, 초대형 스파스 혼합 전문가(MoE) 모델 훈련을 위해 설계되었습니다. PyTorch FSDP를 기반으로 개발된 이 엔진은 메모리, 통신 및 로드의 다차원 최적화를 통해 고성능을 달성합니다.
2개월 전
016.4K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - 통이 첸첸의 플래그십 빅 언어 모델

Qwen3-Max-Preview는 통이췐웬에서 출시한 최신 플래그십 대형 언어 모델입니다. Qwen3 제품군에서 가장 많은 파라미터를 가진 모델로, 파라미터 크기가 1조 개가 넘습니다. 이 모델은 추론, 명령어 추종, 다국어 지원 및 롱테일 지식 범위에서 상당한 개선을 이루었습니다...
2개월 전
020.3K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - 메이퇀과 상하이교통대학교를 위한 오픈 소스 멀티모달 모델

원캣은 메이투안이 상하이교통대학교와 함께 출시한 새로운 통합 멀티모달 모델로, 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집 기능을 원활하게 통합하는 순수 디코더 아키텍처를 채택하고 있습니다. 이 모델은 외부 시각 코더와 모달리티별 디스모게이터에 의존하는 기존 멀티모달 모델의 설계를 버리고 모달리티별 ...
2개월 전
017.1K
Kimi K2-0905 - 月之暗面推出的最新模型版本

키미 K2-0905 - 다크 사이드 오브 더 문 최신 모델 출시!

Kimi K2-0905는 프로그래밍 지원 기능이 뛰어나고 코드를 효율적으로 생성하며 프론트엔드 개발에서 깔끔하고 표준화된 코드 생성을 지원하는 다크 사이드 오브 더 문 테크놀로지스의 고급 AI 모델입니다. 모델 컨텍스트 길이가 256K로 확장되어 복잡한 작업을 처리할 수 있습니다.
2개월 전
024.3K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

스텝오디오 2 미니 - 스텝스타 오픈 소스 음성 매크로 모델링

스텝오디오 2 미니는 스텝오디오의 오픈 소스 엔드투엔드 음성 매크로 모델입니다. 기존의 음성 모델 구조를 깨고 진정한 엔드투엔드 멀티모달 아키텍처를 채택하여 원시 오디오 입력을 짧은 지연 시간으로 음성 응답 출력으로 직접 변환하고 언어학적 정보 및 비음성 신호를 이해합니다.
2개월 전
025.5K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - 상하이 AI 랩 오픈 소스 멀티모달 대형 모델

InternVL3.5(Shusheng-Wanxiang 3.5)는 상하이 인공 지능 연구소의 오픈 소스 멀티 모달 대형 모델로, 일반 능력, 추론 능력 및 배포 효율성 측면에서 완전히 업그레이드되어 10억에서 2410억 개의 매개 변수까지 9가지 크기의 버전을 제공하며, 두께를 포함한 다양한 리소스 수요 시나리오를 포괄합니다....
2개월 전
026K
FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Apple의 시각 언어 모델링

FastVLM(Fast Vision Language Model)은 Apple에서 도입한 효율적인 시각 언어 모델입니다. FastViTHD 하이브리드 비주얼 코더를 핵심으로 컨볼루션 및 트랜스포머 아키텍처를 통합하여 시각적...
2개월 전
022.7K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 모델 지침이 루브릭 세트를 따르는 능력에 대한 Meeseeks 오픈 소스 평가

미즈윅스는 메이퇀의 M17 팀이 모델의 지시를 따르는 능력을 평가하기 위해 사용하는 오픈 소스 대규모 모델 평가 세트입니다.미즈윅스는 3단계 평가 프레임워크를 사용하여 모델이 매크로에서 마이크로 수준까지 사용자의 지시에 따라 답변을 생성할 수 있는지 종합적으로 측정하며 답변 내용에 대한 지식은 긍정적으로 평가하지 않습니다.
2개월 전
021.8K
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAI의 최신 AI 음성 모델

gpt-realtime은 자연스럽고 부드러운 음성을 생성하기 위해 오디오의 직접 처리를 지원하는 OpenAI의 고급 음성 모델입니다. 이 모델은 여러 언어와 스타일을 지원하고 웃음과 같은 비언어적 단서를 이해하며 언어 간에 전환할 수 있습니다.
2개월 전
022.8K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

훈위안비디오-폴리 - 텐센트의 오픈 소스 비디오 사운드 생성 모델

훈위안비디오-폴리는 무음 동영상에 정확하게 일치하는 음향 효과를 추가하는 것을 지원하는 텐센트 혼합원 팀의 오픈 소스 동영상 사운드 생성 모델입니다. 이 모델은 대규모 데이터 세트 학습을 기반으로 하며, 다중 모드 확산 변환기 아키텍처와 정렬 손실 함수 표현 및 오디오 VAE 최적화 기술이 결합되어 있습니다 ...
2개월 전
028.3K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - 8가지 사고 경로를 동시에 열어주는 Ask o4에서 도입한 병렬 사고 모델

Ask White o4는 8개의 사고 경로를 동시에 열어 여러 관점에서 문제를 분석하고 최적의 해결책을 자동으로 필터링하는 혁신적인 병렬 사고 모델입니다. 이 모델은 고급 Long-CoT 강화 학습 및 프로세스 보상 학습 기법을 통합하고 강력한 심층 추론 기능을 갖추고 있으며 복잡한 작업에서 뛰어난 성능을 발휘합니다.
2개월 전
022.4K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpialGen - Qunar Technologies의 오픈 소스 3D 씬 생성 모델

스페이셜젠은 확산 모델 아키텍처를 기반으로 하는 쿠나 테크놀로지의 오픈 소스 3D 장면 생성 모델로, 텍스트 설명, 참조 이미지 및 3D 공간 레이아웃을 기반으로 시공간적으로 일관된 멀티뷰 이미지를 생성하고 3D 가우시안 장면 생성 및 로밍 비디오 렌더링을 지원합니다.
2개월 전
023.3K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - 네일과 통이가 공동으로 출시한 차세대 음성 인식 모델

Fun-ASR은 네일과 통이랩스가 공동으로 출시한 대형 음성 인식 모델입니다. 이 모델은 방대한 오디오 데이터로 학습되어 인터넷, 기술, 가정 장식 등과 같은 여러 산업 분야의 용어를 정확하게 식별할 수 있어 인식 정확도를 크게 향상시켰습니다. 이 모델은 추론 최적화를 위해 네일 엔터프라이즈 정보와 결합되어 팬텀 문제를 줄입니다.
2개월 전
045.1K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler - 아이디어에서 창작까지 전 과정을 지원하는 AI 소설 지원 글쓰기 플랫폼

스퀴블러는 작가를 위해 설계된 강력한 AI 지원 글쓰기 플랫폼으로, 구상부터 창작, 출판에 이르는 전 과정을 도와줍니다. 이 플랫폼은 소설, 시나리오, 단편 소설 등 다양한 스토리 템플릿을 제공합니다. 사용자는 초기 컨셉만 입력하면 AI가 개요, 캐릭터, 장면 등을 생성할 수 있습니다.
2개월 전
023.8K
91写作 - 开源的AI智能小说创作平台

91Writing - 오픈 소스 AI 지능형 소설 창작 플랫폼

91Writing은 완전 오픈 소스 AI 소설 창작 도구로, Vue 3 및 Element Plus를 기반으로 개발되어 GPT, Claude, Gemini 등과 같은 다양한 고급 AI 모델을 통합합니다. 이 도구는 창작자에게 프로젝트 생성을 포함하여 아이디어에서 텍스트까지 완벽한 창작 도구 체인을 제공합니다....
2개월 전
023.1K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - Musk의 xAI 오픈 소스 AI 모델

Grok 2.5는 Elon Musk의 xAI에서 개발한 오픈 소스 AI 모델입니다. 2,690억 개의 파라미터를 갖춘 이 모델은 강력한 성능과 추론을 위해 혼합 전문 지식(MoE) 아키텍처를 기반으로 합니다. 이 모델은 대학원 수준의 과학 지식(GPQA), 범용 지식(MMLU, MM ...
2개월 전
025K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - 한 번의 클릭으로 주제별 동영상 컬렉션을 생성하는 오픈 소스 AI 동영상 슬라이싱 도구!

AutoClip은 자동화된 비디오 처리의 전체 프로세스를 달성하기 위해 고급 AI 기술을 기반으로 하는 오픈 소스 AI 비디오 편집 도구입니다. 도구는 비디오의 하이라이트를 자동으로 식별하고 귀중한 콘텐츠를 정확하게 추출 할 수 있으며 지능형 클러스터링 테마의 유사성을 기반으로 콘텐츠 모음을 생성 할 수 있습니다.AutoClip 지원 ...
3 개월 전
028.3K
Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - 워드프레스 팀에서 오픈소스로 제공하는 새로운 AI 모델

Seed-OSS는 긴 텍스트와 추론 작업에 중점을 둔 Byte Jump Seed 팀이 오픈소스화한 대규모 언어 모델 제품군입니다. 이 모델은 복잡한 논리적 추론과 다단계 추론에서 높은 정확도로 잘 수행하며 어려운 문제를 효율적으로 해결할 수 있습니다.Seed-OSS는 최대 512K의 긴 텍스트 컨텍스트를 지원합니다....
3 개월 전
027.2K
CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - Amoy Group의 효율적인 VLA 모델

CombatVLA는 아모이 그룹의 퓨처 라이프 랩 팀이 개발한 혁신적인 3D 액션 롤플레잉 게임(ARPG) 전용 모델로, 3B 파라메트릭 스케일로 구축된 시각-언어-행동(VLA) 모델로, 모션 트래커를 통해 인간 플레이어의 동작을 수집합니다.
3 개월 전
024.3K
DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1 - DeepSeek의 최신 오픈 소스 AI 모델

DeepSeek V3.1은 이전 버전인 V3를 기반으로 중요한 업그레이드가 이루어진 차세대 AI 모델로, 모델이 사고 모드와 비사고 모드 사이를 유연하게 전환할 수 있는 하이브리드 추론 아키텍처를 도입하여 사고 능력을 크게 향상시켰습니다.
3 개월 전
025.8K
Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit - 알리 통이 오픈 소스 이미지 편집 모델

Qwen-Image-Edit는 알리 통이가 소개한 다목적 이미지 편집 모델로, 200억 개의 매개변수가 있는 Qwen-Image 아키텍처를 기반으로 구축되었습니다. 이 모델은 시맨틱 및 외관 편집 기능을 모두 결합하여 이미지에 대한 낮은 수준의 시각적 외관 편집(예: 추가, 삭제...)을 수행할 수 있습니다.
3 개월 전
024.3K
MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - 쿤룬웨이의 최신 음성 생성 프레임워크

MoE-TTS는 사전 학습된 대규모 언어 모델(LLM)과 음성 전문가 모듈을 결합하는 혼합 전문가(MoE) 아키텍처를 기반으로 하는 쿤룬완웨이가 도입한 음성 합성 프레임워크로, 텍스트 모듈 파라미터는 고정하고 음성 모듈 파라미터만 업데이트하여 강력한 텍스트 추론 기능을 유지합니다...
3 개월 전
026K
DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - 메타 AI의 차세대 자체 감독 비전 기본 모델

DINOv3는 메타 AI의 차세대 자기 지도 비전 기반 모델로, 자기 지도 학습 패러다임을 사용하여 라벨링 데이터 없이 이미지 특징을 학습합니다. 데이터 준비를 개선하고 그램 앵커링을 도입하여 특징 저하 문제를 해결하고 일반화 성능을 향상시킵니다....
3 개월 전
034.3K
Mureka V7.5 - 昆仑万维推出的先进AI音乐创作模型

Mureka V7.5 - Quintessence의 고급 AI 음악 제작 모델

Mureka V7.5는 중국 작곡에 중점을 둔 쿤룬 월드 와이드의 최첨단 AI 음악 생성 모델입니다. 이 모델은 음색과 연주 기법을 정확하게 재현하여 자연스럽고 부드럽고 감성적인 보컬을 생성합니다. 최적화된 자동 음성 인식(ASR) 기술을 기반으로 하는 Mureka V...
3 개월 전
025.2K
Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

훈위안-게임크래프트 - 차세대 게임용 인터랙티브 비디오를 생성하기 위한 텐센트 훈위안의 오픈 소스 프레임워크입니다.

훈위안-게임크래프트는 텐센트 훈위안 팀의 오픈 소스 인터랙티브 게임 비디오 생성 프레임워크입니다. 단일 사진 및 프롬프트에서 프레임워크를 사용하여 매우 역동적인 게임 비디오를 생성하고, 키보드와 마우스를 통해 사용자가 비디오 콘텐츠를 실시간으로 제어할 수 있도록 지원합니다.
3 개월 전
028K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - 알리 다르마 연구소의 오픈 소스 세계 이해 모델

린넥은 알리바바 달마 연구소에서 도입한 세계 이해 모델로, 구체화된 지능 작업에 중점을 두고 있습니다. 이 모델은 비디오 데이터와 자연어를 결합한 멀티모달 융합 기술을 기반으로 하며, 장면의 객체를 여러 차원에서 파싱하여 객체 이해, 공간 인식, 비디오 대상 분할 등의 기능을 지원할 수 있습니다.
3 개월 전
027.1K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - 스마트 스펙트럼의 멀티모달 오픈 소스 시각적 추론 모델

GLM-4.5V는 스마트 스펙트럼에서 도입한 세계 최고의 오픈 소스 시각적 추론 모델로, 총 매개변수가 1,060억 개, 활성화된 매개변수가 120억 개에 달합니다. 이 모델은 강력한 시각적 이해 및 추론 기능을 갖춘 차세대 텍스트 기반 모델 GLM-4.5-Air를 기반으로 학습되어 이미지, 비디오, 동영상 등을 처리할 수 있습니다.
3 개월 전
029.4K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - 쿤룬왕웨이의 오디오 기반 디지털 휴먼 제작 도구

SkyReels-A3는 쿤룬 월드 와이드 그룹의 오디오 기반 디지털 휴먼 제작 툴입니다. SkyReels-A3는 오디오 기반 디지털 휴먼 제작 도구로, 간단한 입력(예: 인물 이미지 및 음성)을 통해 고품질의 동적 비디오 콘텐츠를 생성하고, 정적인 사진을 '생동감 있게' 만들고, 기존 비디오의 대사를 캐릭터가 자동으로 일치하는 새로운 립싱크로 대체할 수 있습니다....
3 개월 전
022.1K
GPT-5 - OpenAI推出的最强语言模型,统一智能系统

GPT-5 - 통합 인텔리전스 시스템인 OpenAI가 도입한 가장 강력한 언어 모델

GPT-5는 OpenAI가 여러 가지 업그레이드를 통해 출시한 최신 언어 모델입니다. 문제의 복잡성에 따라 효율적인 모드와 심층 사고 모드를 자동으로 전환하여 빠른 응답과 정확한 답변을 가능하게 하는 실시간 라우터가 내장된 통합 지능 시스템입니다.GPT-5에는 푸시용을 포함하여 여러 버전이 있습니다....
3 개월 전
024.7K
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - Google의 일반 세계 모델

Genie 3는 매우 역동적이고 일관된 가상 세계를 실시간으로 생성할 수 있는 Google DeepMind의 차세대 범용 세계 모델로, 물리 현상과 자연 생태계를 시뮬레이션하고 판타지 및 역사 시나리오를 생성할 수 있도록 지원합니다. 텍스트 프롬프트를 통해 사용자는 ...
3 개월 전
025.2K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - Anthropic의 가장 강력한 프로그래밍 모델

Claude Opus 4.1은 복잡한 작업을 효율적으로 처리할 수 있도록 설계된 Anthropic의 최신 대규모 언어 모델입니다. 이 모델은 프로그래밍 영역에서 탁월한 성능을 발휘하여 고품질 코드를 생성하고 최대 32k의 단일 출력을 지원하며 다양한 프로그래밍 스타일에 적응할 수 있습니다....
3 개월 전
023.8K
RedOne - 小红书最新推出的社交大模型

RedOne - 리틀 레드북의 최신 소셜 메가 모델

레드원은 리틀 레드북에서 도입한 소셜 네트워크에 특화된 대규모 언어 모델입니다. 이 모델은 사회 및 문화적 지식을 통합하고, 멀티태스킹 기능을 강화하며, 인간의 선호도를 조정하는 3단계 훈련 전략을 통해 훈련되며, RedOne은 소셜 작업 성능, 유해 콘텐츠 탐지 및 검색에서 기본 모델보다 훨씬 뛰어난 성능을 발휘합니다....
3 개월 전
026K
InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS - Qunar Technology의 3D 가우시안 시맨틱 데이터 세트

InteriorGS는 큐나 테크놀로지가 도입한 고품질 3D 가우시안 시맨틱 데이터 세트입니다. 이 데이터 세트에는 집, 편의점, 예식장, 박물관 등 80개 이상의 실내 환경을 포함하는 1,000개의 3D 장면이 포함되어 있습니다. 이 데이터 세트에는 755개 카테고리의 554,000개 이상의 객체 인스턴스가 포함되어 있습니다...
3 개월 전
023.3K
DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 - Microsoft의 제로 샘플 음성 합성 모델

DragonV2.1은 Microsoft의 고급 제로 샘플 텍스트 음성 변환(TTS) 모델입니다. 트랜스포머 아키텍처를 기반으로 하는 이 모델은 다국어 및 제로 샘플 음성 복제를 지원하며 5~90초의 음성 프롬프트만으로 자연스럽고 표현력 있는 음성을 생성합니다.
3 개월 전
023.7K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型

Gemini 2.5 Deep Think - Google의 AI 추론 모델

Gemini 2.5 Deep Think는 복잡한 작업을 해결하기 위해 설계된 Google의 AI 추론 모델입니다. 2025년 국제 수학 올림피아드(IMO)에서 금메달을 획득한 모델의 변형으로, 병렬을 통해 복잡한 작업을 해결하도록 설계되었습니다 ...
3 개월 전
021.8K
MindLink - 昆仑万维推出的开源推理大模型

MindLink - 쿤룬웨이의 오픈 소스 추론 빅 모델

마인드링크는 쿤룬 월드와이드웹에서 출시한 오픈소스 추론의 대규모 모델입니다. 적응 형 추론 메커니즘을 통해 작업의 복잡성에 따라 유연한 전환 추론 모드, 간단한 작업 빠르게 생성, 복잡한 작업 심층 추론, 효율성과 정확성을 고려합니다. "생각"태그를 제거하기위한 계획 중심 추론 패러다임, 감소 ...
3 개월 전
022.9K
HYPIR - 中国科学院团队推出的新型图像复原大模型

HYPIR - 중국과학원 팀이 도입한 이미지 복원을 위한 새로운 대형 모델입니다.

HYPIR은 중국과학원 심천첨단기술연구소의 동 차오 연구팀이 도입한 이미지 복원을 위한 대규모 모델입니다. 이 모델은 확산 모델의 분수 선행과 적대적 생성 네트워크를 결합하여 효율적인 고품질 이미지 복원을 달성하며, HYPIR은 오래된 사진을 빠르게 복원하고 텍스트를 선명하게 유지하면서 해상도를 향상시킬 수 있습니다....
3 개월 전
028.4K
Wide Research - Manus平台推出的多智能体协同功能

광범위한 연구 - Manus 플랫폼에 다중 지능 협업 도입

와이드 리서치는 복잡하고 대규모 작업을 처리하도록 설계된 마누스 플랫폼의 강력한 기능입니다. 이 플랫폼은 시스템 수준의 병렬 처리 메커니즘과 인텔리전스 협업 프로토콜을 통해 수백 개의 범용 인텔리전스가 동시에 작업할 수 있도록 지원합니다.
3 개월 전
022.5K