주요 AI 도구 목록 | 4페이지

칸딘스키 5.0 - 러시아 AI 팀의 오픈 소스 비디오 생성 모델 시리즈

칸딘스키 5.0은 러시아 AI 팀이 개발한 최신 비디오 생성 모델 시리즈로, 가벼운 디자인과 고성능 성능에 중점을 두고 있습니다. 이 시리즈의 첫 번째 모델인 칸딘스키 5.0 비디오 라이트는 매개 변수가 20억 개에 불과하지만, 특히 유사한 14억 개에 달하는 모델을 능가합니다.

최신 AI 리소스

6개월 전

045.1K

송블룸 - 홍콩중문대 및 NTU와 협력한 텐센트의 오픈 소스 곡 생성 모델

송블룸은 홍콩 중문대학교(선전) 및 난징대학교와 협력하여 Tencent AI Lab에서 개발한 오픈 소스 노래 생성 모델로, AI 음악 생성의 '가소성' 문제를 해결하고 구조적으로 완벽한 고품질의 노래를 생성할 수 있습니다. 10초 분량의 레퍼런스 오디오와 해당 가사를 입력하기만 하면...

최신 AI 리소스

6개월 전

036K

Pyscn - Python 개발자를 위한 무료 AI 코드 품질 분석 도구 오픈 소스

Pyscn은 파이썬 개발자가 코드의 잠재적 문제를 감지하여 유지보수성을 개선할 수 있도록 설계된 지능형 코드 품질 분석 도구입니다. 제어 흐름도를 통해 데드 코드를 분석하고, APTED+LSH 알고리즘을 사용하여 중복 코드를 식별하고, 모듈 결합 및 원 복잡도와 같은 메트릭을 계산합니다....

최신 AI 리소스

6개월 전

028.7K

Youtu-Embedding - 텐센트 유튜브 오픈소스 일반 텍스트 표현 모델

Youtu-Embedding은 엔터프라이즈급 애플리케이션을 위해 설계된 Tencent의 Youtu Labs에서 개발한 오픈 소스 범용 텍스트 표현 모델입니다. 텍스트는 심층 신경망에 의해 고차원 벡터 공간에 매핑되어 의미적으로 유사한 문장이 해당 공간에서 서로 가깝게 배치되어 정확한 의미 검색을 달성합니다.

최신 AI 리소스

6개월 전

034K

SAIL-VL2 - ByteHop의 오픈 소스 멀티모달 시각 언어 모델

SAIL-VL2는 이미지와 텍스트와 같은 멀티모달 입력의 공동 모델링에 중점을 둔 Byte Jump 팀의 오픈 소스 멀티모달 시각 언어 모델입니다. 전문가(MoE) 아키텍처와 점진적 훈련 전략의 희소 혼합을 사용하여 2B~8B의 매개변수 규모, 특히 그래픽 이해, 수학적 이해에서 높은 성능을 달성합니다.

최신 AI 리소스

6개월 전

027.1K

하이퍼파라미터(하이퍼파라미터)란 무엇인가, 보고 이해해야 할 문서

머신 러닝에서 하이퍼파라미터는 데이터로부터 학습하는 것이 아니라 모델 학습이 시작되기 전에 수동으로 미리 설정하는 구성 옵션입니다. 알고리즘에 대한 일련의 작동 규칙을 설정하는 것처럼 학습 프로세스 자체를 제어하는 것이 핵심적인 역할입니다. 예를 들어, 학습...

AI 답변

6개월 전

031.4K

의사 결정 트리(의사 결정 트리)란 무엇인가요?

의사 결정 트리(DT)는 일련의 규칙을 통해 데이터를 분류하거나 예측하는 인간의 의사 결정 과정을 시뮬레이션하는 나무 모양의 예측 모델입니다. 각 내부 노드는 기능 테스트를 나타내고, 가지는 테스트 결과에 해당하며, 리프 노드는 최종 결정을 저장합니다. 이 알고리즘은 분할 및 정복 전략을 사용합니다...

AI 답변

6개월 전

029.7K

그라디언트 하강(경사 하강)이란 무엇인가, 읽고 이해해야 할 글

경사 하강은 함수의 최소값을 풀기 위한 핵심 최적화 알고리즘입니다. 이 알고리즘은 함수의 기울기(각각의 부분 미분으로 구성된 벡터)를 계산하고 θ = θ - η - ∇J(θ) 규칙에 따라 파라미터를 반복적으로 업데이트하여 하강 방향을 결정합니다.

AI 답변

6개월 전

030.4K

MineContext - 바이트 오픈 소스 액티브 컨텍스트 인식 AI 파트너

MineContext는 사용자가 방대한 양의 정보를 효율적으로 관리하고 지식 업무의 효율성을 개선할 수 있도록 돕기 위해 ByteDance Viking 팀이 오픈소스로 제공하는 적극적인 상황 인식 AI 파트너입니다. 스크린샷 및 콘텐츠 이해 기술을 통해 사용자의 일상적인 작업(예: 웹 검색, 문서 편집 등)을 자동으로 기록하고, 지원...

최신 AI 리소스

6개월 전

048K

나노챗 - Karpathy의 무료 오픈소스 저비용 모델 교육 프로젝트

나노챗은 AI의 전설이자 전 테슬라 AI 디렉터인 안드레이 카르파티가 공개한 오픈 소스 프로젝트로, 개인이 매우 저렴한 비용과 단순함으로 작은 ChatGPT와 유사한 언어 모델을 빠르게 훈련할 수 있도록 해줍니다. 전체 프로젝트는 약 800개만 사용합니다.

최신 AI 리소스

6개월 전

033.6K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - 고성능 멀티모달 이해를 위한 무료 오픈 소스 멀티모달 모델

LLaVA-OneVision-1.5는 128개의 A800...에서 8B 파라미터 스케일을 사용하는 EvolvingLMMS-Lab 팀의 오픈 소스 멀티모달 모델로, 컴팩트한 3단계 훈련 프로세스(언어-이미지 정렬, 개념 평형화 및 지식 주입, 명령어 미세 조정)를 통해 학습합니다.

최신 AI 리소스

6개월 전

032K

로지스틱 회귀(로지스틱 회귀)란 무엇인가, 읽고 이해해야 할 문서

로지스틱 회귀는 이진 분류 문제를 해결하는 데 사용되는 통계적 학습 방법입니다. 핵심 목표는 입력된 특징을 바탕으로 샘플이 특정 범주에 속할 확률을 예측하는 것입니다. 이 모델은 S자형 함수를 사용하여 고유값을 선형적으로 결합하여 선형 출력을 0과 1 사이로 매핑합니다....

AI 답변

6개월 전

028.1K

Paper2Video - 학술 논문의 데모 동영상을 자동으로 생성하는 NUS 오픈 소스 프로젝트

Paper2Video는 싱가포르 국립대학교 쇼 랩에서 학술 논문을 위한 자동 프레젠테이션 비디오 생성을 위한 오픈 소스 프로젝트입니다. PaperTalker 다중 지능 프레임워크를 사용하여 논문을 슬라이드, 자막, 음성 해설 및 발표자 아바타가 포함된 완전한 프레젠테이션 비디오로 변환합니다....

최신 AI 리소스

6개월 전

034.3K

NeuTTS Air - 오프라인 CPU 실행을 지원하는 무료 경량 음성 합성 모델

NeuTTS Air는 Neuphonic 팀이 개발한 오픈 소스 경량 음성 합성 모델로, 클라우드에 의존하지 않고 로컬 장치(예: 휴대폰, 노트북, 라즈베리파이)에서 실시간으로 실행할 수 있습니다. 0.5B 매개변수 Qwen 아키텍처와 자체 개발한 NeuCodec 코덱 사용...

최신 AI 리소스

6개월 전

040.1K

KAT-Dev-72B-Exp - 레이서 오픈 소스 무료 프로그래밍 전용 모델

KAT-Dev-72B-Exp는 레이서 팀에서 출시한 오픈소스 프로그래밍 전용 대규모 언어 모델로, 강화 학습 기법을 기반으로 최적화되어 SWE-Bench Verified 벤치마크 테스트에서 현재 오픈소스 모델 중 최고 성능인 74.6%의 정확도를 달성했습니다. 이 모델은 혁신적인...

최신 AI 리소스

6개월 전

031.4K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

잠바 추론 3B - 이스라엘 AI21 랩의 오픈 소스 경량 추론 모델

잠바 추론 3B는 이스라엘의 AI 스타트업 AI21 Labs에서 오픈소스로 제공하는 경량 추론 모델로, 강력한 성능과 다양한 애플리케이션에 적용할 수 있는 잠재력을 갖추고 있습니다. 이 모델은 Trans...를 결합한 하이브리드 SSM-트랜스포머 아키텍처를 사용합니다.

최신 AI 리소스

6개월 전

028.8K

에른스트 우의 에이전틱 AI의 최신 인텔리전스에 대한 무료 강좌

에이전틱 AI는 어니스트 응이 출시한 지능형 바디에 관한 최신 강좌로, 반영, 도구 사용, 계획 및 다중 지능형 바디 협업의 네 가지 설계 패턴을 다루는 지능형 바디의 설계 및 구축에 중점을 둡니다. 학습자는 이론적 설명과 코드 실습을 통해 지능형 바디가 출력을 확인하고 자율적으로 조정하는 방법을 익히게 됩니다....

최신 AI 리소스 코스 정보

6개월 전

053.8K

OpenAgents - AI 에이전트 네트워크 구축을 위한 오픈소스 무료 오픈 협업 프로젝트

오픈에이전트는 AI 에이전트 네트워크를 생성하고 에이전트 간의 개방형 협업을 촉진하는 오픈 소스 프로젝트입니다. AI 에이전트가 원활하게 연결하고 협업할 수 있도록 기본 네트워크 인프라가 제공됩니다. 사용자는 자체 에이전트 네트워크를 빠르게 시작하고, 모듈식 아키텍처를 통해 기능을 확장하고, 지원...

최신 AI 리소스

6개월 전

030.7K

Androidify - Android에서 AI 앱을 빌드하는 방법에 대한 Google 오픈 소스 무료 리소스

Androidify는 개발자가 Android에서 AI 기반 애플리케이션을 구축하는 방법을 배울 수 있도록 도와주는 Google의 오픈 소스 프로젝트입니다. 이 프로젝트는 제트팩 컴포즈, 제미니 API(Fire를 통해) 등 Google의 최신 기술을 사용합니다.

최신 AI 리소스

6개월 전

032K

정규화(정규화)란 무엇인가, 보고 이해해야 할 기사

정규화는 모델 과적합을 방지하기 위한 머신러닝 및 통계의 핵심 기술입니다. 정규화는 모델의 복잡성과 관련된 목적 함수에 페널티 항을 추가하여 적합도를 제어합니다. 일반적인 형태에는 L1 및 L2 정규화가 포함됩니다. L1은 희소 솔루션을 생성하고 적용합니다.

AI 답변

6개월 전

031.8K

生成对抗网络（Generative Adversarial Network）是什么，一文看懂

생성적 적대적 네트워크(GAN)란 무엇인가요?

생성적 적대 신경망(GAN)은 2014년에 이안 굿펠로우 등이 제안한 딥러닝 모델입니다. 이 프레임워크는 두 개의 신경망을 서로 훈련시켜 생성 모델을 구현합니다...

AI 답변

6개월 전

031.2K

Ling-1T - 수조 개의 파라미터를 위한 Ant Group의 오픈 소스 범용 언어 모델

Ling-1T는 Ant Group에서 오픈소스화한 1조 개 매개변수 범용 언어 모델로, 베링의 대형 모델인 Ling 2.0 시리즈의 플래그십 제품에 속합니다. 이 모델은 고효율 MoE 아키텍처를 채택하고 128K 컨텍스트 윈도우를 지원하며 코드 생성, 수학적 추론, 논리 테스트 등 7가지 벤치마크에서 GPT를 능가합니다.

최신 AI 리소스

6개월 전

056.6K

에코케어 - 홍콩 과학 아카데미 오픈 소스 초음파 베이스 대형 모델

에코케어는 중국과학원(CAS) 홍콩혁신연구센터의 인공지능 및 로봇공학 혁신센터(CAIR)가 개발한 대규모 초음파 기반 모델로, 다센터, 다지역, 다인종, 50개 이상의 개인을 포함하는 세계 최대 규모의 초음파 이미지 데이터세트(450만 개 이상의 이미지)로 훈련되었습니다....

최신 AI 리소스

6개월 전

033.1K

셀프 어텐션(자기 주의)이란 무엇인가, 읽고 이해해야 할 기사

자기 주의는 딥 러닝의 핵심 메커니즘으로, 원래 Transformer 아키텍처에서 제안되어 널리 사용되고 있습니다. 핵심 아이디어는 모델이 입력 시퀀스의 모든 위치에 동시에 주의를 기울이고 각 위치를 가중치로 합산하여 계산하는 것입니다.

AI 답변

6개월 전

041.2K

멀티태스크 학습(MTL)이란 무엇인가요?

멀티태스크 학습(MTL)은 고립된 알고리즘이 아니라 지능형 머신 러닝 패러다임입니다.

AI 답변

6개월 전

032.9K

Code2Video - 쇼랩 오픈 소스 AI 교육용 비디오 생성 프레임워크

Code2Video는 코드 스니펫을 고품질 비디오 콘텐츠(MP4 형식)로 자동 변환하는 혁신적인 오픈 소스 프로젝트입니다. 독특한 코드 중심 패러다임을 통한 이 프로젝트는 탄소-now-cli 도구를 사용하여 코드를 아름다운 이미지로 생성하고, ffmpeg를 사용합니다 ...

최신 AI 리소스

6개월 전

037.9K

SceneGen - 3D 씬 프레임워크를 생성하는 상하이 자오통 대학교 오픈 소스 단일 이미지

SceneGen은 상하이교통대학교에서 단일 이미지에서 3D 씬을 생성하는 오픈 소스 방식으로, 단일 씬 이미지와 타깃 리소스 마스크로부터 리소스의 기하학적 구조, 텍스처 및 상대적 공간 위치를 포함한 여러 3D 리소스가 포함된 완전한 씬을 효율적으로 생성합니다.

최신 AI 리소스

6개월 전

029.2K

Ming-UniAudio - Ant 오픈 소스 통합 오디오 멀티모달 생성 모델

밍유니오디오는 텍스트, 오디오, 이미지, 비디오의 혼합 입력 및 출력을 지원하는 Ant Group의 오픈 소스 통합 오디오 멀티모달 생성 모델입니다. 멀티스케일 트랜스포머 및 혼합 전문가(MoE) 아키텍처를 사용하여 모달 인식 라우팅 메커니즘을 통해 크로스 모달을 효율적으로 처리합니다.

최신 AI 리소스

6개월 전

035.7K

AIMangaStudio - 완벽한 창작 과정을 위한 무료 AI 만화 제작 도구!

AIMangaStudio는 창작자에게 줄거리 생성, 서브 장면 디자인, 캐릭터 설정 및 기타 기능을 포함한 완벽한 만화 제작 파이프라인을 제공하는 무료 AI 만화 제작 도구로, 스크립트에서 만화 페이지까지 제작 프로세스를 간소화할 수 있습니다. 줄거리, 대사를 포함한 만화 대본의 자연어 생성을 지원합니다.

최신 AI 리소스

6개월 전

042.4K

FireRedChat - 리틀 레드북의 오픈 소스 전이중 음성 상호작용 시스템

파이어레드챗은 실시간 양방향 대화 기능과 제어된 중단을 지원하는 샤오홍슈용 오픈소스 전이중 음성 상호작용 시스템입니다. 전사 제어 모듈, 상호작용 모듈, 대화 관리자 등 모듈식 설계를 사용하여 캐스케이드 및 세미 캐스케이드 아키텍처, 유연한 배포를 지원합니다.

최신 AI 리소스

6개월 전

042.6K

논리 구문 분석 - Ali 오픈 소스 문서 구문 분석 모델

논리 구문 분석은 Qwen2.5-VL-7B를 기반으로하는 Ali 오픈 소스 엔드 투 엔드 문서 구문 분석 모델입니다. 강화 학습을 통해 문서 레이아웃 분석 및 읽기 순서 추론을 최적화하고 PDF 이미지를 구조화 된 HTML 출력으로 변환하고 다양한 콘텐츠를 지원할 수 있습니다 ...

최신 AI 리소스

6개월 전

041.1K

Ring-1T-preview - Ant Group의 오픈 소스 조 단위 파라미터 대규모 모델

Ring-1T-preview는 Ling 2.0 MoE 아키텍처를 기반으로 하는 Ant Group의 오픈 소스 1조 개 매개변수 매크로 모델로, 20T 코퍼스로 사전 학습되고 자체 개발한 강화 학습 시스템인 ASystem으로 추론 능력을 훈련받았습니다. 자연어 추론에서 ...

최신 AI 리소스

6개월 전

048.8K

RoboBrain-X0 - 위즈덤 소스 연구소 오픈 소스 제로 샘플 크로스 온톨로지 일반화 구현 모델

로보브레인-X0은 위즈덤 소스 연구소가 오픈소스로 공개한 세계 최초의 제로 샘플 교차 온톨로지 일반화를 지원하는 오픈소스 구현 모델로, 업계에서 큰 의미를 지니고 있습니다. 다양한 구성의 여러 실제 로봇을 구동하여 미세 조정없이 기본 작동 작업을 완료 할 수 있으며, 소량의 샘플 미세 조정 후 복제 기능을 보여줍니다.

최신 AI 리소스

6개월 전

034.1K

확산 모델(확산 모델)이란 무엇인가, 읽고 이해할 수 있는 기사

확산 모델은 이미지, 오디오 또는 텍스트와 같은 새로운 데이터 샘플을 생성하기 위해 특별히 고안된 생성 모델입니다. 이 모델의 핵심은 물리학의 확산 과정에서 영감을 받아 입자가 농도가 높은 영역에서 낮은 영역으로 자연스럽게 확산되는 것을 시뮬레이션합니다. 머신에서...

AI 답변

6개월 전

042.4K

미세 조정이란 무엇인가요?

모델 미세 조정(미세 조정)은 머신 러닝에서 전이 학습을 구체적으로 구현한 것입니다. 핵심 프로세스는 대규모 데이터 세트를 사용하여 일반 패턴을 학습하고 광범위한 특징 추출 기능을 개발하는 사전 학습 모델을 기반으로 합니다. 그런 다음 미세 조정 단계에서는 작업별 데이터 세트를 도입하여 ...

AI 답변

6개월 전

034.4K

Lynx - ByteHop의 오픈 소스 고해상도 비디오 생성 모델

Lynx는 바이트댄스에서 오픈소스화한 고퀄리티 개인 맞춤형 동영상 생성 모델로, 단 한 장의 인물 사진으로 신원이 일치하는 동영상을 생성할 수 있습니다. 확산 트랜스포머(DiT) 기본 모델을 기반으로 구축되었으며, ID 어댑터와 Ref 어댑터의 도입으로...

최신 AI 리소스

6개월 전

036.4K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

클로드 소네트 4.5 - 앤트로픽의 가장 강력한 AI 프로그래밍 모델

클로드 소네트 4.5는 프로그래밍, 컴퓨터 작업 및 복잡한 작업의 자동화를 위해 설계된 Anthropic의 인공 지능 모델입니다. 이 모델은 코드 생성, 긴 작업 처리, 추론 및 수학적 계산에 탁월하며 초기 계획부터 모든 것을 지원합니다....

최신 AI 리소스

6개월 전

041.2K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - DeepSeek의 최신 오픈 소스 실험용 AI 모델

DeepSeek-V3.2-Exp는 DeepSeek에서 오픈소스로 제공하는 실험적인 AI 모델로, DeepSeek 스파스 어텐션(DSA) 메커니즘을 도입하여 긴 텍스트 처리의 효율성을 크게 개선합니다. 이 모델은 DeepSeek...

최신 AI 리소스

6개월 전

037.8K

헌위안이미지 3.0 - 텐센트 오픈소스 무료 멀티모달 이미지 생성 모델

훈위안이미지 3.0(훈위안 이미지 3.0)은 텐센트에서 공개하고 오픈소스로 제공한 네이티브 멀티모달 이미지 생성 모델입니다. 모델 매개변수 크기는 80B로, 현재 오픈소스 이미지 생성 모델 중 가장 많은 매개변수를 가진 최고의 평가 결과입니다. 하이브리드 이미지 3.0은 실시간 이미지 생성을 지원하며, 사용자는 측면 ...

최신 AI 리소스

6개월 전

047.4K

Hunyuan3D-Part - 텐센트 오픈 소스 무료 3D 컴포넌트 생성 모델

후위안 3D 파트(하이브리드 3D 파트)는 텐센트에서 공개하고 오픈소스로 제공하는 3D 생성 모델입니다. P3 - SAM과 X - Part로 구성된 이 모델은 최초로 고정밀 제어가 가능한 컴포넌트 기반 3D 생성을 실현하여 자동으로 생성되는 50개 이상의 컴포넌트를 지원합니다. 사용자는 먼저 사용할 수 있습니다...

최신 AI 리소스

6개월 전

047.5K

AudioFly - KU Xunfei 오픈 소스 텍스트 생성 사운드 AI 모델

AudioFly는 텍스트에서 음향 효과를 생성하기 위한 오픈 소스 AI 모델입니다. 10억 개의 파라미터가 포함된 잠재적 확산 모델 아키텍처를 기반으로 AudioSet, AudioCaps, TUT 및 내부 데이터 세트와 같은 대규모의 다양한 오디오 텍스트 데이터 세트에 대해 학습된 모델입니다.

최신 AI 리소스

6개월 전

041.6K

Hunyuan3D-Omni - 텐센트 믹스드 소스 오픈 소스 3D 모델 생성 프레임워크

Hunyuan3D-Omni(하이브리드 3D-옴니)는 텐센트 하이브리드 3D 팀이 개발한 오픈 소스 3D 자산 생성 프레임워크로, 여러 제어 신호를 통해 정확한 3D 모델을 생성할 수 있습니다. Hunyuan3D 2.1 아키텍처를 기반으로 포인트를 처리할 수 있는 통합 제어 인코더를 도입했습니다.

최신 AI 리소스

6개월 전

045.3K

FLM-Audio - 위즈덤소스가 남양기술연구소(NTI)와 협력하여 오픈소스화한 전이중 오디오 대화 모델(FLM-Audio)

FLM-Audio는 베이징 즈위안 인공지능 연구소가 스핀 매트릭스 및 싱가포르 난양 공과대학교와 함께 출시한 네이티브 전이중 오디오 대화 매크로 모델로, 중국어와 영어를 모두 지원합니다. 네이티브 전이중 아키텍처를 채택하여 각 시간 단계에서 듣기, 말하기 및 독백을 병합 할 수 있습니다 ...

최신 AI 리소스

6개월 전

038.7K

주의 메커니즘(주의 메커니즘)이란 무엇인가, 읽고 이해해야 할 기사

주의 메커니즘은 인간의 인지 과정을 모방한 계산 기법으로, 처음에는 기계 번역 분야에 적용되었다가 나중에 딥러닝의 중요한 부분이 되었습니다.

AI 답변

6개월 전

040.5K

Transformer 架构（Transformer Architecture）是什么，一文看懂

트랜스포머 아키텍처란 무엇인가요?

트랜스포머 아키텍처는 기계 번역이나 텍스트 요약과 같은 순차적 작업을 처리하기 위해 설계된 딥러닝 모델입니다. 핵심 혁신은 기존의 루프나 컨볼루션 구조에서 벗어나 자기 주의 메커니즘에만 의존하는 데 있습니다. 이 모델이 시퀀스의 모든 요소를 병렬로 처리할 수 있게 함으로써 대규모...

AI 답변

6개월 전

038.8K

사전 훈련된 모델(사전 훈련된 모델)이란 무엇인가요, 읽고 이해할 수 있는 기사

사전 학습 모델(PTM)은 인공 지능의 기본적이고 강력한 기술로, 대규모 데이터 세트에 대해 사전 학습된 머신 러닝 모델을 나타냅니다. 모델은 방대한 양의 정보를 처리하고 데이터에서 일반적인 패턴과 특징을 학습하여 광범위한 지식 기반을 형성합니다....

AI 답변

6개월 전

038.2K

대규모 언어 모델(LLM)이란 무엇인가요?

대규모 언어 모델(LLM)은 대규모 텍스트 데이터로 학습된 딥 러닝 시스템으로, 트랜스포머 아키텍처를 핵심으로 합니다. 이 아키텍처의 자체 주의 메커니즘은 언어의 장거리 종속성을 효과적으로 포착할 수 있습니다. 이 모델의 "큰 ...

AI 답변

6개월 전

037.8K

장단기 메모리(LSTM) 네트워크란 무엇인가, 읽고 이해해야 할 기사

장단기 메모리(LSTM)는 시퀀스 데이터 처리에 특화된 순환 신경망 변형입니다. 인공 지능 분야에서 시퀀스 데이터는 시계열 예측, 자연어 처리 및 음성 인식과 같은 작업에 널리 사용됩니다.

AI 답변

6개월 전

032.6K

CWM - 메타 페어 오픈 소스 코드 월드 언어 모델

CWM(코드 월드 모델)은 메타 페어 팀이 공개한 320억 개의 파라미터를 가진 오픈 소스 월드 언어 모델로, 코드 생성 및 추론을 위해 설계되었습니다. 코드 실행 프로세스를 시뮬레이션하고 변수 상태 변화를 예측하고 미리 예측할 수 있는 '월드 모델'이라는 개념을 도입했습니다.

최신 AI 리소스

6개월 전

034.9K

네오베이트 코드 - Ant 오픈소스의 지능형 프로그래밍 도우미

네오베이트 코드는 앤트그룹 알리페이 경험 기술 부서의 오픈소스 지능형 프로그래밍 도우미로, 인공지능 기술을 통해 개발 효율성을 향상시킵니다. 대화형 개발 기능을 통해 개발자는 자연어를 통해 요구 사항을 설명할 수 있으며, Neovate Code는 이를 이해하고 해당 세대를 생성할 수 있습니다.

최신 AI 리소스

6개월 전

038.7K

Audio2Face - NVIDIA의 오픈 소스 AI 3D 얼굴 애니메이션 생성 모델

Audio2Face는 오디오 입력을 사실적인 3D 얼굴 애니메이션으로 변환할 수 있는 NVIDIA의 오픈 소스 AI 툴입니다. 음소 및 억양과 같은 오디오의 음성 특징을 분석하여 정밀한 립싱크와 미묘한 감정 표현을 생성하여 가상 캐릭터에 생생한 사람 표정을 부여합니다.

최신 AI 리소스

6개월 전

040.3K

Qwen3-VL - 알리클라우드 통이 첸첸 오픈 소스 멀티모달 시각 언어 매크로 모델

Qwen3-VL은 알리클라우드 통이 첸첸 팀의 오픈소스 멀티모달 시각 언어 대형 모델로, 235억 개의 참조와 약 471GB의 모델 파일이 있으며, 인스트럭션 및 사고 버전을 포함하고, 향상된 MRope 인터리브 레이아웃, 딥스택 및 기타 기술을 채택하여 시각 변환을 효과적으로 사용할 수 있습니다 ...

최신 AI 리소스

6개월 전

052.7K

Qwen3Guard - 알리 퀀 오픈 소스 보안 모델

Qwen3Guard는 보안 탐지를 위해 설계된 Qwen3 기본 모델을 기반으로 미세 조정된 보안 보호 모델입니다. 프롬프트 및 응답에 대한 정확한 보안 분류를 제공하고 위험 수준을 제공하며 영어, 중국어 및 다국어 환경을 지원합니다.Qwen3Guard는 두 가지 프로 버전으로 제공됩니다.

최신 AI 리소스

6개월 전

043.3K

Qwen3-TTS-Flash - 알리 통이의 음성 합성 모델

Qwen3-TTS-Flash는 알리통이가 도입한 고급 음성 합성 모델로 중국어, 영어, 방언 등 17개 음색과 10개 언어를 지원합니다. 중국어와 영어 음성의 안정성이 뛰어나고 표현력이 높으며 음성 톤을 자동으로 조정하여 더욱 생생하게 표현할 수 있는 모델입니다.

최신 AI 리소스

7개월 전

053K

Qwen3-Omni - 알리 통이가 소개하는 옴니모달 AI 모델

Qwen3-Omni는 알리 통이 팀이 도입한 완전 모달 AI 모델로 텍스트, 이미지, 오디오, 비디오 등 여러 데이터 유형을 처리할 수 있으며 짧은 지연 시간과 높은 제어 가능성으로 119개 언어로 텍스트 상호 작용을 지원합니다.

최신 AI 리소스

7개월 전

038.2K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - DeepSeek에서 도입한 최신 버전의 AI 모델입니다.

DeepSeek-V3.1-Terminus는 DeepSeek 팀의 인공 지능 언어 모델인 DeepSeek-V3.1의 업그레이드 버전입니다. 이 모델은 언어 일관성, 코드 생성 및 검색 기능 측면에서 최적화되어 보다 정확하게 ...

최신 AI 리소스

7개월 전

036.1K

연합 학습이란 무엇인가요?

연합 학습(FL)은 2016년 Google 연구팀이 처음 제안한 혁신적인 머신러닝 접근 방식으로, 데이터 프라이버시와 분산 컴퓨팅의 문제를 해결하는 것을 목표로 합니다.

AI 답변

7개월 전

037.7K

Granite-Docling-258M - IBM 오픈 소스 시각 언어 모델

Granite-Docling-258M은 효율적인 문서 변환을 위해 설계된 IBM의 초소형 오픈 소스 시각 언어 모델입니다. 이 모델은 레이아웃, 표, 수식 및 기타 요소를 그대로 유지하면서 문서를 기계가 읽을 수 있는 형식으로 변환합니다.

최신 AI 리소스

7개월 전

034.7K

루시 편집 - 오픈 소스 AI 동영상 편집 도구, 자연어 설명 편집

루시 에디터는 Decart AI에서 개발한 오픈 소스 AI 동영상 편집 툴입니다. 사용자는 복잡한 미세 조정이나 마스크 사용 없이도 "캐릭터를 북극곰으로 바꿔" 또는 "장면을 2D 만화 스타일로 바꿔"와 같은 간단한 자연어 설명을 통해 동영상을 편집할 수 있습니다....

최신 AI 리소스

7개월 전

043.9K

롱캣-플래시-씽킹 - 메이투안 오픈소스를 위한 효율적인 추론 모델

롱캣-플래시-씽킹은 미션 롱캣 팀이 출시한 효율적인 추론 모델로, 롱캣-플래시-챗의 빠른 속도를 유지하면서 더욱 강력하고 전문적으로 진화했습니다. 이 모델은 논리, 수학, 코드, 지능을 기반으로 합니다.

최신 AI 리소스

7개월 전

034.1K

Ling-V2 - 앤트벨링 오픈소스의 MoE 아키텍처 언어 모델 시리즈

Ling-V2는 Ant-Belling 팀이 도입한 MoE 아키텍처를 기반으로 하는 대규모 언어 모델 제품군입니다. 첫 번째 버전인 Ling-mini-2.0에는 총 160억 개의 매개변수가 있으며 입력 토큰당 활성화되는 매개변수는 14억 개에 불과합니다.

최신 AI 리소스

6개월 전

035.7K

크로노스 - 칭화대와 마이크로소프트의 공동 오픈 소스 금융 K 차트 기본 모델

크로노스는 칭화대학교와 마이크로소프트 리서치 아시아가 공동으로 오픈소스화한 최초의 금융시장용 기본 K-선 차트 모델입니다. 주식, 암호화폐 및 기타 자산의 시초가, 고가, 저가, 종가, 거래량 등 K-선 데이터를 분석하여 향후 가격 변동을 예측할 수 있습니다.

최신 AI 리소스

7개월 전

058.8K

Wan2.2-Animate - 통이 완샹 오픈 소스의 액션 생성을 위한 제너레이티브 모델

완2.2-애니메이트는 통이완샹의 오픈 소스 액션 생성 모델로, 액션 모방과 롤플레잉의 두 가지 모드를 지원합니다. 사용자는 캐릭터 사진과 참조 비디오 만 입력하면 모델이 비디오 캐릭터의 움직임과 표정을 그림 캐릭터로 마이그레이션하여 그림 캐릭터에 역동적 인 표현을 제공 할 수 있습니다 ...

최신 AI 리소스

7개월 전

037K

샤오미 미모 오디오 - 샤오미 오픈 소스 최초의 네이티브 엔드투엔드 음성 빅 모델

샤오미 미모 오디오는 다국어 대화, 음성 연속, 적은 샘플 일반화 및 오디오 이해와 같은 강력한 기능을 갖춘 샤오미의 오픈 소스 70억 개 파라미터 엔드투엔드 음성 매크로 모델로, 음성 지능 및 오디오 이해 벤치마크에서 구글 제미를 능가하는 SOTA 레벨에 도달할 수 있습니다.

최신 AI 리소스

7개월 전

040.6K

InternVLA-A1 - 상하이 AI 랩, 대형 모델 구현을 위한 운영 기능의 오픈 소스 통합

InternVLA-A1은 상하이 인공 지능 연구소에서 오픈소스로 제공하는 대규모 구현 작업 모델입니다. 통합을 이해하고, 상상하고, 실행할 수 있는 능력을 갖추고 있으며, 작업을 정확하게 완료할 수 있습니다. 이 모델은 실제 및 시뮬레이션 운영 데이터를 융합하고 대규모 가상-실제 하이브리드 장면 에셋을 통해 대규모 멀티모달 구축을 자동화합니다.

최신 AI 리소스

7개월 전

041.2K

VoxCPM - 직면 지능과 칭화 오픈 소스 엔드투엔드 TTS 모델

VoxCPM은 Facade Intelligence와 칭화대학교 선전 국제대학원이 공동으로 오픈소스화한 음성 생성 모델로, 엔드투엔드 확산 자동 회귀 아키텍처를 채택하여 텍스트에서 직접 연속 음성 표현을 생성함으로써 기존의 이산적 명료화의 한계를 극복합니다. 계층적 언어 모델링과 유한 상태 양자화를 통해 ...

최신 AI 리소스

7개월 전

045.1K

InternVLA-N1 - 상하이 AI 랩 오픈 소스 엔드투엔드 듀얼 시스템 내비게이션 대형 모델

InternVLA-N1은 상하이 인공 지능 연구소에서 오픈소스화한 엔드투엔드 듀얼 시스템 내비게이션 매크로 모델입니다. 이중 시스템 아키텍처를 사용하여 시스템 2는 언어 명령을 이해하고 장거리 경로를 계획하고, 시스템 1은 고주파 응답과 민첩한 장애물 회피에 중점을 둡니다. 이 모델은 전적으로 대규모 디지털을 통한 합성 데이터를 기반으로 훈련됩니다.

최신 AI 리소스

7개월 전

040.7K

WebWeaver - 알리 통이 오픈 소스 새로운 이중 지능 바디 프레임워크

웹위버는 알리바바 통이 팀이 도입한 새로운 이중 지능 바디 프레임워크로, 주로 오픈 딥 리서치에 사용되며 기획과 글쓰기라는 두 가지 지능으로 나뉘는 인간의 연구 과정을 시뮬레이션할 수 있습니다.

최신 AI 리소스

7개월 전

039.2K

MCP 레지스트리 - GitHub의 공식 MCP 서버 관리 플랫폼입니다.

MCP 레지스트리는 개발자가 MCP 서버를 더 쉽게 검색하고 설치할 수 있도록 도와주는 GitHub의 중앙 집중식 플랫폼으로, 개발자는 MCP 레지스트리를 통해 한 곳에서 필요한 AI 도구를 빠르게 찾을 수 있어 작업이 크게 간소화됩니다....

최신 AI 리소스

7개월 전

037.9K

VLAC - 상하이 AI 랩의 오픈 소스 대규모 보상 구체화 모델

VLAC은 상하이 인공지능 연구소에서 오픈소스로 구현한 보상 매크로 모델입니다. InternVL 다중 모드 매크로 모델을 기반으로 인터넷 비디오 데이터와 로봇 작동 데이터를 통합하여 실제 세계에서 로봇 강화 학습을위한 프로세스 보상 및 작업 완료 추정을 제공합니다.VLAC는 효과적으로 ...

최신 AI 리소스

7개월 전

033.5K

통이 딥리서치 - 알리 통이 오픈 소스 딥 리서치 인텔리전스 기관

통이 딥리서치(Tongyi DeepResearch)는 알리바바가 출시한 오픈 소스 지능형 기관으로, 심층 정보 검색과 복잡한 작업 추론을 위해 설계되었으며, 300억 개의 매개 변수를 사용하여 ReAct 모드와 깊이 모드를 포함한 여러 추론 모드를 지원합니다....

최신 AI 리소스

7개월 전

042K

InternVLA-M1 - 오픈소스로 구현된 상하이 AI 랩의 이중 시스템 운영 '브레인'

InternVLA-M1은 상하이 인공 지능 연구소의 오픈 소스로 구현된 운영 '두뇌'로, 명령에 따라 작동하는 두 가지 시스템 운영의 대형 모델입니다. 이 모델은 '사고-행동-학습'을 포괄하는 완전한 폐쇄 루프를 구축하며 높은 수준의 공간 추론과 작업 계획을 담당합니다. 이 모델은 2단계 교육 정책을 채택합니다 ...

최신 AI 리소스

7개월 전

033.2K

AI 시대에 앞서 나가기 위한 OpenAI의 PDF 가이드 - 다운로드 링크 포함

AI 시대에서 앞서 나가기는 비즈니스 리더가 AI 시대에 경쟁력을 유지할 수 있도록 도와주는 OpenAI의 AI 리더십 가이드입니다. 이 가이드는 더 빠른 모델 출시, 더 낮은 비용, 더 빠른 엔터프라이즈 채택과 함께 AI의 빠른 성장에 대해 설명합니다.

최신 AI 리소스 코스 정보

7개월 전

042.5K

절강대학교의 대형 모델 기초 무료 PDF - 다운로드 링크 포함

대규모 모델 기초는 대규모 언어 모델(LLM)의 핵심 기술과 실무 경로를 심도 있게 분석합니다. 언어 모델링의 기초 이론부터 시작해 통계, 순환신경망(RNN), 트랜스포머 아키텍처를 기반으로 한 모델 설계 원리를 3대 대규모 언어 모델에 초점을 맞춰 체계적으로 설명합니다.

최신 AI 리소스 코스 정보

7개월 전

044K

循环神经网络（Recurrent Neural Network）是什么，一文看懂

순환신경망(RNN)이란 무엇인가요?

순환 신경망(RNN)은 순차적 데이터를 처리하기 위해 설계된 신경망 아키텍처입니다. 순차 데이터란 언어 텍스트, 음성 신호 또는 시계열과 같이 시간적 순서나 종속성이 있는 데이터의 집합을 말합니다.

AI 답변

7개월 전

040.7K

신경망(뉴럴 네트워크)이란 무엇인가, 읽고 이해하기 위한 글

신경망(NN)은 생물학적 뇌에서 뉴런이 작동하는 방식에서 영감을 얻은 계산 모델입니다.

AI 답변

7개월 전

032.5K

PromptEnancer - 텐센트 혼합 메타 오픈 소스 AI 프롬프트 단어 향상 도구

PromptEnhancer는 텍스트-대-이미지(텍스트-대-이미지, T2I) 모델의 생성을 개선하기 위해 Tencent의 혼합 메타 팀이 개발한 오픈 소스 프롬프트 단어 향상 도구입니다. 추론의 사슬(Chain-of-Thought, CoT) 접근 방식을 통해 ...

최신 AI 리소스

7개월 전

038.6K

LLaSO - 로직 인텔리전스의 업계 최초 완전 오픈 소스 음성 모델

LLaSO는 베이징 뎁스 로직 인텔리전스 테크놀로지가 출시한 오픈 소스 음성 모델로, 음성 및 텍스트 데이터를 통합하고 정렬 데이터 세트, 명령 미세 조정 데이터 세트 및 평가 벤치마크를 제공하여 대규모 음성 언어 모델링 분야의 데이터 분산과 작업 범위 부족 문제를 해결합니다.

최신 AI 리소스

7개월 전

029.6K

하이브리드 3D 3.0 - UHD 모델링을 지원하는 텐센트의 3D 생성 모델

하이브리드 3D 3.0은 3D-DiT 계층적 조각 기술을 기반으로 한 텐센트의 고급 3D 세대 모델로, 최대 1536³의 기하학적 해상도로 초고화질, 디테일이 풍부한 3D 모델을 생성할 수 있으며 오감 및 체형을 정확하게 형상화하는 등 캐릭터 모델링에 탁월한 능력을 갖추고 있습니다.

최신 AI 리소스

7개월 전

047.6K

UnifoLM-WMA-0 - 유슈 테크놀로지 오픈 소스 월드 모델 액션 아키텍처

UnifoLM-WMA-0은 일반 로봇 학습을 위해 설계된 유슈 테크놀로지의 여러 로봇 온톨로지 클래스에 걸친 오픈 소스 월드 모델-액션 아키텍처입니다. 월드 모델과 액션 아키텍처로 구성된 월드 모델은 로봇과 환경 상호 작용의 물리적 법칙을 이해하고, 액션 아키텍처는 특정 동작을 담당합니다.

최신 AI 리소스

7개월 전

047.3K

InfiniteTalk - 미션 비전 AI를 위한 오픈 소스 오디오 기반 비디오 생성 도구

인피니트토크는 입력된 오디오를 기반으로 길이에 제한 없이 말하는 동영상을 생성하는 오디오 기반 동영상 생성 도구로, MeiGen-AI 팀이 개발했습니다. 핵심 장점은 정밀한 립싱크 기술로 오디오와 캐릭터의 입 모양을 완벽하게 일치시켜 자연스럽고 부드러운...

최신 AI 리소스

7개월 전

056.6K

Mini-o3 - 바이트, HKU 공동 오픈 소스 시각적 추론 모델

Mini-o3는 복잡한 시각적 검색 문제를 해결하는 데 초점을 맞춘 ByteDance와 홍콩 대학교가 공동으로 출시한 오픈 소스 모델입니다. 이 모델은 강력한 다원적 대화형 추론 기능을 갖추고 있으며, 심층적인 탐색과 시행착오를 통해 대상을 찾을 수 있습니다.

최신 AI 리소스

7개월 전

034.4K

GPT-5-Codex - OpenAI가 도입한 가장 강력한 프로그래밍 모델

GPT-5-Codex는 소프트웨어 엔지니어를 위해 설계된 OpenAI의 강력한 프로그래밍 최적화 모델로, GPT-5에 의해 더욱 강화되었습니다. 이 모델은 고품질 코드를 신속하게 생성하고 여러 프로그래밍 언어를 지원하며 기존 코드를 최적화하여 성능을 향상시킵니다.

최신 AI 리소스

7개월 전

030.8K

ROMA - 병렬 처리를 위한 복잡한 작업의 자동 분해를 위한 오픈 소스 메타 에이전트 프레임워크

ROMA(Recursive-Open-Meta-Agent)는 재귀적 작업 분해와 병렬 처리를 통해 복잡한 문제를 효율적으로 해결하기 위해 Sentient AGI에서 개발한 오픈 소스 메타 에이전트 프레임워크입니다. Python 3.12 이상, Docker 및...

최신 AI 리소스

7개월 전

045K

Lumina-DiMOO - 상하이 AI 랩과 화웨이 라이즈가 오픈소스화한 멀티모달 대형 모델

Lumina-DiMOO는 세계 인공지능 컨퍼런스 2025에서 화웨이 라이즈와 함께 상하이 인공 지능 연구소(AIL)가 출시한 차세대 멀티모달 생성 및 이해를 위한 통합 모델입니다. Rise AI 기본 하드웨어 및 소프트웨어 플랫폼과 MindSpeed MM 멀티모달 대형 모델 제품군을 기반으로 ...

최신 AI 리소스

7개월 전

040.4K

하이프노트 - 오픈 소스 로컬 최초의 AI 회의 노트 필기 도구

하이프노트는 사용자의 개인정보를 보호하고 회의 효율성을 개선하기 위해 전문가를 위해 설계된 로컬 우선의 오픈 소스 AI 회의 노트 필기 도구입니다. '로컬 우선' 원칙을 채택하여 모든 데이터 저장과 처리가 사용자의 로컬 장치에서 이루어지므로 데이터 보안을 보장하고 오프라인 작업을 지원합니다.

최신 AI 리소스

7개월 전

040.3K

MobileLLM-R1 - 메타 오픈소스에 특화된 효율적인 추론 모델 시리즈

MobileLLM-R1은 수학적, 프로그래밍 및 과학적 추론을 위해 설계된 Meta의 효율적인 추론 모델 오픈 소스 시리즈입니다. 여기에는 각각 1억 4천만 개, 3억 6천만 개, 9억 5천만 개의 매개변수 버전이 포함된 기본 모델과 최종 모델이 포함되어 있습니다. 이 모델은 일반적인 채팅 모델이 아니며 미세 조정(SFT...

최신 AI 리소스

7개월 전

032.7K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - 바이두 오픈 소스 추론 사고 모델

ERNIE-4.5-21B-A3B-Thinking은 추론 작업에 초점을 맞춘 바이두의 오픈 소스 대규모 언어 모델입니다. 혼합 전문가(MoE) 아키텍처를 사용하여 총 참조 수는 210억 개에 달하며, 각 토큰은 30억 개의 매개 변수를 활성화하여 128K의 긴 컨텍스트 창을 지원합니다 ...

최신 AI 리소스

7개월 전

030.6K

인공지능 공정성(AI 공정성)이란 무엇인가요?

AI 공정성은 AI 시스템이 설계, 개발, 배포 및 운영의 수명 주기 동안 모든 개인과 집단을 공정하고 편견 없는 방식으로 대하도록 보장하는 다학제적 분야입니다.

AI 답변

7개월 전

037.3K

메타 학습(메타 러닝)이란 무엇인가요?

메타 학습 또는 학습 방법 학습은 새로운 작업에 빠르게 적응할 수 있는 학습 알고리즘을 개발하는 데 중점을 둔 머신 러닝 분야의 중요한 분야입니다.

AI 답변

7개월 전

041.6K

MobiAgent - 상하이교통대학교 오픈 소스 모바일 인텔리전트 바디 풀스택 구축 프레임워크

모비에이전트는 상하이교통대학교 IPADS 연구소의 오픈 소스 모바일 지능형 바디 툴 체인으로, 사용자가 자신만의 모바일 지능형 비서를 구축할 수 있도록 도와줍니다. 사용자의 동작 궤적을 기록하고 고품질 데이터를 생성하여 자연어 명령을 이해할 수 있는 지능형 바디를 훈련시킵니다. 핵심 기능에는 효율적인...

최신 AI 리소스

7개월 전

038.2K

ZipVoice - Xiaomi의 오픈 소스 음성 합성 모델 제품군

ZipVoice(제로 샘플 단일 화자 음성 합성 모델)와 ZipVoice-Dialog(제로 샘플 대화 음성 합성 모델)를 포함하여 Xiaomi에서 출시한 Flow Matching 아키텍처 기반의 일련의 음성 합성(TTS) 모델로, ZipVoice는 ...

최신 AI 리소스

7개월 전

046.4K

PP-OCRv5 - 차세대 텍스트 인식을 위한 바이두의 오픈소스 AI 모델

PP-OCRv5는 바이두에서 출시한 최신 세대의 텍스트 인식 AI 모델입니다. 경량 설계와 0.07B에 불과한 참조 개수로 CPU와 엣지 디바이스에서 효율적으로 실행하기에 적합하며 초당 370개 이상의 문자를 처리할 수 있습니다. 이 모델은 중국어 간체, 중국어 번체, 영어, 일본어, 병음...을 지원합니다.

최신 AI 리소스

7개월 전

059.7K

Youtu-GraphRAG - 텐센트 유투 랩의 오픈 소스 그래프 검색 증강 생성 프레임워크

Youtu-GraphRAG는 대규모 언어 모델이 복잡한 Q&A 작업을 보다 정확하게 처리할 수 있도록 지원하는 텐센트 유투 연구소의 오픈 소스 그래프 검색 증강 생성 프레임워크입니다. 4계층 지식 트리를 구성하여 지식을 속성, 관계, 키워드 및 커뮤니티의 네 가지 수준으로 분해하여 행위의 자기 숙달에 대한 교차 도메인 지식을 달성합니다....

최신 AI 리소스

7개월 전

039.5K

스탠드인 - 텐센트 위챗 비주얼 오픈 소스 경량 비디오 생성 프레임워크

스탠드인(Stand-In)은 텐센트 WeChat 비전 팀이 개발한 가벼운 플러그 앤 플레이 방식의 신원 보존 동영상 생성 프레임워크입니다. 동영상 생성 시 특정 신원 특징을 보존하는 데 초점을 맞춘 이 프레임워크는 기본 모델 1%의 추가 파라미터만 학습하면 얼굴 유사성과 자연스러움에서 탁월한 결과를 얻을 수 있습니다.

최신 AI 리소스

7개월 전

037.6K

IndexTTS2 - 정밀한 지속 시간 제어를 최초로 지원하는 B 스테이션 오픈 소스 무료 TTS 모델

IndexTTS2는 B 스테이션 음성 팀이 오픈소스화한 새로운 무료 텍스트 음성 변환(TTS) 모델로, 감정 표현과 지속 시간 제어에서 획기적인 발전을 이루었으며, 정밀한 지속 시간 제어를 지원하는 최초의 자동 회귀형 TTS 모델입니다. 제로 샘플 음성 복제를 지원하며 하나의 오디오 파일 만 사운드를 정확하게 복사 할 수 있습니다....

최신 AI 리소스

7개월 전

099.2K

MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

미니막스 뮤직 1.5 - 미니막스의 최신 AI 음악 생성 모델!

미니맥스 뮤직 1.5는 사용자의 자연어 설명을 기반으로 최대 4분 분량의 음악 생성을 지원하는 고급 AI 음악 생성 도구입니다. 이 모델은 다양한 음악 스타일과 분위기 사용자 지정을 지원하며 자연스럽고 완전한 보컬 톤, 부드러운 전환 및 풍부한 레이어 편곡을 생성합니다....

최신 AI 리소스

7개월 전

039.4K