AI 공유 서클

최신 AI 제품, 프로젝트, 프레임워크, 논문 해석 등을 매일 공유합니다.
Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - 텐센트 오픈 소스 효율적인 인텔리전트 바디 프레임워크

유투 에이전트는 텐센트 유투 랩의 자율 지능 구축 및 실행을 위한 오픈 소스 프레임워크입니다. 이 프레임워크는 각각 71.47% 및 72.8%의 정확도로 WebWalkerQA 및 GAIA 벤치마크에서 우수한 성능을 발휘하며, 이 프레임워크는 ...
1개월 전
023.1K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

훈위안비디오-폴리 - 텐센트의 오픈 소스 비디오 사운드 생성 모델

훈위안비디오-폴리는 무음 동영상에 정확하게 일치하는 음향 효과를 추가하는 것을 지원하는 텐센트 혼합원 팀의 오픈 소스 동영상 사운드 생성 모델입니다. 이 모델은 대규모 데이터 세트 학습을 기반으로 하며, 다중 모드 확산 변환기 아키텍처와 정렬 손실 함수 표현 및 오디오 VAE 최적화 기술이 결합되어 있습니다 ...
1개월 전
024.8K
PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5 - 아이시 테크놀로지스에서 자체 개발한 AI 비디오 모델 출시

PixVerse V5는 아이시 테크놀로지가 출시한 AI 동영상 생성의 대형 모델입니다. 이 모델은 사용자가 입력한 텍스트 설명이나 이미지를 기반으로 고품질의 동영상 콘텐츠를 생성할 수 있으며 애니메이션, 공상 과학, 내셔널 스타일 등 다양한 스타일을 지원합니다.
1개월 전
022.3K
问小白5 - 问小白推出的全能AI模型

'화이트에게 물어보세요 5' - '화이트에게 물어보세요'의 올인원 AI 모델

Ask White 5는 매우 높은 수준의 지능을 갖춘 플래그십 "올인원" 모델입니다. 이 모델은 AA-Index 종합 평가 점수 64.7점, STEM 능력 평가 점수 86점 등 여러 평가에서 우수한 성적을 거두었으며, 이는 세계 최고의 GPT-5에 근접한 점수입니다.
2개월 전
019.9K
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 플래시 이미지 - Google의 가장 강력한 이미지 생성 및 편집 모델

제미니 2.5 플래시 이미지(코드명 나노 바나나)는 구글의 최신 이미지 생성 및 편집 모델로, 여러 장면에서 캐릭터의 일관성을 유지하고 자연어를 통해 배경 흐림, 얼룩 제거 등 정밀한 이미지 편집을 지원합니다.
2개월 전
021.9K
Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V - 알리 통이 오픈 소스 오디오 기반 비디오 생성 모델

Wan2.2-S2V는 알리 통이의 오픈 소스 멀티 모달 비디오 생성 모델로, 정적 인 그림과 오디오 만 고품질 디지털 휴먼 비디오를 생성 할 수 있으며 다양한 이미지 유형과 프레임을 지원합니다.
2개월 전
023K
吴恩达面向开发者的ChatGPT提示工程免费课程

어니스트 응의 개발자를 위한 ChatGPT 팁 엔지니어링 무료 강좌

개발자를 위한 ChatGPT 팁 엔지니어링은 개발자를 위해 설계된 DeepLearning.AI와 OpenAI의 공동 과정으로, Isa Fulford, Andrew Ng가 대규모 언어 모델(LLM) 사용법을 알려줍니다....
2개월 전
020.1K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - 8가지 사고 경로를 동시에 열어주는 Ask o4에서 도입한 병렬 사고 모델

Ask White o4는 8개의 사고 경로를 동시에 열어 여러 관점에서 문제를 분석하고 최적의 해결책을 자동으로 필터링하는 혁신적인 병렬 사고 모델입니다. 이 모델은 고급 Long-CoT 강화 학습 및 프로세스 보상 학습 기법을 통합하고 강력한 심층 추론 기능을 갖추고 있으며 복잡한 작업에서 뛰어난 성능을 발휘합니다.
2개월 전
018.4K
VibeVoice - 微软推出的文本到语音模型

VibeVoice - Microsoft의 텍스트 음성 변환 모델링

VibeVoice는 Microsoft의 새로운 텍스트 음성 변환(TTS) 모델입니다. 이 모델은 최대 4개의 서로 다른 스피커에서 대화형 오디오를 생성하고 최대 90분의 연속 음성 출력을 지원하여 기존 TTS 시스템의 길이 제한을 극복합니다.
2개월 전
024.8K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpialGen - Qunar Technologies의 오픈 소스 3D 씬 생성 모델

스페이셜젠은 확산 모델 아키텍처를 기반으로 하는 쿠나 테크놀로지의 오픈 소스 3D 장면 생성 모델로, 텍스트 설명, 참조 이미지 및 3D 공간 레이아웃을 기반으로 시공간적으로 일관된 멀티뷰 이미지를 생성하고 3D 가우시안 장면 생성 및 로밍 비디오 렌더링을 지원합니다.
2개월 전
019.1K