AI 공유 서클

최신 AI 제품, 프로젝트, 프레임워크, 논문 해석 등을 매일 공유합니다.
GLM-4.1V-Thinking - 智谱AI推出的开源视觉语言模型系列

GLM-4.1V-Thinking - 스마트 스펙트럼 AI의 오픈 소스 시각 언어 모델 제품군

GLM-4.1V-Thinking은 스마트 스펙트럼 AI에서 도입한 오픈 소스 시각 언어 모델로, 복잡한 인지 작업을 위해 설계되었으며 이미지, 비디오 및 문서를 포괄하는 멀티모달 입력을 지원합니다. GLM-4V 아키텍처를 기반으로 하는 이 모델은 사고의 사슬을 도입합니다 ...
1개월 전
02.1K
ThinkSound - 阿里通义推出的音频生成模型

ThinkSound - 알리 통이의 오디오 생성 모델링

씽크사운드는 알리 통이 스피치 팀이 도입한 최초의 CoT(연쇄적 사고) 오디오 생성 모델입니다. 이 모델은 CoT 추론의 도입을 기반으로 비디오 이미지에 정확하게 일치하는 음향 효과를 생성하여 기존 기술이 화면의 동적 세부 사항과 공간 관계를 포착하기 어렵다는 문제를 해결할 수 있습니다.
1개월 전
01.7K
Qwen-TTS - 阿里通义千问推出的语音合成模型

Qwen-TTS - 알리 통이 첸첸이 출시한 음성 합성 모델

Qwen-TTS는 알리 통이가 도입한 고급 음성 합성 모델입니다. 이 모델은 텍스트를 자연스럽고 부드러운 음성으로 효율적으로 변환하여 중국어, 영어, 베이징 방언 등 여러 언어와 방언을 지원하여 다양한 지역과 장면의 요구를 충족할 수 있습니다. 대규모 말뭉치 학습에 의존하는 이 모델의 음성 출력은 고품질의 운율이 있는 고품질입니다.
1개월 전
02.1K
MultiAgentPPT - 开源的AI演示文稿生成系统

멀티에이전트PPT - 오픈 소스 AI 프레젠테이션 생성 시스템

멀티에이전트PT는 오픈 소스 다중 지능형 AI 프레젠테이션 생성 시스템입니다. 사용자는 주제만 입력하면 시스템이 다중 지능형 협업을 기반으로 개요 생성, 주제 분할, 병렬 연구 및 내용 요약 및 기타 단계를 자동으로 완료하여 고품질 PPT를 신속하게 생성합니다....
1개월 전
02.4K
Ovis-U1 - 阿里推出的多模态统一AI模型

Ovis-U1 - Ali에서 출시한 멀티모달 통합 AI 모델

Ovis-U1은 알리바바 그룹의 Ovis 팀이 30억 개의 매개변수 규모로 도입한 멀티모달 통합 모델입니다. 이 모델은 멀티모달 이해, 텍스트-이미지 생성, 이미지 편집의 세 가지 핵심 기능을 갖추고 있으며 고급 아키텍처 설계와 협업 및 통합 교육 방법을 통해 고충실도 이미지 구현을 지원합니다.
1개월 전
02K
Doppl - 谷歌推出的AI虚拟试衣应用

Doppl - Google의 AI 가상 피팅 앱

도플은 구글의 AI 가상 피팅 앱입니다. 사용자가 전신 사진을 업로드하면 애플리케이션은 자신의 신체 디지털 버전에 옷 사진이나 스크린샷을 '착용'하고, 정적인 사진에서 AI가 생성한 동영상으로 변환하여 사용자가 옷이 신체에 미치는 효과를 더욱 실감나게 느낄 수 있도록 지원합니다.
2개월 전
01.7K
迅雷MCP - 迅雷推出的AI自动下载服务

쉰레이 MCP - 쉰레이에서 출시한 AI 자동 다운로드 서비스

쉰레이 MCP는 AI 기술을 기반으로 한 자동 다운로드 서비스인 쉰레이가 출시한 서비스입니다. 서비스를 지원하는 AI 애플리케이션의 사용자가 음성 또는 텍스트 입력으로 다운로드 요청을 하면 AI가 자동으로 네트워크 리소스를 검색하고 다운로드를 시작합니다. 쉰레이 MCP는 기존의 다운로드 방식을 탈피하여 PC 버전의 쉰레이와 NAS 쉰레이를 지원하며, 이를 통해 ...
2개월 전
01.6K
咔皮记账 - 商汤科技推出的智能AI记账应用

카피 부기 - ShangTech의 지능형 AI 부기 앱

카피 부기는 샹탕 테크놀로지에서 출시한 지능형 AI 부기 애플리케이션입니다. 이 애플리케이션은 자동 부기 기능을 핵심 기능으로 삼아 금액과 카테고리를 자동으로 식별하고 음성 입력을 지원하여 쉽고 편리하게 부기를 할 수 있습니다. 카피 부기는 청구 데이터를 지능적으로 분석하고 정기적으로 개인화된 소비 요약 및 재정 조언을 푸시하여 사용자가 더 나은 ...
2개월 전
02.1K
Gemini CLI - 谷歌开源的编程Agent

Gemini CLI - 구글 오픈 소스 프로그래밍 에이전트

Gemini CLI는 개발자에게 강력한 AI 기능을 제공하기 위해 Gemini 빅 모델을 개발자의 엔드포인트에 통합한 Google의 오픈 소스 AI 프로그래밍 도구입니다. 이 도구는 코드를 이해하고, 파일을 조작하고, 명령을 실행하고, 동적으로 문제를 해결하여 개발자가 효율적으로 생성 코드를 작성할 수 있도록 도와줍니다.
2개월 전
01.5K
AnimaTensor - 吐司AI等机构推出的二次元图像生成模型

AnimaTensor - Toast AI 등의 2진법 이미지 생성 모델

애니마텐서는 이미지 생성 프로세스의 '속도'를 예측해 노이즈 스케줄링을 최적화하는 혁신적인 V-예측 기법을 기반으로, 칼리오스트로랩 팀이 텐서아트와 협력해 개발한 2차원 이미지 생성 모델입니다....
2개월 전
01.5K