Fish Audio - AI 음성 합성 및 사운드 복제 도구
Fish Audio는 텍스트 음성 변환(TTS)과 음성 복제를 지원하는 강력한 생성형 AI 음성 합성 도구입니다. 사용자는 텍스트만 입력하면 자연스럽고 부드러운 음성 변환을 지원하며, 플랫폼은 다양한 시나리오와 사용자에 맞게 선택할 수 있는 다양한 언어와 음성 스타일을 제공합니다.
SignGemma - 구글 딥마인드의 수어 번역 모델
시그넴마는 구글 딥마인드의 세계에서 가장 강력한 수어 통역 AI 모델로, 미국 수어(ASL)를 영어 텍스트로 정확하게 번역할 수 있도록 지원합니다. 이 모델은 시각 데이터와 텍스트 데이터를 결합하여 수화 동작을 실시간으로 포착하고 이를 텍스트로 빠르게 번역하는 다중 모드 학습을 기반으로 합니다....
FLUX.1 Kontext - 블랙 포레스트의 이미지 생성 및 편집 모델
FLUX.1 Kontext는 문맥 인식 이미지 처리 기술을 제공하는 Black Forest Labs의 이미지 생성 및 편집 모델입니다. 이 모델은 텍스트 및 이미지 단서에 대한 반응을 이해하고 개체 수정, 스타일 변환, 배경 교체와 같은 작업을 수행하면서 모서리를 유지합니다.
웹에이전트 - 알리 통이 오픈 소스 자율 검색 AI 에이전트
웹에이전트는 강력한 엔드투엔드 자율 정보 검색 및 다단계 추론 기능을 갖춘 알리바바 통이 연구소의 오픈소스 자율 검색 AI 에이전트로, 인간처럼 네트워크 환경에서 능동적으로 인식하고 결정하고 행동할 수 있으며 학술 연구, 비즈니스 의사 결정에 널리 사용됩니다...
링코드 IDE - 통이 링코드, AI 네이티브 개발 환경 도구 출시
스피릿 코드 IDE는 통이 스피릿 코드가 출시한 AI 네이티브 통합 개발 환경(IDE)으로, 천문 3대 모델에 깊이 적용되었으며 강력한 프로그래밍 지능체 모드를 통해 프로젝트 인식, 코드 검색, 터미널 작업 실행 등 작업의 자율적 완수를 지원합니다. MCP 도구를 지원하며 Magic Hitch MCP Square의 3...
BAGEL - 워드프레스에서 출시한 오픈 소스 멀티모달 기본 모델
바젤은 바이트댄스에서 오픈소스화한 멀티모달 기본 모델로, 140억 개의 파라미터가 있으며 이 중 70억 개가 활성화되어 있습니다. 모델 베이스와 두 개의 독립적인 인코더로 이미지의 픽셀 수준과 의미 수준 특징을 각각 캡처하는 혼합 트랜스포머 전문가 아키텍처(MoT)는 이미지, 텍스트, 비디오의 효율적인 처리를 지원합니다....
DeepSeek-R1 - DeepSeek의 AI 추론 모델, OpenAI o1 릴리스에 맞춰 성능 향상
DeepSeek-R1은 항저우에 본사를 둔 DeepSeek에서 출시한 고성능 AI 추론 모델로, OpenAI의 o1 공식 버전을 벤치마킹했습니다. 이 모델은 대규모 강화 학습 기법을 기반으로 사후 학습되며 수학, 코드 및 자연어로 추론하는 데 매우 적은 양의 레이블 데이터만 필요합니다.
팬텀보트 AI - 원스톱 AI 단편 영화 제작 플랫폼, 다양한 유형의 동영상 콘텐츠 일괄 생성
팬텀보트 AI는 광고, 프로모션, 애니메이션 등 다양한 유형의 동영상 콘텐츠를 효율적으로 일괄 생성할 수 있도록 지원하는 강력한 원스톱 AI 단편 영화 제작 플랫폼입니다. 이 플랫폼은 미드저니, 런웨이 및 기타 세계 최고의 AI 모델을 기반으로 하며, 크리에이터에게 대본 작성부터 촬영까지 다양한 서비스를 제공합니다.
회로 추적기 - 모델의 내부 작동을 시각화하기 위한 앤트로픽의 오픈 소스 툴입니다.
Circuit Tracer는 대규모 언어 모델의 내부 작동을 연구하기 위한 Anthropic의 오픈 소스 도구입니다. 어트리뷰션 그래프(어트리뷰션 그래프)를 생성하여 모델이 특정 출력을 생성할 때 거치는 내부 단계를 보여줍니다....
Google AI Edge 갤러리 - Google, AI 모델을 실행하는 휴대폰을 지원하는 AI 앱 출시
Google AI Edge Gallery는 사용자가 기본 기기에서 머신러닝(ML) 및 생성형 인공 지능(GenAI) 모델을 경험하고 사용할 수 있는 Google의 실험적인 AI 앱입니다. 이 앱은 Android 기기에서 지원됩니다.