SenseNova-SI - 상탕 테크놀로지의 오픈 소스 공간 인텔리전스 대규모 모델 제품군
센스노바-SI는 샹테크에서 출시한 오픈 소스 공간 지능 그랜드 모델로, 공간 이해와 추론에 있어 AI의 능력을 향상시키는 데 중점을 두고 있습니다. 이 모델은 공간 측정, 재구성, 관계 판단, 원근 변환, 변형 분석, 공간 추론 등 6가지 핵심 차원에서 탁월한 성능을 발휘하며 다른 모델보다 월등히 뛰어납니다.
다국어 ASR - 메타의 다국어 음성 인식 프레임워크
다국어 ASR은 Meta에서 도입한 다국어 음성 인식 프레임워크로 1600개 이상의 언어를 지원하며 78% 언어 문자 오류율이 10%보다 낮습니다. 70억 개의 파라미터를 가진 wav2vec 2.0 인코더와 CTC 및 트랜스포머 디코더를 결합하여...
Frappe Builder - 오픈 소스 AI 로우코드 웹사이트 빌더, 빠른 구축을 위한 드래그 앤 드롭 구성 요소
Frappe 빌더는 Frappe에서 개발한 오픈 소스 로우코드 웹사이트 빌더로, 핵심 기능은 드래그 앤 드롭 구성 요소를 지원하는 Figma와 유사한 시각적 편집기를 제공하여 웹사이트를 빠르게 구축할 수 있도록 하는 것입니다. Frappe 생태계의 일부(Frappeverse)...
DeepOCR - DeepSeek-OCR 모델을 기반으로 하는 오픈 소스 복제본 프로젝트
DeepOCR은 광학 압축 기술을 통해 텍스트 정보를 효율적으로 처리하는 DeepSeek-OCR의 핵심 아키텍처를 구현하는 오픈 소스 복제 프로젝트입니다. 핵심은 SAM 기반(고해상도 이미지 처리), 16× 컨볼루션 압축기로 구성된 DeepEncoder입니다.
NocoBase - 애플리케이션을 시각적으로 구축할 수 있는 무료 오픈 소스 AI 노코드 개발 플랫폼입니다.
노코베이스는 AI 기반 오픈 소스 노코드 개발 플랫폼을 기반으로 비즈니스 시스템의 신속한 구축을 지원하며, 애플리케이션 개발 구성을 통해 프로그래밍을 완료 할 수 없습니다. 이 프로젝트는 Apache-2.0 프로토콜을 사용하고 기업 관리, 협업 플랫폼 및 기타 분야에 적합한 개인 배포 및 유연한 확장 성을 제공합니다 ...
래빗쇼 인텔리전스와 북경대학교가 출시한 차세대 이미지 편집 모델, UniWorld V2
유니월드 V2는 래빗잔 인텔리전스와 북경대학교의 유니월드 팀이 공동으로 출시한 차세대 이미지 편집 모델입니다. 이미지 편집 분야, 특히 복잡한 명령의 중국어 이해와 실행에 있어 상당한 이점을 가지고 있습니다. 이 모델은 예술적인 중국어 글꼴을 정확하게 렌더링하고 미세한 글꼴을 지원할 수 있습니다.
SmartResume - Alibaba 오픈 소스 AI 이력서 구문 분석 및 최적화 도구
SmartResume은 PDF, 이미지 또는 Office 문서에서 기본 정보, 교육 및 업무 경험과 같은 구조화된 정보를 효율적으로 추출하는 Alibaba의 오픈 소스 지능형 이력서 구문 분석 및 최적화 도구입니다. OCR 기술과 PDF 메타데이터를 통합하여 ...
Step-Audio-EditX - 스텝스타의 오픈 소스 최초 LLM급 오디오 편집 대형 모델
Step-Audio-EditX는 스텝스타 팀이 개발한 오픈 소스 오디오 편집 매크로 모델로, 인공 지능 기술을 통한 오디오 콘텐츠의 세밀한 조작에 중점을 두고 있습니다. 이 모델은 오디오 분위기, 말하기 스타일(예: 투정, 노인 억양 등) 및 반언어적 요소(예: 웃음, 한숨...)를 동적으로 조정할 수 있습니다.
Open-o3 비디오 - 북경대학교에서 오픈소스화한 비디오 추론 모델 유나이티드바이트
Open-o3 Video는 북경대학교와 바이트댄스가 공동 개발한 오픈 소스 비디오 추론 모델로, 시간적 및 공간적 증거를 통해 비디오 추론을 향상시키는 데 중점을 두고 있습니다. 타임스탬프와 바운딩 박스로 주요 증거에 명시적으로 레이블을 지정하여 모델이 비디오 콘텐츠를 더 잘 이해하고 해석할 수 있도록 도와줍니다.
핸디 - 오픈 소스 무료 네이티브 AI 음성 텍스트 변환 도구
Handy는 오픈 소스 기반의 무료 로컬 음성 텍스트 변환 도구로, Rust와 React에서 개발한 Windows, MacOS, Linux 시스템을 지원합니다. 클라우드에 업로드하지 않고 로컬에서 음성 데이터를 처리하기 때문에 개인정보 보호와 보안이 보장되며 빠른 전사 및 텍스트 입력에 적합합니다.









