GLM-4.6V는 스마트 스펙트럼 AI에서 오픈소스화한 멀티모달 대규모 언어 모델 시리즈로, 클라우드 및 고성능 클러스터 시나리오를 위한 기본 버전인 GLM-4.6V(106B-A12B)와 혼합 전문가(MoE) 아키텍처, 총 약 106억 개의 레퍼런스, 활성화... 등 두 가지 버전이 있습니다.
Kimi K2-0905는 프로그래밍 지원 기능이 뛰어나고 코드를 효율적으로 생성하며 프론트엔드 개발에서 깔끔하고 표준화된 코드 생성을 지원하는 다크 사이드 오브 더 문 테크놀로지스의 고급 AI 모델입니다. 모델 컨텍스트 길이가 256K로 확장되어 복잡한 작업을 처리할 수 있습니다.
스카이워크 유니픽 2.0은 이미지 생성, 편집, 이해에 초점을 맞춘 효율적인 멀티모달 모델로, 퀸테센스가 오픈소스로 제공합니다. 이 모델은 2B 매개변수 SD3.5-Medium 아키텍처를 기반으로 하며 사전 교육, 점진적인 이중 작업 강화 전략 및 공동 교육을 통해 실현됩니다....
GPT-5는 OpenAI가 여러 가지 업그레이드를 통해 출시한 최신 언어 모델입니다. 문제의 복잡성에 따라 효율적인 모드와 심층 사고 모드를 자동으로 전환하여 빠른 응답과 정확한 답변을 가능하게 하는 실시간 라우터가 내장된 통합 지능 시스템입니다.GPT-5에는 푸시용을 포함하여 여러 버전이 있습니다....
퀀이미지는 알리바바 통이 첸첸 팀이 공개한 오픈 소스 이미지 생성 기본 모델입니다. 200억 개의 매개 변수로 멀티모달 이해, 고해상도 코딩, 확산 모델링의 세 가지 모듈을 통합하는 멀티모달 확산 트랜스포머 아키텍처(MMDiT)를 채택하고 있습니다.Qwen-Image의...
레드원은 리틀 레드북에서 도입한 소셜 네트워크에 특화된 대규모 언어 모델입니다. 이 모델은 사회 및 문화적 지식을 통합하고, 멀티태스킹 기능을 강화하며, 인간의 선호도를 조정하는 3단계 훈련 전략을 통해 훈련되며, RedOne은 소셜 작업 성능, 유해 콘텐츠 탐지 및 검색에서 기본 모델보다 훨씬 뛰어난 성능을 발휘합니다....
TRAE SOLO는 바이트댄스에서 출시한 인공지능 프로그래밍 어시스턴트인 TRAE가 인공지능 기술로 소프트웨어 개발 과정을 간소화하기 위해 선보인 인공지능 자동 개발 도우미로, 사용자의 요구 사항을 이해하고 텍스트 설명, 음성 명령, 파일 업로드 등을 지원하여 요구 사항을 입력하면 자동으로 계획을 세우고...
포괄적 인 소개 라이브토킹은 오픈 소스 실시간 대화 형 디지털 휴먼 시스템으로 고품질 디지털 휴먼 라이브 솔루션을 구축하기 위해 최선을 다하고 있습니다. 이 프로젝트는 아파치 2.0 오픈 소스 프로토콜을 사용하며, ER-NeRF 렌더링, 실시간 오디오 및 비디오 스트리밍 처리 등 다양한 최첨단 기술과 통합되어 있습니다 ...
Yume 1.5는 상하이 인공지능 연구소, 푸단대학교, 상하이 혁신 연구소가 공동 개발한 오픈 소스 인터랙티브 월드 생성 모델로, 실시간 인터랙티브 렌더링(단일 카드에서 12FPS)이 가능합니다. 컨텍스트 길이가 증가하더라도 공동 시공간 채널 모델링(TSCM) 기술을 채택하여...
AutoMV는 M-A-P 팀이 여러 대학과 협력하여 개발한 오픈 소스 뮤직비디오 생성 시스템으로, 교육 없이도 완성된 곡을 기반으로 일관된 뮤직비디오를 자동으로 생성할 수 있으며, 음악 분석, 대본 작성, 연출 및 품질 관리 모듈을 포함한 다중 지능 협업 모델을 채택하여 가사, 비트 등을 정확하게 분석할 수 있습니다....
텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5는 1.8B와 7B 두 가지 모델을 포함하여 33 개 국제 언어와 5 가지 중국어 및 중국어 / 방언 번역을 지원하는 텐센트 하이브리드 오픈 소스 번역 모델 버전 1.5입니다.1.8B 모델은 휴대 전화 및 기타 소비자 등급 장치에 특별히 최적화되어 있으며 1GB의 RAM 만 얻을 수 있습니다.
페르소나라이브는 마카오 대학교, dzine.ai, 그레이터 베이 지역 대학교의 GVC 랩이 공동 개발한 오픈 소스 실시간 AI 얼굴 교체 라이브 스트리밍 프레임워크입니다. 일반 소비자용 그래픽 카드(12GB 비디오 메모리)에서 지연 시간이 짧고 프레임 속도가 빠른 디지털 퍼스널 드라이브를 구현할 수 있으며 카메라를 통한 실시간 스트리밍을 지원합니다....
ClipSketch AI는 짧은 동영상 제작자를 위해 설계된 오픈 소스 동영상에서 손으로 그린 분할 화면 도구입니다. B 스테이션, 샤오홍슈 및 기타 플랫폼의 동영상을 한 번의 클릭으로 손으로 그린 스타일의 스토리보드로 변환하고, 키 프레임 표시, 서브 장면 자동 생성 및 소셜 카피를 지원하며, 사용자 정의 역할을 통합할 수 있습니다.
MAI-UI는 알리바바 통이 연구소의 오픈 소스 범용 GUI 지능형 바디 기반 모델로, 애플리케이션 간 작동, 퍼지 의미 이해, 능동적 사용자 상호 작용 및 다단계 프로세스 조정이라는 네 가지 주요 기능을 갖추고 있습니다. 엔드 클라우드 협업 아키텍처를 채택한 경량 모델은 장치에 상주하여 일상적인 작업을 처리하고 복잡한 작업은 클라우드를 대규모로 호출할 수 있습니다.
인스턴스어셈블은 샤오홍슈와 푸단대학교가 공동으로 오픈소스화한 레이아웃 제어 생성 기술로, '인스턴스 어셈블 주의' 메커니즘을 통해 단순한 레이아웃에서 복잡한 레이아웃, 희박한 레이아웃에서 조밀한 레이아웃까지 정확한 이미지 생성을 달성합니다. 먼저 이미지 배경에 2단계 캐스케이드 아키텍처를 채택한 다음 하나씩 하나씩 ...
Zen 브라우저는 Firefox 커널 기반의 오픈 소스 브라우저로, 세로 탭 표시줄 및 작업 공간 분리와 같은 핵심 기능을 통해 간단하고 효율적인 브라우징 경험에 중점을 두고 있습니다. 사이드바 디자인으로 50개 이상의 탭의 전체 제목을 명확하게 표시하고 다중 창 분할 화면 브라우징을 지원합니다.
QwenLong-L1.5는 알리바바 통이 연구소의 오픈 소스 긴 텍스트 추론 모델로, 매우 긴 컨텍스트(예: 100만~4백만 토큰)의 복잡한 추론 문제를 해결하는 데 중점을 둡니다. 핵심 혁신은 지식 그래프, SQL 구문 분석 및 다중 지능을 통한 학습 후 단계의 세 가지 주요 혁신에 있습니다 ...
MedASR은 구글이 오픈소스화한 1억 5천만 개의 파라미터 의료 음성 인식 모델로, 5,000시간의 감작된 임상 말뭉치를 기반으로 미세 조정되어 약물, 용량 및 해부학 용어에 최적화되어 있으며, 6그램의 의료 언어 모델이 내장되어 있고 민간 방사선 데이터 세트 RAD-DICT에서 단어 오류율이 4.6에 불과합니다....