dots.vlm1 - 작은 레드북 하이랩 오픈소스 멀티모달 대형 모델
dots.vlm1은 리틀 레드북 하이랩에서 오픈소스로 공개한 최초의 멀티모달 빅 모델입니다. 처음부터 학습된 12억 개의 파라미터로 구성된 시각 인코더인 NaViT와 DeepSeek V3 대규모 언어 모델(LLM)을 기반으로 강력한 시각 인식 및 텍스트 추론 기능을 갖추고 있습니다.
LangExtract - 구조화된 정보를 추출하기 위한 Google의 오픈 소스 Python 라이브러리
LangExtract는 대규모 언어 모델(LLM)을 사용해 비정형 텍스트에서 구조화된 정보를 추출하는 Google 오픈 소스 Python 라이브러리입니다. 사용자 정의 명령과 몇 가지 예제를 통해 임상 노트와 같은 주요 세부 정보를 효율적으로 식별하고 정리할 수 있습니다.
퀀이미지 - 통이 첸첸, 퀀이미지의 오픈 소스 기본 모델 출시
퀀이미지는 알리바바 통이 첸첸 팀이 공개한 오픈 소스 이미지 생성 기본 모델입니다. 200억 개의 매개 변수로 멀티모달 이해, 고해상도 코딩, 확산 모델링의 세 가지 모듈을 통합하는 멀티모달 확산 트랜스포머 아키텍처(MMDiT)를 채택하고 있습니다.Qwen-Image의...
Gemini 2.5 Deep Think - Google의 AI 추론 모델
Gemini 2.5 Deep Think는 복잡한 작업을 해결하기 위해 설계된 Google의 AI 추론 모델입니다. 2025년 국제 수학 올림피아드(IMO)에서 금메달을 획득한 모델의 변형으로, 병렬을 통해 복잡한 작업을 해결하도록 설계되었습니다 ...
MindLink - 쿤룬웨이의 오픈 소스 추론 빅 모델
마인드링크는 쿤룬 월드와이드웹에서 출시한 오픈소스 추론의 대규모 모델입니다. 적응 형 추론 메커니즘을 통해 작업의 복잡성에 따라 유연한 전환 추론 모드, 간단한 작업 빠르게 생성, 복잡한 작업 심층 추론, 효율성과 정확성을 고려합니다. "생각"태그를 제거하기위한 계획 중심 추론 패러다임, 감소 ...
MirageLSD - Decart AI, 최초의 실시간 AI 비디오 생성 모델 출시
MirageLSD는 세계 최초의 실시간 스트리밍 확산 AI 동영상 모델로, 40밀리초의 짧은 지연 시간과 초당 24프레임의 부드러운 출력으로 무제한 실시간 동영상 생성이 가능합니다.
k2 - 달의 어두운 면 키미의 최신 MoE 아키텍처 기본 모델
일반 지식 추론, 프로그래밍, 수학, 에이전트의 주요 범주에 대한 벤치마크 성능 테스트에서 k2 모델은 Moonshot AI의 뛰어난 코드 및 에이전트 기능을 갖춘 MoE 아키텍처 기반 모델로, 총 매개 변수 1T와 활성화 매개 변수 32B를 갖추고 있습니다....
Grok 4 - Musk의 xAI 최신 대형 모델
Grok 4는 xAI의 최신 대형 AI 모델로, 이전 모델에 비해 10배 향상된 추론 능력을 제공합니다. 이 모델의 뛰어난 추론 능력 덕분에 SAT 및 GRE와 같은 어려운 시험에서 만점에 가까운 점수를 받을 수 있으며, 여러 벤치마크 테스트에서 다른 최첨단 모델보다 뛰어난 성능을 발휘합니다....
젠플로우 슈퍼 히치하이커 - 바이두 문학 도서관의 범용 AI 에이전트
젠플로우 슈퍼 히치하이커는 바이두 문헌 라이브러리에서 출시한 범용 AI 에이전트로, 사용자는 자연어 명령만 입력하면 작업을 독립적으로 분해하고 바이두 문헌 라이브러리의 14억 개 문서 라이브러리와 온라인 리소스를 호출하여 PPT, 보고서, 차트, 포스터 및 기타 전체 모달 콘텐츠를 매우 빠른 방식으로 생성할 수 있습니다.
Step-Audio-AQAA - 스텝펀의 엔드투엔드 빅 오디오 언어 모델
Step-Audio-AQAA는 StepFun 팀의 오디오 쿼리-오디오 응답(AQAA) 작업을 위한 엔드투엔드 대규모 오디오 언어 모델입니다. 기존의 자동 음성 인식(AQAA)에 의존하지 않고 오디오 입력을 직접 처리하여 자연스럽고 정확한 음성 응답을 생성할 수 있습니다.