메소-(화학)미니맥스 스피치 2.5 - 미니맥스의 음성 생성 모델
미니막스 스피치 2.5는 미니막스 팀이 개발한 고급 음성 생성 모델입니다. 특히 다국어 표현력, 음색 재현 정확도 및 언어 범위 측면에서 음성 합성 분야의 중요한 발전입니다. 이 모델은 40개 언어를 지원합니다...
메소-(화학)GPT-5 - 통합 인텔리전스 시스템인 OpenAI가 도입한 가장 강력한 언어 모델
GPT-5는 OpenAI가 여러 가지 업그레이드를 통해 출시한 최신 언어 모델입니다. 문제의 복잡성에 따라 효율적인 모드와 심층 사고 모드를 자동으로 전환하여 빠른 응답과 정확한 답변을 가능하게 하는 실시간 라우터가 내장된 통합 지능 시스템입니다.GPT-5에는 푸시용을 포함하여 여러 버전이 있습니다....
dots.vlm1 - 작은 레드북 하이랩 오픈소스 멀티모달 대형 모델
dots.vlm1은 리틀 레드북 하이랩에서 오픈소스로 공개한 최초의 멀티모달 빅 모델입니다. 처음부터 학습된 12억 개의 파라미터로 구성된 시각 인코더인 NaViT와 DeepSeek V3 대규모 언어 모델(LLM)을 기반으로 강력한 시각 인식 및 텍스트 추론 기능을 갖추고 있습니다.
LangExtract - 구조화된 정보를 추출하기 위한 Google의 오픈 소스 Python 라이브러리
LangExtract는 대규모 언어 모델(LLM)을 사용해 비정형 텍스트에서 구조화된 정보를 추출하는 Google 오픈 소스 Python 라이브러리입니다. 사용자 정의 명령과 몇 가지 예제를 통해 임상 노트와 같은 주요 세부 정보를 효율적으로 식별하고 정리할 수 있습니다.
퀀이미지 - 통이 첸첸, 퀀이미지의 오픈 소스 기본 모델 출시
퀀이미지는 알리바바 통이 첸첸 팀이 공개한 오픈 소스 이미지 생성 기본 모델입니다. 200억 개의 매개 변수로 멀티모달 이해, 고해상도 코딩, 확산 모델링의 세 가지 모듈을 통합하는 멀티모달 확산 트랜스포머 아키텍처(MMDiT)를 채택하고 있습니다.Qwen-Image의...
Gemini 2.5 Deep Think - Google의 AI 추론 모델
Gemini 2.5 Deep Think는 복잡한 작업을 해결하기 위해 설계된 Google의 AI 추론 모델입니다. 2025년 국제 수학 올림피아드(IMO)에서 금메달을 획득한 모델의 변형으로, 병렬을 통해 복잡한 작업을 해결하도록 설계되었습니다 ...
MindLink - 쿤룬웨이의 오픈 소스 추론 빅 모델
마인드링크는 쿤룬 월드와이드웹에서 출시한 오픈소스 추론의 대규모 모델입니다. 적응 형 추론 메커니즘을 통해 작업의 복잡성에 따라 유연한 전환 추론 모드, 간단한 작업 빠르게 생성, 복잡한 작업 심층 추론, 효율성과 정확성을 고려합니다. "생각"태그를 제거하기위한 계획 중심 추론 패러다임, 감소 ...
MirageLSD - Decart AI, 최초의 실시간 AI 비디오 생성 모델 출시
MirageLSD는 세계 최초의 실시간 스트리밍 확산 AI 동영상 모델로, 40밀리초의 짧은 지연 시간과 초당 24프레임의 부드러운 출력으로 무제한 실시간 동영상 생성이 가능합니다.
k2 - 달의 어두운 면 키미의 최신 MoE 아키텍처 기본 모델
일반 지식 추론, 프로그래밍, 수학, 에이전트의 주요 범주에 대한 벤치마크 성능 테스트에서 k2 모델은 Moonshot AI의 뛰어난 코드 및 에이전트 기능을 갖춘 MoE 아키텍처 기반 모델로, 총 매개 변수 1T와 활성화 매개 변수 32B를 갖추고 있습니다....
Grok 4 - Musk의 xAI 최신 대형 모델
Grok 4는 xAI의 최신 대형 AI 모델로, 이전 모델에 비해 10배 향상된 추론 능력을 제공합니다. 이 모델의 뛰어난 추론 능력 덕분에 SAT 및 GRE와 같은 어려운 시험에서 만점에 가까운 점수를 받을 수 있으며, 여러 벤치마크 테스트에서 다른 최첨단 모델보다 뛰어난 성능을 발휘합니다....