Genie 3 - O modelo universal do mundo do Google
O Genie 3 é uma nova geração de modelos de mundos universais do Google DeepMind que permite a geração de mundos virtuais altamente dinâmicos e coerentes em tempo real. O Genie 3 simula fenômenos físicos, ecossistemas naturais e oferece suporte à criação de cenários históricos e de fantasia. Com instruções de texto, os usuários podem...
Claude Opus 4.1 - O modelo de programação mais poderoso da Anthropic
O Claude Opus 4.1 é um modelo de linguagem em larga escala de última geração da Anthropic, projetado para o processamento eficiente de tarefas complexas. O modelo é excelente no domínio da programação, gerando código de alta qualidade, suportando até 32k de saída única e adaptando-se a uma ampla variedade de estilos de programação...
gpt-oss - uma família de modelos de inferência de código aberto da OpenAI
O gpt-oss é a família de modelos de inferência de código aberto da OpenAI que permite soluções de IA eficientes, flexíveis e fáceis de implantar para desenvolvedores. O gpt-oss vem em duas versões, o gpt-oss-120B com 117 bilhões de parâmetros e suporte para 8...
MiDashengLM - Modelo de compreensão de som de código aberto da Xiaomi
O MiDashengLM é o grande modelo de código aberto da Xiaomi para a compreensão eficiente do som, com a versão de parâmetro específico MiDashengLM-7B, com foco no processamento e na compreensão do áudio. O modelo é baseado no codificador de áudio Xiaomi Dasheng e no Qwen2.5-Omn...
MOSS-TTSD - Modelo de geração de fala de diálogo bilíngue de código aberto do Tsinghua Lab
O MOSS-TTSD é um modelo de diálogo falado de código aberto desenvolvido pelo Speech and Language Lab da Universidade de Tsinghua. O MOSS-TTSD pode converter scripts de diálogos de texto em diálogos naturais, suaves e expressivos, além de oferecer suporte à geração bilíngue em inglês e chinês.
AudioGen-Omni - Um modelo de geração de áudio multimodal da Racer
O AudioGen-Omni é um modelo de geração de áudio multimodal da Racer que gera áudio, fala e músicas de alta qualidade com base em entradas como vídeo, texto etc. O AudioGen-Omni se baseia em técnicas avançadas, como o transformador de difusão multimodal e o...
RedOne - o mais recente mega-modelo social da Little Red Book
O RedOne é um modelo de linguagem amplo, adaptado para redes sociais, apresentado pelo Little Red Book. O modelo é treinado por meio de uma estratégia de treinamento em três estágios que incorpora conhecimento social e cultural, fortalece os recursos de multitarefa e alinha as preferências humanas. O RedOne supera significativamente o modelo básico no desempenho de tarefas sociais, na detecção de conteúdo nocivo e na navegação...
FastDeploy - ferramenta de raciocínio e implantação de modelos grandes de alto desempenho da Baidu
O FastDeploy é uma ferramenta de raciocínio e implementação de alto desempenho da Baidu, projetada para Modelos de Linguagem Grandes (LLMs) e Modelos de Linguagem Visuais (VLMs). O FastDeploy foi desenvolvido com base na estrutura do Flying Paddle (PaddlePaddle) e oferece suporte a uma variedade de plataformas de hardware...
InteriorGS - Conjunto de dados semânticos gaussianos 3D da Qunar Technology
InteriorGS é um conjunto de dados semânticos gaussianos 3D de alta qualidade apresentado pela Qunar Technology. O conjunto de dados contém 1.000 cenas em 3D que abrangem mais de 80 ambientes internos, como residências, lojas de conveniência, salões de casamento e museus. O conjunto de dados tem mais de 554.000 instâncias de objetos em 755 categorias...
DragonV2.1 - Modelo de síntese de fala de amostra zero da Microsoft
O DragonV2.1 é um modelo avançado de conversão de texto em fala (TTS) de amostra zero da Microsoft. Com base na arquitetura Transformer, o modelo oferece suporte a clonagem de fala em vários idiomas e com amostra zero e gera uma fala natural e expressiva com apenas 5 a 90 segundos de prompts de voz.