Recursos mais recentes de IA

Total de 2716 artigos
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

meso (química)InternVLA-A1 - Integração de código aberto do Shanghai AI Lab de recursos operacionais para grandes modelos incorporados

O InternVLA-A1 é um grande modelo de operação incorporada de código aberto do Shanghai Artificial Intelligence Laboratory. Ele tem a capacidade de entender, imaginar e executar a integração, e pode concluir a tarefa com precisão. O modelo funde dados de operação reais e simulados e automatiza a construção de multimodais maciços por meio de ativos de cena híbrida virtual-real em grande escala...
16 horas atrás
0892
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

meso (química)VoxCPM - Facing Intelligence e Tsinghua Open Source End-to-End TTS Model

O VoxCPM é um modelo de geração de fala com código aberto em conjunto pela Facade Intelligence e pela Shenzhen International Graduate School da Universidade de Tsinghua. O VoxCPM adota uma arquitetura autorregressiva de difusão de ponta a ponta para gerar representações de fala contínua diretamente do texto, rompendo as limitações da desambiguação discreta tradicional. Por meio de modelagem de linguagem hierárquica e quantização de estado finito...
17 horas atrás
01.2K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

meso (química)InternVLA-N1 - Modelo grande de navegação de sistema duplo ponta a ponta do Shanghai AI Lab de código aberto

O InternVLA-N1 é um macromodelo de navegação de sistema duplo de código aberto de ponta a ponta do Shanghai Artificial Intelligence Laboratory. Usando uma arquitetura de sistema duplo, o Sistema 2 é responsável pela compreensão de comandos linguísticos e pelo planejamento de caminhos de longo alcance, enquanto o Sistema 1 se concentra na resposta de alta frequência e na evasão ágil de obstáculos. O modelo é treinado inteiramente com base em dados sintéticos por meio de um sistema digital de grande escala ...
17 horas atrás
01.2K
VLAC - 上海AI Lab开源的具身奖励大模型

meso (química)VLAC - Grande modelo de código aberto de recompensas incorporadas do Shanghai AI Lab

O VLAC é um macromodelo de recompensa incorporado de código aberto do Shanghai Artificial Intelligence Laboratory. Com base no macromodelo multimodal InternVL, ele integra dados de vídeo da Internet e dados de operação do robô para fornecer recompensa de processo e estimativa de conclusão de tarefas para o aprendizado de reforço de robôs no mundo real.
23 horas atrás
01.1K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

meso (química)InternVLA-M1 - "Cérebro" de operação de sistema duplo incorporado de código aberto do Shanghai AI Lab

O InternVLA-M1 é um "cérebro" operacional incorporado de código aberto do Laboratório de Inteligência Artificial de Xangai, que é um grande modelo de operação de dois sistemas orientado para o acompanhamento de instruções. Ele cria um loop fechado completo que abrange "pensar-agir-aprender" e é responsável pelo raciocínio espacial de alto nível e pelo planejamento de tarefas. O modelo adota uma política de treinamento em dois estágios...
2 dias atrás
02.8K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

meso (química)PDF gratuito de Fundamentals of Large Models da Universidade de Zhejiang - com link para download

Fundamentals of Large Models oferece uma análise aprofundada das principais tecnologias e dos caminhos práticos dos modelos de linguagem de grande porte (LLMs). Partindo da teoria fundamental da modelagem de idiomas, ele explica sistematicamente os princípios do design de modelos com base em arquiteturas estatísticas, de redes neurais recorrentes (RNN) e de transformadores, concentrando-se nos três principais modelos de idiomas de grande porte...
2 dias atrás
03.1K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - O primeiro modelo de fala de código aberto do setor da Logic Intelligence

O LLaSO é um modelo de fala de código aberto lançado pela Beijing Depth Logic Intelligence Technology Co. Ltd, que resolve os problemas de dispersão de dados e cobertura insuficiente de tarefas no campo da modelagem de linguagem de fala em larga escala, integrando dados de fala e de texto e fornecendo conjuntos de dados de alinhamento, conjuntos de dados de ajuste fino de comandos e referências de avaliação.
2 dias atrás
02.7K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模

Hybrid 3D 3.0 - Modelos gerados em 3D da Tencent com suporte para modelagem UHD

O Hybrid 3D 3.0 é um modelo avançado de geração de 3D da Tencent, baseado na tecnologia de escultura hierárquica 3D-DiT, com uma resolução geométrica de até 1536³, capaz de gerar modelos 3D de altíssima definição e ricos em detalhes, além de se destacar na modelagem de personagens, com a capacidade de moldar com precisão os cinco sentidos e o formato do corpo.
3 dias atrás
04.2K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Arquitetura de ação de modelo mundial de código aberto da Yushu Technology

O UnifoLM-WMA-0 é uma arquitetura de ação-modelo mundial de código aberto em várias classes de ontologias de robôs da Yu Shu Technology, projetada para o aprendizado geral de robôs. Composto por um modelo de mundo e uma arquitetura de ação, o modelo de mundo compreende as leis físicas da interação robô-ambiente, e a arquitetura de ação é responsável por...
3 dias atrás
04.3K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Ferramenta de geração de vídeo orientada por áudio de código aberto para Mission Vision AI

O InfiniteTalk é uma ferramenta de geração de vídeo orientada por áudio desenvolvida pela equipe do MeiGen-AI que gera vídeos falados de duração ilimitada com base no áudio de entrada. A principal vantagem é a tecnologia de sincronização labial precisa, que combina perfeitamente o áudio com o formato da boca do personagem, gerando uma fala natural e suave...
3 dias atrás
04.6K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - um modelo multimodal de grande porte com código aberto do Shanghai AI Lab e da Huawei Rise

O Lumina-DiMOO é um modelo unificado de nova geração para geração e compreensão multimodal lançado pelo Shanghai Artificial Intelligence Laboratory (SAL) em conjunto com a Huawei Rise na Conferência Mundial sobre Inteligência Artificial 2025. Baseado na plataforma básica de hardware e software da Rise AI e no conjunto de modelos multimodais de grande porte MindSpeed MM, ele completa a...
3 dias atrás
03.8K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Ferramenta de código aberto para anotações de conferências com IA local

O Hyprnote é uma ferramenta de anotações de reuniões de IA de código aberto, com prioridade local, desenvolvida para profissionais para proteger a privacidade do usuário e melhorar a eficiência das reuniões. Adotando o princípio "local first", todo o armazenamento e processamento de dados é feito no dispositivo local do usuário para garantir a segurança dos dados e oferecer suporte à operação off-line.
3 dias atrás
03.6K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Série de modelos de inferência eficientes especializados de código aberto Meta

O MobileLLM-R1 é a série de código aberto da Meta de modelos de inferência eficientes projetados para raciocínio matemático, de programação e científico. Ela contém um modelo básico e um modelo final, com 140 milhões, 360 milhões e 950 milhões de versões de parâmetros, respectivamente. Os modelos não são modelos genéricos de bate-papo e são supervisionados com ajuste fino (SFT...
4 dias atrás
03.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - estrutura de construção de pilha completa de corpo inteligente móvel de código aberto da Shanghai Jiaotong University

O MobiAgent é uma cadeia de ferramentas de corpo inteligente móvel de código aberto do IPADS Lab da Shanghai Jiaotong University, que ajuda os usuários a criar seus próprios assistentes inteligentes móveis. Ao registrar a trajetória de operação do usuário e gerar dados de alta qualidade, ele treina corpos inteligentes que podem entender comandos de linguagem natural. Os principais recursos incluem...
4 dias atrás
04.2K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - Modelo de IA de código aberto da Baidu para reconhecimento de texto de última geração

O PP-OCRv5 é a última geração do modelo de IA de reconhecimento de texto lançado pela Baidu. Com um design leve e uma contagem de referência de apenas 0,07B, ele é adequado para ser executado com eficiência em CPUs e dispositivos de borda, e pode processar mais de 370 caracteres por segundo. O modelo é compatível com chinês simplificado, chinês tradicional, inglês, japonês e pinyin...
4 dias atrás
04.6K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Estrutura de geração de aumento de recuperação de gráficos de código aberto do Tencent Youtu Labs

O Youtu-GraphRAG é uma estrutura de geração de aumento de recuperação de gráficos de código aberto do Tencent Youtu Labs para ajudar grandes modelos de linguagem a lidar com tarefas complexas de perguntas e respostas com mais precisão. Ao construir uma árvore de conhecimento de quatro camadas, o conhecimento é desmontado em quatro níveis: atributos, relacionamentos, palavras-chave e comunidades, para obter conhecimento de domínio cruzado do autodomínio do ato...
4 dias atrás
04.2K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Estrutura de geração de vídeo leve e de código aberto do WeChat Visual da Tencent

O Stand-In é uma estrutura de geração de vídeo leve, plug-and-play e com preservação de identidade da equipe do WeChat Vision da Tencent. Com foco na preservação de recursos específicos de identidade na geração de vídeos, ele só precisa treinar parâmetros adicionais do modelo básico 1% e pode obter excelentes resultados em termos de similaridade e naturalidade de rostos.
4 dias atrás
04.3K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - Modelo TTS gratuito de código aberto da estação B, o primeiro a oferecer suporte ao controle preciso da duração

O IndexTTS2 é um novo modelo de conversão de texto em fala (TTS) gratuito e de código aberto da equipe de voz da estação B, que alcança um grande avanço na expressão emocional e no controle de duração, o primeiro modelo TTS autorregressivo a oferecer suporte ao controle preciso de duração. Suporte à clonagem de voz de amostra zero, apenas um arquivo de áudio pode copiar com precisão o som...
6 dias atrás
09.4K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - O mais recente modelo de geração de música com IA da MiniMax!

O MiniMax Music 1.5 é uma ferramenta avançada de geração de música com IA que permite gerar até 4 minutos de música com base na descrição da linguagem natural do usuário. O modelo oferece suporte a uma ampla variedade de estilos musicais e personalização de humor, além de gerar tons vocais naturais e completos, transições suaves e arranjos ricos em camadas...
7 dias atrás
08.6K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - estrutura de geração de vídeo multimodal de código aberto da United Bytes da Universidade de Tsinghua

O HuMo é uma estrutura de geração de vídeo multimodal de código aberto, desenvolvida em conjunto pela Universidade de Tsinghua e pelo ByteDance Intelligent Creation Lab, com foco na geração de vídeo centrada no ser humano. Ele pode gerar vídeos humanos de alta qualidade, refinados e controláveis a partir de entradas multimodais, como texto, imagens e áudio. O HuMo oferece suporte a recursos avançados de acompanhamento de dicas de texto...
7 dias atrás
010.2K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Fudan e Ali Dharma Institute e outra estrutura de geração de animação de imagem inteligente de código aberto

AnyI2V é uma estrutura de geração de animação de imagens lançada em conjunto pela Fudan University, Alibaba Darmo Academy e outros, que oferece suporte à conversão de imagens condicionais estáticas (por exemplo, grades, nuvens de pontos etc.) em vídeos dinâmicos sem a necessidade de um processo de treinamento complexo e uma grande quantidade de dados.
7 dias atrás
08.1K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - Modelo de pensamento profundo da Baidu para melhor compreensão

O Wenxin Big Model X1.1 é um modelo de pensamento profundo lançado pela Baidu, com base em uma estrutura de aprendizado por reforço híbrido que se concentra em melhorar a compreensão e a geração de linguagem. O modelo é excelente em lidar com perguntas complexas, seguir instruções e simular o comportamento de inteligências, e pode fornecer com precisão respostas bem informadas e conteúdo de texto de alta qualidade.
1 semana atrás
09.3K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - Ferramenta gratuita de fatiamento de documentos semânticos de IA, ajuste dinâmico de fatiamento

O AntSK FileChunk é uma ferramenta gratuita de divisão inteligente de documentos projetada para aplicativos RAG (Retrieval Augmented Generation). Tendo a semântica como núcleo, o documento será fatiado de forma inteligente em segmentos semanticamente completos e coerentes, com suporte para vários idiomas e ajuste dinâmico do tamanho da fatia para garantir a coerência contextual.
1 semana atrás
09.3K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Estrutura de compreensão de documentos e recuperação semântica de código aberto do WeChat da Tencent

O WeKnora é um código-fonte aberto da equipe do Tencent WeChat baseado na estrutura de recuperação semântica e de compreensão de documentos do Large Language Model (LLM), projetado para a estrutura de cenários de conteúdo de documentos complexos e heterogêneos e projetado para usar uma arquitetura modular, integração de pré-processamento multimodal, indexação de vetores semânticos, recuperação inteligente e raciocínio generativo de modelo grande...
1 semana atrás
011.5K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Mecanismo de treinamento de modelo grande de código aberto do Shanghai AI Lab

O XTuner V1 é uma nova geração de mecanismo de treinamento de modelos de grande porte com código aberto do Shanghai Artificial Intelligence Laboratory, projetado para treinamento de modelos de especialistas mistos (MoE) esparsos em escala ultragrande. Desenvolvido com base no PyTorch FSDP, ele atinge alto desempenho por meio da otimização multidimensional de memória, comunicação e carga...
1 semana atrás
010.2K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Modelo emblemático de grande porte para idiomas da Tongyi Qianqian

O Qwen3-Max-Preview é o mais recente modelo de linguagem grande e emblemático lançado pela Tongyi Qianwen. É o modelo com o maior número de parâmetros na família Qwen3, com um tamanho de parâmetro de mais de 1 trilhão. O modelo apresenta melhorias significativas na inferência, no acompanhamento de instruções, no suporte a vários idiomas e na cobertura de conhecimento de cauda longa...
2 semanas atrás
011.4K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modelo multimodal de código aberto para a Meituan e a Shanghai Jiaotong University

O OneCAT é um novo modelo multimodal unificado lançado pela Meituan em conjunto com a Shanghai Jiaotong University, que adota uma arquitetura de decodificador puro que integra perfeitamente a compreensão multimodal, a geração de texto para imagem e as funções de edição de imagem. O modelo abandona o design dos modelos multimodais tradicionais que dependem de codificadores visuais externos e desambiguadores por meio de...
2 semanas atrás
09.2K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - um modelo de geração humana digital de vídeo longo lançado pela Bytes em colaboração com a ZJU

O InfinityHuman é um modelo de geração de vídeo de personagens de nível comercial, com longa série temporal e orientado por áudio, lançado em conjunto pela ByteDance e pela Universidade de Zhejiang. O modelo é orientado por áudio e pode gerar vídeos de personagens de alta resolução, longa duração e visualmente consistentes.
2 semanas atrás
09.5K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - Modelo de mundo de roaming ultralongo de código aberto da Tencent

O HunyuanWorld-Voyager (abreviação de Hunyuan Voyager) é o primeiro modelo mundial de roaming ultralongo do setor lançado pela Tencent que oferece suporte à reconstrução 3D nativa. Trata-se de uma nova estrutura de difusão de vídeo que gera sequências de nuvens de pontos 3D de caminhos de câmera definidos pelo usuário a partir de uma única imagem, suportando...
2 semanas atrás
013.3K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Macromodelagem de fala de código aberto Step-Star

O Step-Audio 2 mini é um macromodelo de fala de ponta a ponta de código aberto da Step-Audio. Ele rompe com a estrutura tradicional do modelo de fala e adota uma verdadeira arquitetura multimodal de ponta a ponta, que transforma diretamente a entrada de áudio bruto em saída de resposta de fala, com menor latência, e compreende informações paralinguísticas e sinais não vocais.
3 semanas atrás
016.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - Grandes modelos multimodais de código aberto do Shanghai AI Lab

O InternVL3.5 (Shusheng-Wanxiang 3.5) é um modelo multimodal de grande porte de código aberto do Laboratório de Inteligência Artificial de Xangai. O modelo foi totalmente atualizado em termos de capacidade geral, capacidade de raciocínio e eficiência de implementação, oferecendo nove tamanhos de versões, de 1 bilhão a 241 bilhões de parâmetros, abrangendo diferentes cenários de demanda de recursos, incluindo...
3 semanas atrás
015.8K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Conjunto de avaliação de código aberto do Meeseeks para avaliar a capacidade de seguir instruções de modelos

O Meeseeks é um conjunto de avaliação de modelos grandes de código aberto usado pela equipe M17 da Meituan para avaliar a capacidade de um modelo de seguir instruções. O Meeseeks usa uma estrutura de avaliação de três níveis para medir de forma abrangente se um modelo é capaz de gerar respostas estritamente de acordo com as instruções do usuário, do nível macro ao micro, e não avalia o conhecimento do conteúdo da resposta como um fator positivo...
3 semanas atrás
015.8K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - Modelo de geração de som de vídeo de código aberto da Tencent

O HunyuanVideo-Foley é um modelo de geração de som de vídeo de código aberto da equipe Mixed Yuan da Tencent, que oferece suporte à adição de efeitos sonoros combinados com precisão a vídeos silenciosos. O modelo é baseado em um treinamento de conjunto de dados em grande escala, com uma arquitetura de conversor de difusão multimodal, combinado com a representação da função de perda de alinhamento e técnicas de otimização de VAE de áudio...
3 semanas atrás
020.7K
问小白5 - 问小白推出的全能AI模型

Ask White 5 - Modelo de IA tudo em um da Ask White

O Ask White 5 é o principal modelo "All in One" com um nível muito alto de inteligência. O modelo tem um bom desempenho em muitas avaliações, como a pontuação de avaliação composta do AA-Index de 64,7 e a pontuação de avaliação de habilidade STEM de 86, que é próxima à do líder mundial GPT-5.
3 semanas atrás
015.6K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Um modelo de pensamento paralelo introduzido pelo Ask o4 que abre 8 caminhos de pensamento ao mesmo tempo

O Ask White o4 é um modelo inovador de pensamento paralelo que abre 8 caminhos de pensamento ao mesmo tempo, analisa o problema a partir de várias perspectivas e filtra automaticamente a solução ideal. O modelo incorpora técnicas avançadas de aprendizado por reforço Long-CoT e aprendizado por recompensa de processo, tem recursos avançados de raciocínio profundo e apresenta bom desempenho em tarefas complexas.
3 semanas atrás
015.7K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Modelo de geração de cenas 3D de código aberto da Qunar Technology

O SpatialGen é um modelo de geração de cenas 3D de código aberto da Qunar Technology, baseado na arquitetura do modelo de difusão, que oferece suporte à geração de imagens multivisualizadas com consistência espaço-temporal com base em descrições textuais, imagens de referência e layout espacial 3D, além de gerar cenas Gaussianas 3D e renderizar vídeos de roaming.
3 semanas atrás
014.8K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - Uma nova geração de modelos de reconhecimento de fala lançada em conjunto pela Nail e pela Tongyi

O Fun-ASR é um grande modelo de reconhecimento de fala lançado em conjunto pela Nail e pela Tongyi Labs. O modelo foi treinado com dados de áudio maciços e pode identificar com precisão a terminologia de vários setores, como Internet, tecnologia, decoração, etc., melhorando significativamente a precisão do reconhecimento. O modelo é combinado com as informações empresariais da Nail para otimização da inferência, a fim de reduzir o problema de...
4 semanas atrás
020.2K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler - plataforma de escrita assistida por IA para romances que alimenta todo o processo, da ideia à criação

O Squibler é uma poderosa plataforma de escrita assistida por IA projetada para escritores que ajuda os usuários em todo o processo, da concepção à criação e à publicação. A plataforma oferece uma variedade de modelos de histórias que abrangem romances, roteiros, contos etc. Os usuários só precisam inserir o conceito inicial, e a IA pode gerar esboços, personagens, cenas...
4 semanas atrás
015.8K
91写作 - 开源的AI智能小说创作平台

91Writing - Plataforma de criação inteligente de romances com IA de código aberto

91 Writing é uma ferramenta de criação de romances de IA de código aberto, desenvolvida com base no Vue 3 e no Element Plus, integrando uma variedade de modelos avançados de IA, como GPT, Claude, Gemini e assim por diante. A ferramenta oferece aos criadores uma cadeia completa de ferramentas de criação, da ideia ao texto, incluindo a criação de projetos...
4 semanas atrás
015.7K
Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - uma plataforma de simulação social multiagente lançada pela HKUST

A Aivilization é a primeira plataforma de simulação social de corpo multiinteligente de IA do mundo, desenvolvida pela Universidade de Ciência e Tecnologia de Hong Kong. Ela constrói uma caixa de areia digital visual onde os usuários podem criar e orientar milhares de inteligências de IA para observar a evolução social da futura coexistência entre humanos e IA. A plataforma suporta...
4 semanas atrás
025.5K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - Modelo de IA de código aberto xAI de Musk

O Grok 2.5 é um modelo de IA de código aberto da xAI de Elon Musk. Com 269 bilhões de parâmetros, ele se baseia na arquitetura Mixed Expertise (MoE) para desempenho e inferência avançados. O modelo foi testado em conhecimento científico de nível de pós-graduação (GPQA), conhecimento de uso geral (MMLU, MM...
4 semanas atrás
016.9K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - Ferramenta de código aberto de corte de vídeo com IA para gerar coleções de vídeos temáticos em um clique!

O AutoClip é uma ferramenta de edição de vídeo de IA de código aberto, baseada em tecnologia avançada de IA para realizar o processo completo de processamento automatizado de vídeo. As ferramentas podem identificar automaticamente os destaques do vídeo, extrair com precisão o conteúdo valioso e basear-se na semelhança do tema do agrupamento inteligente para gerar uma coleção de conteúdo.
4 semanas atrás
017.6K
ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer - Ferramenta de animação de IA generativa de código aberto da Tencent

O ToonComposer é uma ferramenta de animação de IA generativa lançada em conjunto pela Universidade Chinesa de Hong Kong, pelo Tencent PCG ARC Lab e pela Universidade de Pequim. Por meio da tecnologia generativa de pós-quadros-chave, a geração de quadros intermediários e o processo de coloração são integrados em um processo automatizado, exigindo apenas um esboço e uma...
4 semanas atrás
019.8K
Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - Um novo modelo de IA de código aberto pela equipe do Wordpress

O Seed-OSS é uma família de grandes modelos de linguagem de código aberto da equipe do Byte Jump Seed, com foco em textos longos e tarefas de raciocínio. O modelo tem bom desempenho em raciocínio lógico complexo e raciocínio em várias etapas com alta precisão e pode resolver problemas difíceis com eficiência. O Seed-OSS suporta contextos de texto longo de até 512K...
4 semanas atrás
019.4K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - Modelo multimodal científico leve e de código aberto do Shanghai AI Lab

O Intern-S1-mini é um macromodelo científico multimodal leve com escala de parâmetros de 8B lançado pelo Laboratório de Inteligência Artificial de Xangai (SAL). Ele herda os recursos avançados do Intern-S1, combinando recursos científicos especializados e de uso geral, e é adequado para implantação rápida e desenvolvimento secundário. Em termos de desempenho, o I...
4 semanas atrás
017K
CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - O modelo eficiente de VLA do Grupo Amoy

O CombatVLA é um modelo inovador específico para jogos de RPG de ação em 3D da equipe do Future Life Lab do Amoy Group. O CombatVLA é um modelo de visão-linguística-ação (VLA), criado em uma escala paramétrica 3B, que coleta dados do jogador humano por meio de um rastreador de movimento...
4 semanas atrás
016.3K
MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - A mais recente estrutura de geração de fala da KunlunWei

O MoE-TTS é uma estrutura de síntese de fala introduzida por KunlunWanwei, com base na arquitetura Mixed Expert (MoE), que combina modelos de linguagem grandes (LLMs) pré-treinados com módulos de especialistas em fala. O MoE-TTS mantém o raciocínio textual avançado, congelando os parâmetros do módulo textual e atualizando apenas os parâmetros do módulo de fala...
1 mês atrás
019.5K
Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - plataforma de robótica de uso geral de código aberto da Jiyuan com a Beihang e outros

O Genie Envisioner (GE) é uma plataforma unificada para operações de robótica desenvolvida pela equipe da Genie Robotics em colaboração com a Universidade Nacional de Cingapura, a Universidade de Aeronáutica e Astronáutica de Pequim e outras instituições. Ela permite que os robôs compreendam e executem melhor as tarefas "imaginando primeiro, depois agindo".
1 mês atrás
019.6K
Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - Estrutura de código aberto da Tencent Hunyuan para gerar vídeo interativo para jogos de última geração.

O Hunyuan-GameCraft é uma estrutura de geração de vídeos de jogos interativos de código aberto da equipe da Tencent Hunyuan. A estrutura, a partir de uma única imagem e instruções para gerar vídeos de jogos altamente dinâmicos, oferece suporte ao usuário por meio do teclado e do mouse para controlar o conteúdo do vídeo em tempo real.
1 mês atrás
021.8K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - Modelo de compreensão mundial de código aberto do Ali Dharma Institute

O RynnEC é um modelo de compreensão do mundo apresentado pelo Alibaba Dharma Institute, com foco em tarefas de inteligência incorporada. O modelo é baseado na tecnologia de fusão multimodal, combinando dados de vídeo e linguagem natural, e pode analisar objetos em uma cena a partir de várias dimensões, oferecendo suporte a funções como compreensão de objetos, percepção espacial e segmentação de alvos de vídeo.
1 mês atrás
020K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Modelo de raciocínio visual multimodal de código aberto da Smart Spectrum

O GLM-4.5V é o modelo de inferência visual de código aberto líder mundial introduzido pela Smart Spectrum, com 106 bilhões de parâmetros totais e 12 bilhões de parâmetros ativados. O modelo é treinado com base no modelo de base de texto de nova geração GLM-4.5-Air, com recursos avançados de compreensão visual e raciocínio, capaz de lidar com imagens, vídeos...
1 mês atrás
022.1K