Recursos mais recentes de IA

Total de 2716 artigos

Informações sobre o curso Recursos mais recentes de IA Base de conhecimento de IA Notícias sobre IA

organizar em ordem

passar por cima marcador (Internet)

InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

meso (química)InternVLA-A1 - Integração de código aberto do Shanghai AI Lab de recursos operacionais para grandes modelos incorporados

O InternVLA-A1 é um grande modelo de operação incorporada de código aberto do Shanghai Artificial Intelligence Laboratory. Ele tem a capacidade de entender, imaginar e executar a integração, e pode concluir a tarefa com precisão. O modelo funde dados de operação reais e simulados e automatiza a construção de multimodais maciços por meio de ativos de cena híbrida virtual-real em grande escala...

Recursos mais recentes de IA

16 horas atrás

0892

VoxCPM - 面壁智能联合清华开源的端到端TTS模型

meso (química)VoxCPM - Facing Intelligence e Tsinghua Open Source End-to-End TTS Model

O VoxCPM é um modelo de geração de fala com código aberto em conjunto pela Facade Intelligence e pela Shenzhen International Graduate School da Universidade de Tsinghua. O VoxCPM adota uma arquitetura autorregressiva de difusão de ponta a ponta para gerar representações de fala contínua diretamente do texto, rompendo as limitações da desambiguação discreta tradicional. Por meio de modelagem de linguagem hierárquica e quantização de estado finito...

Recursos mais recentes de IA

17 horas atrás

01.2K

InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

meso (química)InternVLA-N1 - Modelo grande de navegação de sistema duplo ponta a ponta do Shanghai AI Lab de código aberto

O InternVLA-N1 é um macromodelo de navegação de sistema duplo de código aberto de ponta a ponta do Shanghai Artificial Intelligence Laboratory. Usando uma arquitetura de sistema duplo, o Sistema 2 é responsável pela compreensão de comandos linguísticos e pelo planejamento de caminhos de longo alcance, enquanto o Sistema 1 se concentra na resposta de alta frequência e na evasão ágil de obstáculos. O modelo é treinado inteiramente com base em dados sintéticos por meio de um sistema digital de grande escala ...

Recursos mais recentes de IA

17 horas atrás

01.2K

WebWeaver - 阿里通义开源的新型双智能体框架

meso (química)WebWeaver - Ali Tongyi abre uma nova estrutura de corpo de inteligência dupla de código aberto

O WebWeaver é uma nova estrutura de corpo de inteligência dupla introduzida pela equipe do Alibaba Tongyi, que é usada principalmente em pesquisas profundas abertas e pode simular o processo de pesquisa humana, que é dividido em duas inteligências: planejamento e escrita.

Recursos mais recentes de IA

20 horas atrás

01.2K

MCP Registry - GitHub推出的官方MCP服务器管理平台

meso (química)MCP Registry - A plataforma oficial de gerenciamento de servidores MCP do GitHub.

O MCP Registry é uma plataforma centralizada do GitHub que ajuda os desenvolvedores a descobrir e instalar servidores MCP com mais facilidade. Com o MCP Registry, os desenvolvedores podem encontrar rapidamente as ferramentas de IA de que precisam em um só lugar, simplificando muito...

Recursos mais recentes de IA

20 horas atrás

01.4K

VLAC - 上海AI Lab开源的具身奖励大模型

meso (química)VLAC - Grande modelo de código aberto de recompensas incorporadas do Shanghai AI Lab

O VLAC é um macromodelo de recompensa incorporado de código aberto do Shanghai Artificial Intelligence Laboratory. Com base no macromodelo multimodal InternVL, ele integra dados de vídeo da Internet e dados de operação do robô para fornecer recompensa de processo e estimativa de conclusão de tarefas para o aprendizado de reforço de robôs no mundo real.

Recursos mais recentes de IA

23 horas atrás

01.1K

通义DeepResearch - 阿里通义开源的深度研究智能体

meso (química)Tongyi DeepResearch - Corpo de inteligência de pesquisa profunda de código aberto de Ali Tongyi

O Tongyi DeepResearch (Tongyi DeepResearch) é um corpo inteligente de código aberto lançado pela Alibaba, projetado para recuperação de informações profundas e raciocínio de tarefas complexas, com 30 bilhões de parâmetros, suportando vários modos de raciocínio, incluindo o modo ReAct e o modo de profundidade...

Recursos mais recentes de IA

2 dias atrás

02.7K

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

meso (química)InternVLA-M1 - "Cérebro" de operação de sistema duplo incorporado de código aberto do Shanghai AI Lab

O InternVLA-M1 é um "cérebro" operacional incorporado de código aberto do Laboratório de Inteligência Artificial de Xangai, que é um grande modelo de operação de dois sistemas orientado para o acompanhamento de instruções. Ele cria um loop fechado completo que abrange "pensar-agir-aprender" e é responsável pelo raciocínio espacial de alto nível e pelo planejamento de tarefas. O modelo adota uma política de treinamento em dois estágios...

Recursos mais recentes de IA

2 dias atrás

02.8K

OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

meso (química)Guia em PDF da OpenAI para se manter à frente na era da IA - com links para download

Permanecer à frente na era da IA é um guia de liderança em IA da OpenAI que ajuda os líderes empresariais a manter uma vantagem competitiva na era da IA. O guia aponta para o rápido crescimento da IA, com lançamentos de modelos mais rápidos, custos mais baixos e adoção empresarial mais rápida...

Recursos mais recentes de IA Informações sobre o curso

2 dias atrás

03K

浙江大学免费PDF资料《大模型基础》 - 附下载链接

meso (química)PDF gratuito de Fundamentals of Large Models da Universidade de Zhejiang - com link para download

Fundamentals of Large Models oferece uma análise aprofundada das principais tecnologias e dos caminhos práticos dos modelos de linguagem de grande porte (LLMs). Partindo da teoria fundamental da modelagem de idiomas, ele explica sistematicamente os princípios do design de modelos com base em arquiteturas estatísticas, de redes neurais recorrentes (RNN) e de transformadores, concentrando-se nos três principais modelos de idiomas de grande porte...

Recursos mais recentes de IA Informações sobre o curso

2 dias atrás

03.1K

PromptEnhancer - 腾讯混元开源的AI提示词增强工具

meso (química)PromptEnhancer - Ferramenta de aprimoramento de palavras para prompts de IA de código aberto da Tencent Mixed Meta

O PromptEnhancer é uma ferramenta de aprimoramento de palavras de prompt de código aberto da equipe Mixed Meta da Tencent para melhorar a geração de modelos de texto para imagem (Text-to-Image, T2I). Por meio da abordagem de cadeia de raciocínio (Chain-of-Thought, CoT) para o uso de ...

Recursos mais recentes de IA

2 dias atrás

03.1K

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - O primeiro modelo de fala de código aberto do setor da Logic Intelligence

O LLaSO é um modelo de fala de código aberto lançado pela Beijing Depth Logic Intelligence Technology Co. Ltd, que resolve os problemas de dispersão de dados e cobertura insuficiente de tarefas no campo da modelagem de linguagem de fala em larga escala, integrando dados de fala e de texto e fornecendo conjuntos de dados de alinhamento, conjuntos de dados de ajuste fino de comandos e referências de avaliação.

Recursos mais recentes de IA

2 dias atrás

02.7K

混元3D 3.0 - 腾讯推出的3D生成模型，支持超高清建模

Hybrid 3D 3.0 - Modelos gerados em 3D da Tencent com suporte para modelagem UHD

O Hybrid 3D 3.0 é um modelo avançado de geração de 3D da Tencent, baseado na tecnologia de escultura hierárquica 3D-DiT, com uma resolução geométrica de até 1536³, capaz de gerar modelos 3D de altíssima definição e ricos em detalhes, além de se destacar na modelagem de personagens, com a capacidade de moldar com precisão os cinco sentidos e o formato do corpo.

Recursos mais recentes de IA

3 dias atrás

04.2K

UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Arquitetura de ação de modelo mundial de código aberto da Yushu Technology

O UnifoLM-WMA-0 é uma arquitetura de ação-modelo mundial de código aberto em várias classes de ontologias de robôs da Yu Shu Technology, projetada para o aprendizado geral de robôs. Composto por um modelo de mundo e uma arquitetura de ação, o modelo de mundo compreende as leis físicas da interação robô-ambiente, e a arquitetura de ação é responsável por...

Recursos mais recentes de IA

3 dias atrás

04.3K

InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Ferramenta de geração de vídeo orientada por áudio de código aberto para Mission Vision AI

O InfiniteTalk é uma ferramenta de geração de vídeo orientada por áudio desenvolvida pela equipe do MeiGen-AI que gera vídeos falados de duração ilimitada com base no áudio de entrada. A principal vantagem é a tecnologia de sincronização labial precisa, que combina perfeitamente o áudio com o formato da boca do personagem, gerando uma fala natural e suave...

Recursos mais recentes de IA

3 dias atrás

04.6K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - Bytes, modelo conjunto de raciocínio visual de código aberto da HKU

O Mini-o3 é um modelo de código aberto lançado em conjunto pela ByteDance e pela Universidade de Hong Kong, com foco na solução de problemas complexos de pesquisa visual. O modelo tem um poderoso recurso de raciocínio interativo em várias rodadas e pode localizar um alvo por meio de exploração profunda e tentativa e erro.

Recursos mais recentes de IA

3 dias atrás

04.6K

GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex - o modelo de programação mais forte introduzido pela OpenAI

O GPT-5-Codex é um modelo avançado de otimização de programação da OpenAI, aprimorado pelo GPT-5 e projetado para engenheiros de software. O modelo gera código de alta qualidade rapidamente, suporta várias linguagens de programação e otimiza o código existente para melhorar o desempenho.

Recursos mais recentes de IA

3 dias atrás

04.2K

ROMA - 开源的元Agent框架，自动分解复杂任务并行处理

ROMA - Estrutura de Meta-Agente de Código Aberto para Decomposição Automática de Tarefas Complexas para Processamento Paralelo

O ROMA (Recursive-Open-Meta-Agent) é uma estrutura de meta-agente de código aberto desenvolvida pela Sentient AGI para resolver com eficiência problemas complexos por meio da decomposição recursiva de tarefas e do processamento paralelo. É compatível com Python 3.12+, Docker e...

Recursos mais recentes de IA

3 dias atrás

04.4K

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - um modelo multimodal de grande porte com código aberto do Shanghai AI Lab e da Huawei Rise

O Lumina-DiMOO é um modelo unificado de nova geração para geração e compreensão multimodal lançado pelo Shanghai Artificial Intelligence Laboratory (SAL) em conjunto com a Huawei Rise na Conferência Mundial sobre Inteligência Artificial 2025. Baseado na plataforma básica de hardware e software da Rise AI e no conjunto de modelos multimodais de grande porte MindSpeed MM, ele completa a...

Recursos mais recentes de IA

3 dias atrás

03.8K

Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Ferramenta de código aberto para anotações de conferências com IA local

O Hyprnote é uma ferramenta de anotações de reuniões de IA de código aberto, com prioridade local, desenvolvida para profissionais para proteger a privacidade do usuário e melhorar a eficiência das reuniões. Adotando o princípio "local first", todo o armazenamento e processamento de dados é feito no dispositivo local do usuário para garantir a segurança dos dados e oferecer suporte à operação off-line.

Recursos mais recentes de IA

3 dias atrás

03.6K

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Série de modelos de inferência eficientes especializados de código aberto Meta

O MobileLLM-R1 é a série de código aberto da Meta de modelos de inferência eficientes projetados para raciocínio matemático, de programação e científico. Ela contém um modelo básico e um modelo final, com 140 milhões, 360 milhões e 950 milhões de versões de parâmetros, respectivamente. Os modelos não são modelos genéricos de bate-papo e são supervisionados com ajuste fino (SFT...

Recursos mais recentes de IA

4 dias atrás

03.8K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - Modelo de raciocínio de código aberto do Baidu

O ERNIE-4.5-21B-A3B-Thinking é o modelo de linguagem em larga escala de código aberto da Baidu voltado para tarefas de raciocínio. Usando a arquitetura Mixed Expert (MoE), o número total de referências é de 21 bilhões, cada token ativa 3 bilhões de parâmetros para suportar uma janela de contexto longa de 128K ...

Recursos mais recentes de IA

4 dias atrás

04K

MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - estrutura de construção de pilha completa de corpo inteligente móvel de código aberto da Shanghai Jiaotong University

O MobiAgent é uma cadeia de ferramentas de corpo inteligente móvel de código aberto do IPADS Lab da Shanghai Jiaotong University, que ajuda os usuários a criar seus próprios assistentes inteligentes móveis. Ao registrar a trajetória de operação do usuário e gerar dados de alta qualidade, ele treina corpos inteligentes que podem entender comandos de linguagem natural. Os principais recursos incluem...

Recursos mais recentes de IA

4 dias atrás

04.2K

ZipVoice - 小米开源的语音合成系列模型

ZipVoice - Família de modelos de síntese de fala de código aberto da Xiaomi

O ZipVoice é uma série de modelos de síntese de fala (TTS) baseados na arquitetura Flow Matching lançada pela Xiaomi, incluindo o ZipVoice (modelo de síntese de fala de alto-falante único com amostra zero) e o ZipVoice-Dialog (modelo de síntese de fala de diálogo com amostra zero...

Recursos mais recentes de IA

4 dias atrás

04.5K

PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - Modelo de IA de código aberto da Baidu para reconhecimento de texto de última geração

O PP-OCRv5 é a última geração do modelo de IA de reconhecimento de texto lançado pela Baidu. Com um design leve e uma contagem de referência de apenas 0,07B, ele é adequado para ser executado com eficiência em CPUs e dispositivos de borda, e pode processar mais de 370 caracteres por segundo. O modelo é compatível com chinês simplificado, chinês tradicional, inglês, japonês e pinyin...

Recursos mais recentes de IA

4 dias atrás

04.6K

Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Estrutura de geração de aumento de recuperação de gráficos de código aberto do Tencent Youtu Labs

O Youtu-GraphRAG é uma estrutura de geração de aumento de recuperação de gráficos de código aberto do Tencent Youtu Labs para ajudar grandes modelos de linguagem a lidar com tarefas complexas de perguntas e respostas com mais precisão. Ao construir uma árvore de conhecimento de quatro camadas, o conhecimento é desmontado em quatro níveis: atributos, relacionamentos, palavras-chave e comunidades, para obter conhecimento de domínio cruzado do autodomínio do ato...

Recursos mais recentes de IA

4 dias atrás

04.2K

Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

Stand-In - Estrutura de geração de vídeo leve e de código aberto do WeChat Visual da Tencent

O Stand-In é uma estrutura de geração de vídeo leve, plug-and-play e com preservação de identidade da equipe do WeChat Vision da Tencent. Com foco na preservação de recursos específicos de identidade na geração de vídeos, ele só precisa treinar parâmetros adicionais do modelo básico 1% e pode obter excelentes resultados em termos de similaridade e naturalidade de rostos.

Recursos mais recentes de IA

4 dias atrás

04.3K

IndexTTS2 - B站开源的免费TTS模型，首个支持精确时长控制

IndexTTS2 - Modelo TTS gratuito de código aberto da estação B, o primeiro a oferecer suporte ao controle preciso da duração

O IndexTTS2 é um novo modelo de conversão de texto em fala (TTS) gratuito e de código aberto da equipe de voz da estação B, que alcança um grande avanço na expressão emocional e no controle de duração, o primeiro modelo TTS autorregressivo a oferecer suporte ao controle preciso de duração. Suporte à clonagem de voz de amostra zero, apenas um arquivo de áudio pode copiar com precisão o som...

Recursos mais recentes de IA

6 dias atrás

09.4K

MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - O mais recente modelo de geração de música com IA da MiniMax!

O MiniMax Music 1.5 é uma ferramenta avançada de geração de música com IA que permite gerar até 4 minutos de música com base na descrição da linguagem natural do usuário. O modelo oferece suporte a uma ampla variedade de estilos musicais e personalização de humor, além de gerar tons vocais naturais e completos, transições suaves e arranjos ricos em camadas...

Recursos mais recentes de IA

7 dias atrás

08.6K

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - estrutura de geração de vídeo multimodal de código aberto da United Bytes da Universidade de Tsinghua

O HuMo é uma estrutura de geração de vídeo multimodal de código aberto, desenvolvida em conjunto pela Universidade de Tsinghua e pelo ByteDance Intelligent Creation Lab, com foco na geração de vídeo centrada no ser humano. Ele pode gerar vídeos humanos de alta qualidade, refinados e controláveis a partir de entradas multimodais, como texto, imagens e áudio. O HuMo oferece suporte a recursos avançados de acompanhamento de dicas de texto...

Recursos mais recentes de IA

7 dias atrás

010.2K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Fudan e Ali Dharma Institute e outra estrutura de geração de animação de imagem inteligente de código aberto

AnyI2V é uma estrutura de geração de animação de imagens lançada em conjunto pela Fudan University, Alibaba Darmo Academy e outros, que oferece suporte à conversão de imagens condicionais estáticas (por exemplo, grades, nuvens de pontos etc.) em vídeos dinâmicos sem a necessidade de um processo de treinamento complexo e uma grande quantidade de dados.

Recursos mais recentes de IA

7 dias atrás

08.1K

SRPO - 腾讯混元推出的文本到图像生成模型

SRPO - Modelo de geração de texto para imagem lançado pela Tencent Hybrid

O SRPO (Semantic Relative Preference Optimization) é um modelo de geração de texto para imagem introduzido pela Tencent Mixed Meta, que otimiza o mecanismo de recompensa por meio de sinais condicionais textuais para obter o ajuste on-line das recompensas e reduzir a dependência do ajuste fino off-line.

Recursos mais recentes de IA

1 semana atrás

013.2K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next - o mais recente modelo básico lançado por Ali Tongyi

O Qwen3-Next é uma nova geração de big model de arquitetura híbrida com código aberto de Ali Tongyi, que combina as tecnologias Gated DeltaNet e Gated Attention, que são boas para lidar com textos longos, inferência rápida e economia de recursos computacionais.

Recursos mais recentes de IA

1 semana atrás

08.5K

文心大模型X1.1 - 百度推出的深度思考模型，理解能力更强

Wenshin Big Model X1.1 - Modelo de pensamento profundo da Baidu para melhor compreensão

O Wenxin Big Model X1.1 é um modelo de pensamento profundo lançado pela Baidu, com base em uma estrutura de aprendizado por reforço híbrido que se concentra em melhorar a compreensão e a geração de linguagem. O modelo é excelente em lidar com perguntas complexas, seguir instruções e simular o comportamento de inteligências, e pode fornecer com precisão respostas bem informadas e conteúdo de texto de alta qualidade.

Recursos mais recentes de IA

1 semana atrás

09.3K

混元图像2.1 - 腾讯推出的开源文生图模型

Imagem híbrida 2.1 - Modelo gráfico de fornecedor de código aberto da Tencent

O HunyuanImage 2.1 é o modelo gráfico de código aberto da Tencent projetado para geração de imagens de alta qualidade. O modelo é compatível com a resolução nativa de 2K e pode renderizar com precisão cenas e detalhes complexos, de modo que a expressão e a ação do personagem possam ser reproduzidas de forma vívida.

Recursos mais recentes de IA

1 semana atrás

09.8K

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

AntSK FileChunk - Ferramenta gratuita de fatiamento de documentos semânticos de IA, ajuste dinâmico de fatiamento

O AntSK FileChunk é uma ferramenta gratuita de divisão inteligente de documentos projetada para aplicativos RAG (Retrieval Augmented Generation). Tendo a semântica como núcleo, o documento será fatiado de forma inteligente em segmentos semanticamente completos e coerentes, com suporte para vários idiomas e ajuste dinâmico do tamanho da fatia para garantir a coerência contextual.

Recursos mais recentes de IA

1 semana atrás

09.3K

UnifiedTTS - 一站式TTS API服务平台，实时性能监控

UnifiedTTS - Plataforma de serviço de API TTS completa, monitoramento de desempenho em tempo real

O UnifiedTTS é uma plataforma completa para serviços de conversão de texto em fala (TTS). Ela oferece suporte a vários idiomas, incluindo chinês, inglês, japonês e coreano, para atender às necessidades dos negócios globais. Por meio de uma interface de API unificada, ele integra muitos dos principais serviços de TTS, incluindo o Micro...

Recursos mais recentes de IA

1 semana atrás

09.8K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Macromodelagem ultraeficiente do lado final por meio do Facing Face Intelligence

O MiniCPM 4.1 é um modelo de linguagem grande ultraeficiente do lado final introduzido pela Facade Intelligence. Com a arquitetura de atenção esparsa InfLLM v2, cada lexema só precisa calcular a correlação com menos de 5% lexemas, o que reduz significativamente a sobrecarga de processamento de textos longos. No cenário de texto longo de 128K...

Recursos mais recentes de IA

1 semana atrás

010.4K

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Estrutura de compreensão de documentos e recuperação semântica de código aberto do WeChat da Tencent

O WeKnora é um código-fonte aberto da equipe do Tencent WeChat baseado na estrutura de recuperação semântica e de compreensão de documentos do Large Language Model (LLM), projetado para a estrutura de cenários de conteúdo de documentos complexos e heterogêneos e projetado para usar uma arquitetura modular, integração de pré-processamento multimodal, indexação de vetores semânticos, recuperação inteligente e raciocínio generativo de modelo grande...

Recursos mais recentes de IA

1 semana atrás

011.5K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Mecanismo de treinamento de modelo grande de código aberto do Shanghai AI Lab

O XTuner V1 é uma nova geração de mecanismo de treinamento de modelos de grande porte com código aberto do Shanghai Artificial Intelligence Laboratory, projetado para treinamento de modelos de especialistas mistos (MoE) esparsos em escala ultragrande. Desenvolvido com base no PyTorch FSDP, ele atinge alto desempenho por meio da otimização multidimensional de memória, comunicação e carga...

Recursos mais recentes de IA

1 semana atrás

010.2K

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - uma série de modelos de reconhecimento de fala lançados por Ali Tongyi Qianqian

O Qwen3-ASR-Flash é o mais recente modelo de reconhecimento de fala de alta precisão da Alibaba, baseado no modelo básico Qwen3, treinado em dados multimodais massivos. Ele suporta 11 idiomas e vários sotaques, incluindo mandarim, sichuan, minnan, wu, cantonês e outros dialetos...

Recursos mais recentes de IA

1 semana atrás

011.8K

吴恩达的LangChain for LLM应用开发免费课程

Curso gratuito de LangChain para desenvolvimento de aplicativos LLM por Ernest Ng

LangChain for LLM Application Development é um curso on-line apresentado pela DeepLearning.AI, com a participação do fundador da LangChain, Harrison Chase, e Andrew Ng.

Recursos mais recentes de IA Informações sobre o curso

2 semanas atrás

012.1K

吴恩达的Transformer LLMs工作原理免费课程

Curso gratuito sobre como funcionam os Transformer LLMs, ministrado por Enda Wu

Os LLMs transformadores funcionam com base no princípio de que DeepLearning.AI e Jay Alammar e Maarten Grootend, autores de Hands-On Large Language Models...

Recursos mais recentes de IA Informações sobre o curso

2 semanas atrás

010.9K

Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream 4.0 - a última geração de modelos de criação de imagens lançada pela Bytes

O Seedream 4.0 é uma ferramenta avançada de geração e edição de imagens lançada pela ByteDance, que se concentra na integração de geração e edição, com recursos avançados, como edição precisa de comandos, alta retenção de recursos e compreensão profunda da intenção.

Recursos mais recentes de IA

1 semana atrás

035K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - modelo de inferência de IA eficiente e de código aberto da Microsoft

O rStar2-Agent é um modelo avançado de raciocínio matemático de IA de código aberto da Microsoft que demonstra fortes recursos de solução de problemas matemáticos, alcançando uma precisão de 80,61 TP3T no teste AIME24. O modelo é equipado com recursos de raciocínio científico, alcançando no benchmark GPQA-Diamond...

Recursos mais recentes de IA

2 semanas atrás

09.9K

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Modelo emblemático de grande porte para idiomas da Tongyi Qianqian

O Qwen3-Max-Preview é o mais recente modelo de linguagem grande e emblemático lançado pela Tongyi Qianwen. É o modelo com o maior número de parâmetros na família Qwen3, com um tamanho de parâmetro de mais de 1 trilhão. O modelo apresenta melhorias significativas na inferência, no acompanhamento de instruções, no suporte a vários idiomas e na cobertura de conhecimento de cauda longa...

Recursos mais recentes de IA

2 semanas atrás

011.4K

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modelo multimodal de código aberto para a Meituan e a Shanghai Jiaotong University

O OneCAT é um novo modelo multimodal unificado lançado pela Meituan em conjunto com a Shanghai Jiaotong University, que adota uma arquitetura de decodificador puro que integra perfeitamente a compreensão multimodal, a geração de texto para imagem e as funções de edição de imagem. O modelo abandona o design dos modelos multimodais tradicionais que dependem de codificadores visuais externos e desambiguadores por meio de...

Recursos mais recentes de IA

2 semanas atrás

09.2K

Claudable - 开源AI Web应用构建器，自然语言生成代码

Claudable - Criador de aplicativos da Web de IA de código aberto, código gerado por linguagem natural

O Claudable é um criador de aplicativos da Web de código aberto baseado no Next.js que combina os recursos avançados de agente de IA do Claude Code e da CLI do Cursor com a experiência simples e intuitiva de criação de aplicativos do Lovable...

Recursos mais recentes de IA

2 semanas atrás

011K

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - Conjunto de dados de linguagem visual de código aberto lançado pela Hugging Face

O FineVision é o conjunto de dados de linguagem visual de código aberto da Hugging Face para treinamento de modelos avançados de linguagem visual. Ele contém 17,3 milhões de imagens, 24,3 milhões de amostras, 88,9 milhões de rodadas de diálogo e 9,5 bilhões de tokens de resposta. O conjunto de dados agrega...

Recursos mais recentes de IA

2 semanas atrás

010.5K

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman - um modelo de geração humana digital de vídeo longo lançado pela Bytes em colaboração com a ZJU

O InfinityHuman é um modelo de geração de vídeo de personagens de nível comercial, com longa série temporal e orientado por áudio, lançado em conjunto pela ByteDance e pela Universidade de Zhejiang. O modelo é orientado por áudio e pode gerar vídeos de personagens de alta resolução, longa duração e visualmente consistentes.

Recursos mais recentes de IA

2 semanas atrás

09.5K

Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - O mais recente lançamento de modelo do Dark Side of the Moon!

O Kimi K2-0905 é um modelo avançado de IA da Dark Side of the Moon Technologies Ltd. que se destaca na assistência à programação, gera código com eficiência e oferece suporte à geração de código limpo e padronizado no desenvolvimento de front-end. O comprimento do contexto do modelo é estendido para 256K para lidar com tarefas complexas.

Recursos mais recentes de IA

2 semanas atrás

013.3K

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - Modelo de mundo de roaming ultralongo de código aberto da Tencent

O HunyuanWorld-Voyager (abreviação de Hunyuan Voyager) é o primeiro modelo mundial de roaming ultralongo do setor lançado pela Tencent que oferece suporte à reconstrução 3D nativa. Trata-se de uma nova estrutura de difusão de vídeo que gera sequências de nuvens de pontos 3D de caminhos de câmera definidos pelo usuário a partir de uma única imagem, suportando...

Recursos mais recentes de IA

2 semanas atrás

013.3K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - Modelo de tradução leve de código aberto do Tencent Mixed Meta

O Hunyuan-MT-7B é um modelo de tradução leve introduzido pela Mixed Meta Team da Tencent, com 7 bilhões de referências, que suporta a tradução mútua de 33 idiomas e 5 idiomas/dialetos chineses populares, incluindo cantonês, uigur e tibetano. Na competição WMT2025 da Associação Internacional de Linguística Computacional (ACL)...

Recursos mais recentes de IA

2 semanas atrás

014.1K

Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Macromodelagem de fala de código aberto Step-Star

O Step-Audio 2 mini é um macromodelo de fala de ponta a ponta de código aberto da Step-Audio. Ele rompe com a estrutura tradicional do modelo de fala e adota uma verdadeira arquitetura multimodal de ponta a ponta, que transforma diretamente a entrada de áudio bruto em saída de resposta de fala, com menor latência, e compreende informações paralinguísticas e sinais não vocais.

Recursos mais recentes de IA

3 semanas atrás

016.1K

MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2 - Modelo multimodal eficiente de código aberto da Apple no lado final

O MobileCLIP2 é uma versão atualizada do MobileCLIP, um modelo multimodal eficiente do lado final introduzido por pesquisadores da Apple. Otimizado para o treinamento de reforço multimodal, ele integra o modelo de professor CLIP treinando modelos de melhor desempenho no conjunto de dados DFN e aprimorando os gráficos brutos...

Recursos mais recentes de IA

3 semanas atrás

016.1K

InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - Grandes modelos multimodais de código aberto do Shanghai AI Lab

O InternVL3.5 (Shusheng-Wanxiang 3.5) é um modelo multimodal de grande porte de código aberto do Laboratório de Inteligência Artificial de Xangai. O modelo foi totalmente atualizado em termos de capacidade geral, capacidade de raciocínio e eficiência de implementação, oferecendo nove tamanhos de versões, de 1 bilhão a 241 bilhões de parâmetros, abrangendo diferentes cenários de demanda de recursos, incluindo...

Recursos mais recentes de IA

3 semanas atrás

015.8K

FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Modelagem de linguagem visual da Apple

O FastVLM (Fast Vision Language Model) é um modelo de linguagem visual eficiente introduzido pela Apple. Com o codificador visual híbrido FastViTHD como núcleo, ele incorpora arquiteturas convolucionais e transformadoras para reduzir significativamente a...

Recursos mais recentes de IA

3 semanas atrás

014.1K

Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Conjunto de avaliação de código aberto do Meeseeks para avaliar a capacidade de seguir instruções de modelos

O Meeseeks é um conjunto de avaliação de modelos grandes de código aberto usado pela equipe M17 da Meituan para avaliar a capacidade de um modelo de seguir instruções. O Meeseeks usa uma estrutura de avaliação de três níveis para medir de forma abrangente se um modelo é capaz de gerar respostas estritamente de acordo com as instruções do usuário, do nível macro ao micro, e não avalia o conhecimento do conteúdo da resposta como um fator positivo...

Recursos mais recentes de IA

3 semanas atrás

015.8K

gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - o mais recente modelo de fala de IA da OpenAI

O gpt-realtime é um modelo de fala avançado da OpenAI que oferece suporte ao processamento direto de áudio para gerar uma fala natural e suave. O modelo é compatível com vários idiomas e estilos, compreende sinais não verbais, como risadas, e pode alternar entre idiomas.

Recursos mais recentes de IA

3 semanas atrás

016.1K

Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - estrutura de corpo inteligente eficiente de código aberto da Tencent

O Youtu-agent é uma estrutura de código aberto para criar e executar inteligências autônomas do Tencent Youtu Labs. A estrutura tem bom desempenho nos benchmarks WebWalkerQA e GAIA, com uma precisão de 71,47% e 72,8%, respectivamente.

Recursos mais recentes de IA

3 semanas atrás

019.1K

HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - Modelo de geração de som de vídeo de código aberto da Tencent

O HunyuanVideo-Foley é um modelo de geração de som de vídeo de código aberto da equipe Mixed Yuan da Tencent, que oferece suporte à adição de efeitos sonoros combinados com precisão a vídeos silenciosos. O modelo é baseado em um treinamento de conjunto de dados em grande escala, com uma arquitetura de conversor de difusão multimodal, combinado com a representação da função de perda de alinhamento e técnicas de otimização de VAE de áudio...

Recursos mais recentes de IA

3 semanas atrás

020.7K

PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5 - Modelo de vídeo com IA desenvolvido pela própria Aishi Technologies

O PixVerse V5 é um grande modelo de geração de vídeo com IA lançado pela Aishi Technology. O modelo pode gerar conteúdo de vídeo de alta qualidade com base em descrições de texto ou imagens inseridas pelo usuário e suporta uma variedade de estilos, como anime, ficção científica e estilo nacional.

Recursos mais recentes de IA

3 semanas atrás

018.1K

问小白5 - 问小白推出的全能AI模型

Ask White 5 - Modelo de IA tudo em um da Ask White

O Ask White 5 é o principal modelo "All in One" com um nível muito alto de inteligência. O modelo tem um bom desempenho em muitas avaliações, como a pontuação de avaliação composta do AA-Index de 64,7 e a pontuação de avaliação de habilidade STEM de 86, que é próxima à do líder mundial GPT-5.

Recursos mais recentes de IA

3 semanas atrás

015.6K

MiniCPM-V 4.5 - 面壁智能开源的8B参数多模态模型

MiniCPM-V 4.5 - Modelo multimodal facetado, inteligente e de código aberto com 8B parâmetros

O MiniCPM-V 4.5 é um modelo multimodal paramétrico 8B de código aberto para inteligência de fachada, criado com base no Qwen3-8B e no SigLIP2-400M, com a capacidade de processar imagens e vídeos com eficiência. Ele tem excelente desempenho no consumo de tokens visuais, processamento ...

Recursos mais recentes de IA

3 semanas atrás

018.7K

Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - O modelo mais avançado de geração e edição de imagens do Google

O Gemini 2.5 Flash Image (codinome nano banana) é um modelo de geração e edição de imagens de última geração do Google que mantém a consistência dos caracteres em todas as cenas e oferece suporte à edição precisa de imagens por meio de linguagem natural, como desfoque de fundos e remoção de manchas.

Recursos mais recentes de IA

3 semanas atrás

018.1K

Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V - modelo de geração de vídeo orientado por áudio de código aberto de Ali Tongyi

O Wan2.2-S2V é um modelo de geração de vídeo multimodal de código aberto de Ali Tongyi, com apenas uma imagem estática e um trecho de áudio, que pode gerar vídeo humano digital de alta qualidade e oferece suporte a vários tipos de imagens e quadros.

Recursos mais recentes de IA

3 semanas atrás

018.4K

吴恩达面向开发者的ChatGPT提示工程免费课程

Curso gratuito sobre engenharia de dicas do ChatGPT para desenvolvedores, ministrado por Ernest Ng

O ChatGPT Tip Engineering for Developers é um curso conjunto da DeepLearning.AI e da OpenAI projetado para desenvolvedores, com Isa Fulford, Andrew Ng para ensinar como usar modelos de linguagem grande (LLM...

Recursos mais recentes de IA Informações sobre o curso

3 semanas atrás

016.1K

问小白o4 - 问小白推出的并行思考模型，同时开启8条思考路径

Ask o4 - Um modelo de pensamento paralelo introduzido pelo Ask o4 que abre 8 caminhos de pensamento ao mesmo tempo

O Ask White o4 é um modelo inovador de pensamento paralelo que abre 8 caminhos de pensamento ao mesmo tempo, analisa o problema a partir de várias perspectivas e filtra automaticamente a solução ideal. O modelo incorpora técnicas avançadas de aprendizado por reforço Long-CoT e aprendizado por recompensa de processo, tem recursos avançados de raciocínio profundo e apresenta bom desempenho em tarefas complexas.

Recursos mais recentes de IA

3 semanas atrás

015.7K

VibeVoice - 微软推出的文本到语音模型

VibeVoice - Modelagem de texto para fala da Microsoft

O VibeVoice é um novo modelo de conversão de texto em fala (TTS) da Microsoft. O modelo gera áudio de conversação de até quatro alto-falantes diferentes e suporta até 90 minutos de saída de voz contínua, quebrando as limitações de duração dos sistemas TTS tradicionais.

Recursos mais recentes de IA

3 semanas atrás

020.2K

SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Modelo de geração de cenas 3D de código aberto da Qunar Technology

O SpatialGen é um modelo de geração de cenas 3D de código aberto da Qunar Technology, baseado na arquitetura do modelo de difusão, que oferece suporte à geração de imagens multivisualizadas com consistência espaço-temporal com base em descrições textuais, imagens de referência e layout espacial 3D, além de gerar cenas Gaussianas 3D e renderizar vídeos de roaming.

Recursos mais recentes de IA

3 semanas atrás

014.8K

EchoMimicV3 - 蚂蚁开源的多模态数字人动画生成模型

EchoMimicV3 - Um modelo de geração de animação humana digital multimodal de código aberto

O EchoMimicV3 é um modelo de geração de vídeo humano digital multimodal lançado pelo Ant Group, com 1,3 bilhão de parâmetros, capaz de lidar com várias entradas, como áudio, texto, imagens etc., para gerar animações humanas digitais de alta qualidade.

Recursos mais recentes de IA

3 semanas atrás

014.7K

Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR - Uma nova geração de modelos de reconhecimento de fala lançada em conjunto pela Nail e pela Tongyi

O Fun-ASR é um grande modelo de reconhecimento de fala lançado em conjunto pela Nail e pela Tongyi Labs. O modelo foi treinado com dados de áudio maciços e pode identificar com precisão a terminologia de vários setores, como Internet, tecnologia, decoração, etc., melhorando significativamente a precisão do reconhecimento. O modelo é combinado com as informações empresariais da Nail para otimização da inferência, a fim de reduzir o problema de...

Recursos mais recentes de IA

4 semanas atrás

020.2K

Squibler - AI小说辅助写作平台，助力构思到创作全过程

Squibler - plataforma de escrita assistida por IA para romances que alimenta todo o processo, da ideia à criação

O Squibler é uma poderosa plataforma de escrita assistida por IA projetada para escritores que ajuda os usuários em todo o processo, da concepção à criação e à publicação. A plataforma oferece uma variedade de modelos de histórias que abrangem romances, roteiros, contos etc. Os usuários só precisam inserir o conceito inicial, e a IA pode gerar esboços, personagens, cenas...

Recursos mais recentes de IA

4 semanas atrás

015.8K

91写作 - 开源的AI智能小说创作平台

91Writing - Plataforma de criação inteligente de romances com IA de código aberto

91 Writing é uma ferramenta de criação de romances de IA de código aberto, desenvolvida com base no Vue 3 e no Element Plus, integrando uma variedade de modelos avançados de IA, como GPT, Claude, Gemini e assim por diante. A ferramenta oferece aos criadores uma cadeia completa de ferramentas de criação, da ideia ao texto, incluindo a criação de projetos...

Recursos mais recentes de IA

4 semanas atrás

015.7K

Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization - uma plataforma de simulação social multiagente lançada pela HKUST

A Aivilization é a primeira plataforma de simulação social de corpo multiinteligente de IA do mundo, desenvolvida pela Universidade de Ciência e Tecnologia de Hong Kong. Ela constrói uma caixa de areia digital visual onde os usuários podem criar e orientar milhares de inteligências de IA para observar a evolução social da futura coexistência entre humanos e IA. A plataforma suporta...

Recursos mais recentes de IA

4 semanas atrás

025.5K

Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - Modelo de IA de código aberto xAI de Musk

O Grok 2.5 é um modelo de IA de código aberto da xAI de Elon Musk. Com 269 bilhões de parâmetros, ele se baseia na arquitetura Mixed Expertise (MoE) para desempenho e inferência avançados. O modelo foi testado em conhecimento científico de nível de pós-graduação (GPQA), conhecimento de uso geral (MMLU, MM...

Recursos mais recentes de IA

4 semanas atrás

016.9K

Draw A Fish - 免费的在线AI画鱼网站，共享虚拟鱼缸

Draw A Fish - Site de desenho de peixes com IA on-line gratuito, tanques de peixes virtuais compartilhados

O Draw A Fish é um site simples e divertido de desenho de peixes com IA on-line, no qual os usuários podem desenhar peixes para serem colocados em um aquário virtual compartilhado globalmente. O Draw A Fish não requer registro, é fácil de usar e leva apenas alguns segundos para ser criado e compartilhado.

Recursos mais recentes de IA

4 semanas atrás

016.2K

MIT最新报告《生成式AI鸿沟：2025年商业人工智能现状》

O novo relatório do MIT, The Generative AI Divide: the State of Business AI in 2025

O mais recente relatório do MIT, The Generative AI Divide: the State of Business AI in 2025, revela o núcleo do processo de adoção da IA generativa (GenAI) que as empresas estão vivenciando, realizando uma pesquisa aprofundada em mais de 300 projetos de IA, entrevistas com 52 organizações e uma pesquisa com 153 executivos...

Recursos mais recentes de IA Informações sobre o curso

4 semanas atrás

027.3K

AutoClip - 开源的AI视频切片工具，一键生成专题视频合集

AutoClip - Ferramenta de código aberto de corte de vídeo com IA para gerar coleções de vídeos temáticos em um clique!

O AutoClip é uma ferramenta de edição de vídeo de IA de código aberto, baseada em tecnologia avançada de IA para realizar o processo completo de processamento automatizado de vídeo. As ferramentas podem identificar automaticamente os destaques do vídeo, extrair com precisão o conteúdo valioso e basear-se na semelhança do tema do agrupamento inteligente para gerar uma coleção de conteúdo.

Recursos mais recentes de IA

4 semanas atrás

017.6K

ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer - Ferramenta de animação de IA generativa de código aberto da Tencent

O ToonComposer é uma ferramenta de animação de IA generativa lançada em conjunto pela Universidade Chinesa de Hong Kong, pelo Tencent PCG ARC Lab e pela Universidade de Pequim. Por meio da tecnologia generativa de pós-quadros-chave, a geração de quadros intermediários e o processo de coloração são integrados em um processo automatizado, exigindo apenas um esboço e uma...

Recursos mais recentes de IA

4 semanas atrás

019.8K

Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - Um novo modelo de IA de código aberto pela equipe do Wordpress

O Seed-OSS é uma família de grandes modelos de linguagem de código aberto da equipe do Byte Jump Seed, com foco em textos longos e tarefas de raciocínio. O modelo tem bom desempenho em raciocínio lógico complexo e raciocínio em várias etapas com alta precisão e pode resolver problemas difíceis com eficiência. O Seed-OSS suporta contextos de texto longo de até 512K...

Recursos mais recentes de IA

4 semanas atrás

019.4K

Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - Modelo multimodal científico leve e de código aberto do Shanghai AI Lab

O Intern-S1-mini é um macromodelo científico multimodal leve com escala de parâmetros de 8B lançado pelo Laboratório de Inteligência Artificial de Xangai (SAL). Ele herda os recursos avançados do Intern-S1, combinando recursos científicos especializados e de uso geral, e é adequado para implantação rápida e desenvolvimento secundário. Em termos de desempenho, o I...

Recursos mais recentes de IA

4 semanas atrás

017K

Nano Banana - 谷歌推出的AI图像编辑模型

Nano Banana - modelo de edição de imagens com IA do Google

Nano Banana é o codinome da Gemini 2.5 Flash Image para Gemini, um modelo de geração e edição de imagens com IA do Google que gera imagens detalhadas e fotorrealistas com base em solicitações de texto simples para fazer modificações de alta qualidade em imagens existentes.

Recursos mais recentes de IA

3 semanas atrás

033.2K

Klear-Reasoner - 快手推出的全新推理模型

Klear-Reasoner - Um novo modelo de raciocínio apresentado pela Racer

O Klear-Reasoner é um modelo de inferência de alto desempenho da Racer, baseado no Qwen3-8B-Base. O modelo é treinado por meio de uma longa cadeia de pensamento, ajuste fino supervisionado e aprendizado por reforço para ter um bom desempenho em raciocínio matemático e de código.

Recursos mais recentes de IA

4 semanas atrás

016.3K

CombatVLA - 淘天集团推出的高效VLA模型

CombatVLA - O modelo eficiente de VLA do Grupo Amoy

O CombatVLA é um modelo inovador específico para jogos de RPG de ação em 3D da equipe do Future Life Lab do Amoy Group. O CombatVLA é um modelo de visão-linguística-ação (VLA), criado em uma escala paramétrica 3B, que coleta dados do jogador humano por meio de um rastreador de movimento...

Recursos mais recentes de IA

4 semanas atrás

016.3K

DeepSeek V3.1 - DeepSeek推出的最新开源AI模型

DeepSeek V3.1 - O mais recente modelo de IA de código aberto do DeepSeek

O DeepSeek V3.1 é uma nova geração de modelos de IA introduzidos pelo DeepSeek, com atualizações importantes baseadas em seu antecessor, o V3. O DeepSeek V3.1 apresenta uma arquitetura de raciocínio híbrido que permite que o modelo alterne de forma flexível entre os modos de pensar e não pensar, melhorando significativamente a capacidade de pensar...

Recursos mais recentes de IA

4 semanas atrás

017.7K

Qwen-Image-Edit - 阿里通义开源的图像编辑模型

Qwen-Image-Edit - Modelo de edição de imagens de código aberto de Ali Tongyi

O Qwen-Image-Edit é um modelo de edição de imagens para todos os fins introduzido por Ali Tongyi, desenvolvido na arquitetura Qwen-Image com 20 bilhões de parâmetros. O modelo combina recursos de edição semântica e de aparência e pode executar edição de aparência visual de baixo nível em imagens (por exemplo, adicionar, excluir...

Recursos mais recentes de IA

1 mês atrás

017.7K

MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - A mais recente estrutura de geração de fala da KunlunWei

O MoE-TTS é uma estrutura de síntese de fala introduzida por KunlunWanwei, com base na arquitetura Mixed Expert (MoE), que combina modelos de linguagem grandes (LLMs) pré-treinados com módulos de especialistas em fala. O MoE-TTS mantém o raciocínio textual avançado, congelando os parâmetros do módulo textual e atualizando apenas os parâmetros do módulo de fala...

Recursos mais recentes de IA

1 mês atrás

019.5K

Genie Envisioner - 智元联合北航等开源的通用机器人操作平台

Genie Envisioner - plataforma de robótica de uso geral de código aberto da Jiyuan com a Beihang e outros

O Genie Envisioner (GE) é uma plataforma unificada para operações de robótica desenvolvida pela equipe da Genie Robotics em colaboração com a Universidade Nacional de Cingapura, a Universidade de Aeronáutica e Astronáutica de Pequim e outras instituições. Ela permite que os robôs compreendam e executem melhor as tarefas "imaginando primeiro, depois agindo".

Recursos mais recentes de IA

1 mês atrás

019.6K

DINOv3 - Meta AI推出的新一代自监督视觉基础模型

DINOv3 - Modelo básico de visão autossupervisionada de última geração da Meta AI

O DINOv3 é um modelo de base de visão autossupervisionada de última geração da Meta AI que usa um paradigma de aprendizado autossupervisionado para aprender recursos de imagem sem rotular dados. Ele resolve o problema de degradação de recursos aprimorando a preparação de dados e introduzindo a ancoragem Gram, além de melhorar a generalização...

Recursos mais recentes de IA

1 mês atrás

024.6K

Mureka V7.5 - 昆仑万维推出的先进AI音乐创作模型

Mureka V7.5 - Modelos avançados de criação de música com IA da Quintessence

O Mureka V7.5 é um modelo de geração de música com IA de última geração da Kunlun World Wide, com foco na composição de músicas chinesas. O modelo reproduz com precisão o timbre e as técnicas de execução para gerar vocais naturais, suaves e emocionais. Com base na tecnologia otimizada de reconhecimento automático de fala (ASR), o Mureka V...

Recursos mais recentes de IA

1 mês atrás

019K

Skywork Deep Research Agent v2 - 昆仑万维推出的深度研究智能体升级版

Skywork Deep Research Agent v2 - Uma versão atualizada da Deep Research Intelligence da Kunlun

O Skywork Deep Research Agent v2 é um corpo inteligente de pesquisa profunda lançado pela Kunlun Wave, com foco na integração e análise de informações multimodais.

Recursos mais recentes de IA

1 mês atrás

016.6K

Hunyuan-GameCraft - 腾讯混元开源的下一代游戏交互式视频生成框架

Hunyuan-GameCraft - Estrutura de código aberto da Tencent Hunyuan para gerar vídeo interativo para jogos de última geração.

O Hunyuan-GameCraft é uma estrutura de geração de vídeos de jogos interativos de código aberto da equipe da Tencent Hunyuan. A estrutura, a partir de uma única imagem e instruções para gerar vídeos de jogos altamente dinâmicos, oferece suporte ao usuário por meio do teclado e do mouse para controlar o conteúdo do vídeo em tempo real.

Recursos mais recentes de IA

1 mês atrás

021.8K

Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - Modelagem multimodal eficiente e de código aberto por KunlunWanwei

O Skywork UniPic 2.0 é um modelo multimodal eficiente de código aberto da Quintessence, com foco na geração, edição e compreensão de imagens. O modelo é baseado em uma arquitetura SD3.5-Medium de 2B parâmetros e é realizado por meio de pré-treinamento, estratégia de reforço progressivo de duas tarefas e co-treinamento...

Recursos mais recentes de IA

1 mês atrás

019.7K

RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - Primeiro protocolo de contexto de robótica de código aberto do Ali Dharma Institute

O RynnRCP é um Protocolo de Contexto de Robô (RCP) de código aberto do Ali Dharma Institute que reduz o limite para o desenvolvimento da Inteligência Incorporada e abre todo o processo de desenvolvimento. O RynnRCP consiste na estrutura do RCP e no módulo RobotMotion.

Recursos mais recentes de IA

1 mês atrás

019.4K

RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - Modelo de compreensão mundial de código aberto do Ali Dharma Institute

O RynnEC é um modelo de compreensão do mundo apresentado pelo Alibaba Dharma Institute, com foco em tarefas de inteligência incorporada. O modelo é baseado na tecnologia de fusão multimodal, combinando dados de vídeo e linguagem natural, e pode analisar objetos em uma cena a partir de várias dimensões, oferecendo suporte a funções como compreensão de objetos, percepção espacial e segmentação de alvos de vídeo.

Recursos mais recentes de IA

1 mês atrás

020K

Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - Estrutura de geração de mundos 3D de código aberto da Kunlun World Wide

O Matrix-3D é uma estrutura de código aberto da equipe de IA da Skywork, focada na geração de mundos 3D panorâmicos exploráveis. A estrutura combina técnicas de geração de vídeo panorâmico e reconstrução 3D para gerar mundos 3D exploráveis omnidirecionais de alta qualidade a partir de uma única imagem ou prompt de texto...

Recursos mais recentes de IA

1 mês atrás

018.3K

GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Modelo de raciocínio visual multimodal de código aberto da Smart Spectrum

O GLM-4.5V é o modelo de inferência visual de código aberto líder mundial introduzido pela Smart Spectrum, com 106 bilhões de parâmetros totais e 12 bilhões de parâmetros ativados. O modelo é treinado com base no modelo de base de texto de nova geração GLM-4.5-Air, com recursos avançados de compreensão visual e raciocínio, capaz de lidar com imagens, vídeos...

Recursos mais recentes de IA

1 mês atrás

022.1K

Matrix-Game 2.0 - 昆仑万维开源自研的交互式世界模型

Matrix-Game 2.0 - Modelo de mundo interativo desenvolvido por KunlunWei

O Matrix-Game 2.0 é um modelo de mundo interativo de desenvolvimento próprio lançado pela Kunlun SkyWork AI. O Matrix-Game 2.0 é o primeiro modelo de geração interativa de código aberto, em tempo real e de sequência longa do setor para cenários de uso geral, capaz de ser executado a 25 FPS em vários cenários...

Recursos mais recentes de IA

1 mês atrás

020.8K

Português do Brasil