Novos lançamentos Página 42
O DeepSeek-V3 é um poderoso modelo de linguagem Mixture-of-Experts (MoE) com 671 bilhões de parâmetros totais e 3,7 bilhões de parâmetros ativados para cada token. O modelo emprega uma arquitetura inovadora de MLA (Multi-head Latent Attention, atenção latente de várias cabeças), bem como um...
Introdução abrangente O CogAgent é um modelo de linguagem visual de código aberto desenvolvido pelo Grupo de Pesquisa de Mineração de Dados da Universidade de Tsinghua (THUDM), com o objetivo de automatizar a operação de interfaces gráficas de usuário (GUIs) entre plataformas. O modelo é baseado no CogVLM (GLM-4V-9B), oferece suporte a interações bilíngues em inglês e chinês e é capaz de ...
Hoje cedo, recebi uma notificação de que meu pedido de teste interno do "Searchlight" foi aprovado, portanto, publicarei uma breve análise antes de ir para a cama. A plataforma está posicionada como uma "plataforma de aplicativos de capacidade de tecnologia visual" do Dharma Institute, e atualmente há menos aplicativos (em comparação com o lançamento), e estamos ansiosos para abrir gradualmente mais aplicativos visuais. A busca pela luz é dividida em dois endereços: https://xunguang...
Introdução geral O DisPose é um projeto inovador de inteligência artificial de código aberto voltado para a geração controlada de animação de imagens de personagens. Desenvolvido por uma equipe de pesquisadores e com código aberto no GitHub, o projeto usa técnicas avançadas de aprendizagem profunda para obter um controle preciso da animação de personagens por meio da decomposição das informações de pose do esqueleto.
Introdução abrangente Smolagents é uma biblioteca de agente inteligente leve desenvolvida pela HuggingFace que se concentra em simplificar o processo de desenvolvimento de sistemas de agente de IA. O projeto é conhecido por sua filosofia de design limpo, com apenas cerca de 1.000 linhas de código principal, mas oferece recursos avançados de integração de recursos. Seu recurso mais notável é o suporte à execução de código...
Esse comando vem do projeto Vision Parse e extrai documentos markdown em duas etapas. Prompt de análise de imagem (img_analysis.prompt): analisa essa imagem e retorna uma descrição JSON detalhada, incluindo qualquer texto detectado, imagens detectadas...
Como começar a gerar conteúdo visual com o Napkin AI? (Criação de conta, geração visual, exportação para arquivos PDF ou de imagem...) Bem-vindo ao Napkin AI, a ferramenta que facilita a transformação de seu texto em belos recursos visuais. Este guia o guiará pelas etapas básicas para começar e maximizar...
Introdução abrangente O Vision Parse é uma ferramenta revolucionária de processamento de documentos que combina de forma inteligente a tecnologia de última geração dos modelos de linguagem visual (Vision Language Models) para converter de forma inteligente documentos PDF em conteúdo de alta qualidade no formato Markdown. A ferramenta oferece suporte a uma ampla variedade de modelos de linguagem visual de primeira linha, incluindo o...
Introdução geral O InvSR é um projeto inovador de super-resolução de imagem de código aberto baseado em técnicas de inversão de difusão capazes de converter imagens de baixa resolução em imagens de alta resolução e alta qualidade. O projeto explora o rico conhecimento prévio da imagem incorporado em modelos de difusão em larga escala pré-treinados e, por meio de um mecanismo de amostragem flexível, oferece suporte a 1 a...
Introdução geral O Infinity é uma estrutura inovadora de geração de imagens de alta resolução desenvolvida pela equipe da FoundationVision. O projeto rompe as limitações dos modelos tradicionais de geração de imagens por meio de uma abordagem inovadora de modelagem autorregressiva visual em nível de bits.