DeepSeek publica la primera versión de código abierto de su modelo v3, ahora con la mayor capacidad de código (en China)
DeepSeek-V3 es un potente modelo lingüístico de Mezcla de Expertos (MoE) con 671.000 millones de parámetros totales y 3.700 millones de parámetros activados para cada token. El modelo emplea una innovadora atención potencial multicabezal (Mu...
CogAgent: modelo de lenguaje visual inteligente de código abierto de Smart Spectrum para la automatización de interfaces gráficas
Introducción CogAgent es un modelo de lenguaje visual de código abierto desarrollado por el Grupo de Investigación de Minería de Datos de la Universidad de Tsinghua (THUDM), cuyo objetivo es automatizar el funcionamiento de la interfaz gráfica de usuario (GUI) en todas las plataformas. El modelo se basa en CogVLM (GLM-4V-9B) y es compatible con el chino y el inglés bilingües....
Plataforma de creación de vídeo "Searchlight" del Instituto Dharma Reseña completa
Hoy temprano, recibí una notificación de que mi solicitud para pruebas internas de "Searchlight" fue aprobada, así que publicaré una breve reseña antes de irme a la cama. La plataforma se posiciona como la "plataforma de aplicaciones de capacidad de tecnología visual" del Instituto Dharma, y actualmente hay menos aplicaciones (en comparación con el lanzamiento), esperando abrir gradualmente más aplicaciones visuales. La búsqueda de la luz se divide en dos direcciones: https...
DisPose: generación de vídeos con control preciso de la postura humana, creación de bailarinas
Introducción general DisPose es un innovador proyecto de inteligencia artificial de código abierto centrado en la generación controlada de animación de imágenes de personajes. Desarrollado por un equipo de investigadores y de código abierto en GitHub, el proyecto utiliza técnicas avanzadas de aprendizaje profundo para lograr un control preciso de la animación de personajes mediante la descomposición de la información de pose esquelética.D...
Smolagents: proyecto de código abierto para el desarrollo rápido de inteligencias de IA y la construcción ligera de inteligencias
Introducción completa Smolagents es una biblioteca ligera de agentes inteligentes desarrollada por HuggingFace que se centra en simplificar el proceso de desarrollo de sistemas de agentes de IA. El proyecto es conocido por su simplicidad en la filosofía de diseño, con sólo alrededor de 1000 líneas de código del núcleo, sin embargo, proporciona potentes capacidades de integración de características. Es más ...
Comandos combinados cue word para extraer visualmente documentos en formato Markdown
Este comando proviene del proyecto Vision Parse y extrae documentos markdown en dos pasos. Pregunta de análisis de imagen (img_analysis.prompt): Analiza esta imagen y...
Guía de iniciación a la Inteligencia Artificial china
¿Cómo empezar a generar contenidos visuales con Napkin AI? (Creación de cuentas, generación visual, exportación a archivos pdf o de imagen...) Bienvenido a Napkin AI, una herramienta que facilita la conversión de su texto en bellos elementos visuales. Esta guía le...
Vision Parse: conversión inteligente de documentos PDF al formato Markdown mediante modelos de lenguaje visual
Introducción completa Vision Parse es una revolucionaria herramienta de procesamiento de documentos, que combina inteligentemente la tecnología más avanzada de modelos de lenguaje visual (Vision Language Models), la capacidad de convertir inteligentemente documentos PDF a formato Markdown de alta calidad...
InvSR: Proyecto de superresolución de imágenes de código abierto para mejorar la calidad de la resolución de imágenes.
Introducción general InvSR es un innovador proyecto de código abierto de superresolución de imágenes basado en técnicas de inversión de la difusión capaces de convertir imágenes de baja resolución en imágenes de alta calidad y alta resolución. El proyecto explota el rico conocimiento previo de la imagen incrustado en modelos de difusión a gran escala preentrenados y, mediante un mecanismo de muestreo flexible, admite...
Infinity: modelización autorregresiva por bits de la generación de imágenes de alta resolución para una generación ilimitada de imágenes de alta resolución
Introducción general Infinity es un innovador marco de generación de imágenes de alta resolución desarrollado por el equipo de FoundationVision. El proyecto rompe con las limitaciones de los modelos tradicionales de generación de imágenes a través de un innovador enfoque de modelado autorregresivo visual a nivel de bits.Las principales características de Infinity...







