1-2-1-MNVTON: imágenes eficaces, pruebas virtuales de ropa por personas en vídeos (por abrir)
Introducción general 1-2-1-MNVTON es un proyecto de código abierto basado en GitHub cuyo objetivo es proporcionar la tecnología "Modality-specific Normalization for Virtual Try-On" (MNVTON) mediante...
Kokoro-ONNX: eficaz herramienta de conversión de texto en voz con soporte multilingüe y multivoz
Introducción completa Kokoro-ONNX es una herramienta de texto a voz (TTS) de código abierto basada en el tiempo de ejecución ONNX. Desarrollado por thewh1teagle , el proyecto tiene como objetivo proporcionar soluciones de síntesis de voz eficientes y rápidas.Kokoro-ONNX soporta...
Zerox: PDF, DOCX, conversión de imágenes a Markdown, modelo visual OCR de alta precisión
Introducción general Zerox es un proyecto de código abierto diseñado para convertir PDF, DOCX, imágenes y otros documentos a formato Markdown a través de modelos visuales. El proyecto ha sido desarrollado por el equipo getomni-ai y proporciona una solución OCR (Reconocimiento Óptico de Caracteres) sencilla y eficiente.
AIVLOG: Edita automáticamente los vídeos más destacados, crea fácilmente vlogs profesionales
Introducción completa AIVLOG es una herramienta de edición de vídeo AI diseñado para creadores de Vlog. Puede analizar automáticamente el contenido del vídeo y editar de forma inteligente los aspectos más destacados, ahorrando a los usuarios 95% tiempo de edición. Ya se trate de un vídeo de la vida cotidiana, registros de viajes o conversaciones, AIVLOG puede...
Charla: una herramienta de chat AI minimalista basada en endpoints con integración nativa en el backend de Ollama.
Descripción general Charla es una aplicación de chat basada en endpoints diseñada para entablar diálogos con modelos lingüísticos nativos. La aplicación se integra con el backend Ollama, admite diálogos contextuales y guarda las sesiones de chat como archivos Markdown. Los usuarios pueden...
Actualización importante de Windsurf Wave 2: introduce la búsqueda web y la memoria automatizada con la versión de despliegue híbrido para empresas
Codeium acaba de lanzar la actualización Windsurf Wave 2, que aporta varias mejoras importantes a los desarrolladores, como la búsqueda web, las memorias automatizadas y la optimización de la ejecución de código. Como herramienta Top 2 AI Coding, estas actualizaciones están diseñadas para proporcionar 20...
Google lanza el motor Vertex AI RAG: una ventanilla única para crear aplicaciones generativas fiables mejoradas mediante búsquedas
La IA generativa y el modelado de grandes lenguajes (LLM) están transformando las industrias, pero dos retos clave pueden dificultar su adopción por parte de las empresas: la desilusión (generar información incorrecta o sin sentido) y el conocimiento limitado más allá de sus datos de entrenamiento. La generación aumentada por recuperación (RAG) y la ...
MiniRAG: Marco de Generación Mejorada de Recuperación Simplificada, Índice de Grafos de Entidades Recupera Bloques de Texto Relevantes
Una introducción exhaustiva MiniRAG es un marco de trabajo de Generación Aumentada de Recuperación (RAG) extremadamente sencillo que pretende permitir un buen rendimiento de la RAG incluso para modelos pequeños mediante la indexación de grafos heterogéneos y la recuperación mejorada por topología ligera. Ha sido desarrollado por el Laboratorio de Ciencia de Datos de la Universidad de Hong Kong (HKUDS) para ...
Perplexity AI presenta una oferta para fusionarse con (adquirir) la estadounidense TikTok
Lo esencial: Perplexity AI presentó una oferta a la empresa matriz de TikTok, ByteDance, el sábado proponiendo que Perplexity se fusione con las operaciones de TikTok en EE.UU., según ha sabido CNBC. Una fuente familiarizada con la situación reveló...
Omni-RGPT: un gran modelo multimodal de comprensión regional de imágenes y vídeos para mejorar el análisis del contenido visual
Introducción exhaustiva Omni-RGPT es un modelo de lenguaje multimodal de gran tamaño diseñado para permitir la comprensión a nivel de región de imágenes y vídeos. Mediante la introducción de la técnica Token Mark, Omni-RGPT es capaz de resaltar la región objetivo en el espacio de características visuales e indicar la región objetivo mediante pistas de región (por ejemplo, recuadros o...









