InkSight - Herramienta de Google de código abierto para el reconocimiento de la escritura a mano con inteligencia artificial
InkSight es la herramienta de reconocimiento de escritura AI de código abierto de Google que convierte notas manuscritas en papel en archivos digitales editables con tinta (por ejemplo, en formato SVG). A diferencia de OCR tradicional , puede reconocer el contenido del texto , puede restaurar el estilo de escritura a mano , la estructura del párrafo y la marca de enfoque , soporte para el procesamiento multi-idioma .
NewBie-image-Exp0.1 - NewBieAI-Lab modelos gráficos experimentales alfabetizados en anime de código abierto
NewBie-image-Exp0.1 es el primer modelo gráfico experimental de anime nacido de texto y de código abierto del equipo NewBieAI-Lab, que utiliza la arquitectura Next-DiT con parámetros 3.5B, optimizada para el estilo secundario. El modelo está optimizado para el estilo secundario mediante un codificador de texto dual (GEMMA3-4B...
LongCat-Image - Modelo de generación y edición de imágenes de código abierto del grupo estadounidense LongCat team
LongCat-Image es un modelo de generación y edición de imágenes de código abierto lanzado por el equipo LongCat de Meituan. Utilizando una arquitectura híbrida de columna vertebral (MM-DiT+Single-DiT), combinada con un codificador condicional de modelo de lenguaje visual (VLM), es capaz de lograr imágenes generadas por texto y múltiples rondas de edición de imágenes....
VibeVoice-Realtime - Modelo ligero de texto a voz en tiempo real de código abierto de Microsoft
VibeVoice-Realtime es el modelo ligero de texto a voz (TTS) en tiempo real de código abierto de Microsoft diseñado para una interacción de baja latencia y en tiempo real. Admite la entrada de texto en streaming , desde el primer token de texto se puede vocalizar , la latencia es de solo unos 300 ms , adecuado para un número dinámico...
Flowra - Herramienta de desarrollo de flujos de trabajo de IA de código abierto por Magic Hitch y el equipo Wooli WULI
Flowra es el motor de ejecución de gráficos de código abierto y las herramientas de desarrollo de paquetes de nodos de ModelScope joint woo mile WULI team, es el componente central de FlowBench. A través del flujo de trabajo de organización de grafo acíclico dirigido (DAG) , con almacenamiento en caché inteligente , programación paralela , soporte distribuido ...
RoboCOIN - Un conjunto de datos de robots reales de doble brazo de código abierto creado por Wisdom Source en colaboración con varias universidades.
RoboCOIN es el primer conjunto de datos de máquinas reales de robots de doble brazo a gran escala del mundo, de código abierto, creado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con varias empresas y universidades. Contiene 15 tipos de plataformas robóticas, 180.000 trayectorias de operaciones reales y 421 tipos de escenarios de tareas. Su mayor característica es la adopción de un sistema de anotación jerárquica para desmontar la tarea...
TalkCody - Asistente de escritorio de programación de IA gratuito y de código abierto con soporte para tareas complejas
TalkCody es una aplicación de escritorio de asistente de programación de AI gratuita y de código abierto , construida sobre Rust + Tauri 2 , soporte para Windows, macOS y Linux tres plataformas , con rendimiento nativo , inicio rápido y ventajas de bajo uso de recursos . Soporte para más de 50 A...
MemMachine - Sistema de memoria de IA de código abierto de MemVerge
MemMachine es un sistema de memoria de IA de código abierto desarrollado por MemVerge, diseñado para modelos e inteligencias de IA, que puede almacenar y recuperar datos de interacción como el cerebro humano, resolviendo el problema de la "pérdida de memoria sin estado" de la IA. Adopta una arquitectura en capas (memoria a corto plazo, memoria a largo plazo, imagen de usuario...
PartCrafter - NU United Bytes modelo de generación 3D de una sola figura de código abierto
PartCrafter es un modelo generativo 3D avanzado, propuesto conjuntamente por la Universidad de Pekín, ByteDance y la Universidad Carnegie Mellon. Puede generar a la vez múltiples partes de malla 3D semánticamente explícitas y geométricamente diversas a partir de una sola imagen RGB. El modelo se modela mediante un espacio potencial combinatorio y...
GigaWorld-0 - Marco de modelado del mundo de código abierto de GigaVision
GigaWorld-0 es el marco del modelo mundial de código abierto de la startup nacional de Inteligencia Corporal GigaAI, utilizado principalmente para resolver el problema del cuello de botella de datos en el campo de la Inteligencia Corporal (IA Corporal). Genera de forma eficiente datos de entrenamiento de alta calidad, diversos y físicamente realistas,...









