Últimos recursos sobre IA

共 2912 篇文章
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team Modelos de movimiento 3D de generación de texto de código abierto

Hybrid Motion1.0 (HY-Motion1.0) es el modelo de acción 3D generado por texto de código abierto del equipo Hybrid de Tencent, que utiliza una arquitectura de transformadores de difusión con mil millones de parámetros, y puede generarse directamente mediante la descripción en lenguaje natural de animaciones de personajes 3D de alta calidad.
Hace 7 días
015.3K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - Modelo de generación de mundos interactivos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Fudan

Yume 1.5 es un modelo de generación de mundos interactivos de código abierto, desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan y el Instituto de Investigación en Innovación de Shanghai, capaz de renderizar interactivamente en tiempo real (12 FPS en una sola tarjeta). Adopta la tecnología de modelado conjunto de canales espaciotemporales (TSCM), aunque la longitud del contexto aumente...
Hace 7 días
09.9K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - Sistema libre de generación de vídeos musicales de código abierto M-A-P en colaboración con Beipiao, NU y otros.

AutoMV es un sistema de generación de vídeos musicales de código abierto desarrollado por el equipo de M-A-P en colaboración con varias universidades, que puede generar automáticamente vídeos musicales coherentes a partir de canciones completas sin necesidad de formación.Adopta un modelo de colaboración multiinteligencia, que incluye módulos de análisis musical, escritura de guiones, dirección y control de calidad, y puede analizar con precisión letras, ritmos...
Hace 7 días
09.1K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

PersonaLive - La Universidad de Macao y otros de código abierto en tiempo real AI retrato animación generación marco vivo

PersonaLive es un marco de código abierto para la transmisión en directo de intercambio de rostros de IA en tiempo real, desarrollado conjuntamente por la Universidad de Macao, dzine.ai y el GVC Lab de la Universidad de la Gran Área de la Bahía. Puede lograr una baja latencia y una alta velocidad de fotogramas en la transmisión digital de personas con tarjetas gráficas ordinarias de consumo (12 GB de memoria de vídeo), y soportar en tiempo real a través de la cámara...
hace 1 semana
011K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - Vídeo AI de código abierto a la herramienta de pantalla dividida dibujado a mano, soporte de la estación B, pequeño libro rojo

ClipSketch AI es una herramienta de código abierto de conversión de vídeo a pantalla dividida dibujada a mano diseñada para creadores de vídeos cortos. Puede convertir vídeos de B station, Xiaohongshu y otras plataformas en storyboards de estilo dibujado a mano en un solo clic, admite el marcado de fotogramas clave, la generación automática de subescenas y social copy, y puede integrar roles definidos por el usuario.
hace 1 semana
013.2K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Modelo de base corporal inteligente GUI universal de código abierto de Ali Tongyi Labs

MAI-UI es un modelo base de cuerpo inteligente GUI universal de código abierto de Alibaba Tongyi Labs, con cuatro capacidades principales: funcionamiento entre aplicaciones, comprensión semántica difusa, interacción activa con el usuario y coordinación de procesos en varios pasos. Adoptando una arquitectura de colaboración extremo-nube, el modelo ligero reside en el dispositivo para gestionar las tareas diarias, y las tareas complejas pueden llamar a la nube big...
hace 1 semana
015.5K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - Tecnología de generación de control de diseño de código abierto de Little Red Book y la Universidad de Fudan

InstanceAssemble es una tecnología de generación de control de disposición de código abierto desarrollada conjuntamente por Xiaohongshu y la Universidad de Fudan, que consigue una generación de imágenes precisa de disposiciones simples a complejas y de dispersas a densas mediante el mecanismo de "Instance Assemble Attention". Adoptando una arquitectura en cascada de dos etapas , primero en el fondo de la imagen , y luego uno a uno ...
hace 1 semana
06.9K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Navegador web de IA de código abierto basado en el núcleo de Firefox

Zen Browser es un navegador de código abierto basado en el núcleo de Firefox, centrado en una experiencia de navegación sencilla y eficiente, con características básicas como la barra de pestañas vertical y el aislamiento del espacio de trabajo. Con el diseño de barra lateral, puede mostrar claramente el título completo de más de 50 pestañas y soportar la navegación multi-ventana en pantalla dividida.
hace 2 semanas
011.6K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - Modelo de inferencia de texto largo de código abierto de Ali Tongyi Lab

QwenLong-L1.5 es un modelo de inferencia de texto largo de código abierto de Alibaba Tongyi Lab, centrado en la resolución de problemas de inferencia complejos con contextos ultra largos (por ejemplo, 1M-4M de tokens). El principal avance radica en tres innovaciones importantes en la fase de post-entrenamiento: a través del grafo de conocimiento, el análisis sintáctico SQL y la multiinteligencia...
hace 2 semanas
011.2K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology, Tsinghua y otros marcos de aceleración de generación de vídeo de código abierto

TurboDiffusion es un marco de aceleración de generación de vídeo de código abierto desarrollado conjuntamente por la Universidad de Tsinghua, BioDigital Technology y UC Berkeley, capaz de mejorar la velocidad de generación de vídeo entre 100 y 200 veces manteniendo una calidad de imagen casi sin pérdidas. Mediante la atención lineal dispersa, la destilación por pasos de...
hace 2 semanas
014.4K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - Modelo de reconocimiento médico del habla de código abierto de Google

MedASR es un modelo de reconocimiento del habla médica con 105 millones de parámetros, de código abierto de Google, perfeccionado con un corpus clínico desensibilizado de 5.000 horas, optimizado para la terminología de fármacos, dosis y anatomía, con un modelo de lenguaje médico integrado de 6 gramos y una tasa de error de palabra de sólo el 4,6 en el conjunto de datos privados de radiología RAD-DICT...
hace 2 semanas
010.4K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B: el macromodelo de código abierto de Ali Tongyi para la interacción verbal de extremo a extremo

Fun-Audio-Chat-8B es un gran modelo de voz integral de 8.000 millones de parámetros de código abierto creado por el equipo de Ali Tongyi, con entrada directa de voz y salida de voz, sin necesidad de empalme ASR+LLM+TTS, bilingüe fluido en chino e inglés, con baja latencia y timbre natural. Utiliza LLM compartido de doble resolución con 25 Hz...
hace 2 semanas
010.7K
PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计

PromptFill - Herramienta de código abierto de generación de palabras clave estructuradas diseñada para la pintura de IA

PromptFill es una herramienta de generación de indicaciones estructurada diseñada para el dibujo de IA, que ayuda a los usuarios a crear, gestionar e iterar rápidamente indicaciones complejas mediante interacciones visuales de "rellenar los espacios en blanco", mejorando la eficacia y la calidad de la generación de imágenes de IA.Las características principales de PromptFill...
hace 2 semanas
09.7K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - La última generación de modelos de gran tamaño de Wisdom Spectrum AI Open Source

GLM-4.7 es la última generación del buque insignia Grand Model lanzado y de código abierto por Smart Spectrum AI, que está profundamente optimizado para la programación de IA, el razonamiento complejo y las tareas corporales inteligentes. El modelo admite una longitud de contexto de 200k y una salida máxima de 128k, con codificación multilingüe, planificación de tareas de largo alcance y capacidades de colaboración de herramientas...
hace 2 semanas
019.2K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen: el modelo de IA para juegos de código abierto de NVIDIA en colaboración con Stanford, Caltech y otros.

NitroGen es un modelo de IA para juegos de código abierto desarrollado por NVIDIA en colaboración con la Universidad de Stanford, Caltech y otras instituciones, capaz de ejecutar más de 1.000 tipos de juegos diferentes. El modelo se basa en la arquitectura GROOT N1.5 y se obtiene mediante el análisis de 40.000 horas de datos de vídeo de juegos (incluida la anotación del funcionamiento del joystick)....
hace 2 semanas
015.4K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali

Qwen-Image-Layered es un modelo de edición de imágenes de AI de código abierto del equipo Ali que descompone de forma inteligente imágenes ordinarias en capas transparentes independientes para lograr una edición de precisión similar a la de Photoshop. El modelo es de código abierto mediante el protocolo Apache 2.0 y admite un control flexible de las capas...
hace 2 semanas
017.9K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2: el modelo de codificador-decodificador de próxima generación de código abierto de Google

T5Gemma 2 es un modelo de codificador-decodificador de nueva generación de código abierto de Google, basado en la arquitectura Gemma 3 mejorada con capacidades de procesamiento multimodal y de contextos largos. Admite una amplia gama de tipos de datos, incluidos texto e imágenes, y es capaz de manejar contextos muy largos (hasta 128K) en la generación de...
hace 3 semanas
013.7K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - Modelo de IA ligero de código abierto de Google optimizado para llamadas a funciones

FunctionGemma es un modelo ligero de IA optimizado para llamadas a funciones de Google, desarrollado a partir del modelo base Gemma 3 de 270 millones de parámetros, que convierte el lenguaje natural en instrucciones de API ejecutables en tiempo real en teléfonos móviles, navegadores y otros dispositivos. La característica principal es la compatibilidad con...
hace 3 semanas
011.4K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - Modelos generativos 3D a gran escala de código abierto de Microsoft

TRELLIS.2 es el modelo generativo 3D a gran escala de código abierto de Microsoft con 4.000 millones de parámetros, centrado en la generación de imágenes 3D de alta fidelidad. Utilizando la innovadora estructura de vóxel disperso "O-Voxel", puede manejar eficientemente la topología compleja y las características nítidas, para generar información 3D de alta calidad con material PBR completo ...
hace 3 semanas
014.3K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - Protocolo declarativo de código abierto de Google para interfaces de interacción de usuario basadas en agentes

A2UI (Agent-to-User Interface) es el protocolo de interfaz de código abierto de Google impulsado por agentes que aborda los retos de la generación de interfaces interactivas complejas para agentes de IA. A través de un formato JSON declarativo que permite a los agentes de IA describir la estructura de la interfaz de usuario , las aplicaciones cliente...
hace 3 semanas
019.6K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - Un gran modelo de la arquitectura MoE de código abierto lanzado por Xiaomi

MiMo-V2-Flash es un gran modelo de arquitectura MoE de código abierto lanzado por Xiaomi, con 309.000 millones de parámetros totales y 15.000 millones de parámetros activos, centrado en el razonamiento eficiente y las aplicaciones corporales inteligentes. El modelo adopta una arquitectura de atención híbrida y tecnología de meta-predicción multi-palabra, con una velocidad de inferencia de 150 tokens/segundo, en...
hace 3 semanas
015.3K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move: el marco de código abierto de Ali Tongyi para la generación de vídeo con inteligencia artificial, en colaboración con Tsinghua y otros organismos.

Wan-Move es un marco de generación de vídeo de IA de código abierto desarrollado conjuntamente por Ali Tongyi Labs, la Universidad de Tsinghua y otras instituciones, centrado en la composición de vídeo de alta calidad mediante una tecnología precisa de control del movimiento. La tecnología central es la "guía de trayectoria potencial", que puede añadir sin problemas el control de movimiento a nivel de punto al modelo existente de imagen a vídeo...
hace 3 semanas
011.9K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - Un modelo de generación de vídeo de referencia multisujeto de código abierto creado por Smart Spectrum AI en colaboración con la Universidad de Tsinghua y otras instituciones.

Kaleido es un modelo de generación de vídeo de referencia multisujeto de código abierto desarrollado conjuntamente por la Universidad Tecnológica de Hefei, la Universidad de Tsinghua y Smart Spectrum AI. Genera vídeos coherentes con el sujeto a través de múltiples imágenes de referencia, resolviendo las deficiencias de los modelos existentes en cuanto a coherencia multisujeto y desacoplamiento del fondo.Kaleido genera vídeos a través de un...
hace 3 semanas
010.4K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - La Universidad de Hong Kong convierte documentos académicos de código abierto en diapositivas Herramientas de IA

Paper2Slides es una herramienta de IA de código abierto del Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong que convierte documentos académicos en diapositivas o pósters profesionales en un solo clic. Utiliza la tecnología RAG (Retrieval Augmented Generation), analizando directamente el contenido del documento en lugar de basarse en información de la red, para garantizar que el PPT generado sea altamente coherente con el original....
hace 3 semanas
010.6K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Sistema de generación de vídeo en tiempo real de código abierto de Wisdom Spectrum AI

RealVideo es un sistema de generación de vídeo en tiempo real de código abierto de Smart Spectrum AI que puede generar rápidamente respuestas de vídeo naturales y fluidas en 2 o 3 segundos. Los usuarios solo tienen que subir una foto e introducir un texto, y el sistema genera la voz y el vídeo correspondientes, lo que permite dialogar en tiempo real con personajes de IA....
hace 3 semanas
09.5K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA: pruebas de referencia de código abierto de Google para agentes de investigación de IA

DeepSearchQA es la prueba de referencia de código abierto de Google para agentes de investigación de IA, diseñada para evaluar el rendimiento de las inteligencias en tareas de consulta complejas de varios pasos. Consta de 900 tareas de "cadena causal" diseñadas a mano que abarcan 17 dominios y exigen que la IA actúe como un investigador humano y...
hace 3 semanas
08.4K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - Sistema de AI de código abierto para el servicio postventa que ayuda a las empresas a crear rápidamente plataformas de preguntas y respuestas

KoalaQA es un sistema de servicio posventa inteligente de código abierto desarrollado por el equipo de Chaitin. Basado en el modelo de IA, proporciona funciones de servicio al cliente de IA, búsqueda de IA y gestión de base de conocimientos para ayudar a las empresas a crear rápidamente una plataforma inteligente de preguntas y respuestas. El sistema permite responder en tiempo real 24/7 ...
hace 4 semanas
011.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Modelado de texto a voz de código abierto de extremo a extremo de Faceted Intelligence

VoxCPM 1.5 es un modelo de generación de voz de código abierto publicado por Facade Intelligence, basado en la tecnología de conversión de texto a voz (TTS) sin necesidad de divisor, con varias innovaciones y mejoras. Adoptando una arquitectura autorregresiva de difusión de extremo a extremo, genera formas de onda de habla continua directamente a partir del texto, evitando las limitaciones de los métodos tradicionales de segmentación...
hace 4 semanas
015.4K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Asistente de código de línea de comandos de código abierto de Mistral AI

Mistral Vibe es un asistente de codificación de línea de comandos de código abierto de Mistral AI, desarrollado basado en el modelo Devstral, que soporta la interacción del lenguaje natural para completar la búsqueda de código, manipulación de archivos, control de versiones y otras tareas. Puede escanear automáticamente la estructura del proyecto y el estado de Git a través del símbolo @...
hace 4 semanas
010.5K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Sistema de síntesis de voz industrial de código abierto de Smart Spectrum AI

GLM-TTS es un sistema de síntesis de voz industrial de código abierto con potentes funciones de síntesis de voz. Adopta una arquitectura de generación en dos etapas: la primera convierte el texto en secuencias de tokens de voz y la segunda convierte las secuencias de tokens en audio de alta calidad. El sistema admite sólo 3 segundos de muestras de voz para completar la...
hace 4 semanas
012.5K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Modelo de agente de IA de código abierto para teléfonos móviles de Smart Spectrum AI

OpenAutoGLM es un modelo corporal inteligente de código abierto con capacidad de "uso del teléfono móvil", que puede comprender el contenido de la pantalla del teléfono móvil mediante la percepción multimodal, y generar automáticamente el flujo de operaciones para completar las tareas especificadas por el usuario. Los usuarios sólo tienen que utilizar el lenguaje natural para describir las necesidades, como "abrir Meituan para buscar una olla caliente cercana...".
hace 4 semanas
017.8K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - Herramientas de código abierto para la investigación en IA y la gestión del conocimiento, Las pintas más fuertes de NotebookLM

SurfSense es una herramienta de investigación y gestión del conocimiento de IA de código abierto. Altamente personalizable, puede conectarse a motores de búsqueda, Slack, Jira, Notion, YouTube, GitHub y muchas otras fuentes de datos externas para facilitar la integración de la información. Los usuarios pueden cargar...
hace 4 semanas
012.4K
InkSight - Google开源的AI手写识别工具

InkSight - Herramienta de Google de código abierto para el reconocimiento de la escritura a mano con inteligencia artificial

InkSight es la herramienta de reconocimiento de escritura AI de código abierto de Google que convierte notas manuscritas en papel en archivos digitales editables con tinta (por ejemplo, en formato SVG). A diferencia de OCR tradicional , puede reconocer el contenido del texto , puede restaurar el estilo de escritura a mano , la estructura del párrafo y la marca de enfoque , soporte para el procesamiento multi-idioma .
hace 4 semanas
010.9K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - Modelo de generación y edición de imágenes de código abierto del grupo estadounidense LongCat team

LongCat-Image es un modelo de generación y edición de imágenes de código abierto lanzado por el equipo LongCat de Meituan. Utilizando una arquitectura híbrida de columna vertebral (MM-DiT+Single-DiT), combinada con un codificador condicional de modelo de lenguaje visual (VLM), es capaz de lograr imágenes generadas por texto y múltiples rondas de edición de imágenes....
hace 4 semanas
011K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - Herramienta de desarrollo de flujos de trabajo de IA de código abierto por Magic Hitch y el equipo Wooli WULI

Flowra es el motor de ejecución de gráficos de código abierto y las herramientas de desarrollo de paquetes de nodos de ModelScope joint woo mile WULI team, es el componente central de FlowBench. A través del flujo de trabajo de organización de grafo acíclico dirigido (DAG) , con almacenamiento en caché inteligente , programación paralela , soporte distribuido ...
hace 1 mes
013.5K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Un conjunto de datos de robots reales de doble brazo de código abierto creado por Wisdom Source en colaboración con varias universidades.

RoboCOIN es el primer conjunto de datos de máquinas reales de robots de doble brazo a gran escala del mundo, de código abierto, creado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con varias empresas y universidades. Contiene 15 tipos de plataformas robóticas, 180.000 trayectorias de operaciones reales y 421 tipos de escenarios de tareas. Su mayor característica es la adopción de un sistema de anotación jerárquica para desmontar la tarea...
hace 1 mes
011.3K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - Sistema de memoria de IA de código abierto de MemVerge

MemMachine es un sistema de memoria de IA de código abierto desarrollado por MemVerge, diseñado para modelos e inteligencias de IA, que puede almacenar y recuperar datos de interacción como el cerebro humano, resolviendo el problema de la "pérdida de memoria sin estado" de la IA. Adopta una arquitectura en capas (memoria a corto plazo, memoria a largo plazo, imagen de usuario...
hace 1 mes
017.6K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - Comprensión multimodal de vídeo y generación de grandes modelos de código abierto de ByteHop

Vidi2 es un gran modelo de generación y comprensión de vídeo multimodal de segunda generación de código abierto de ByteDance, centrado en la comprensión, el análisis y la creación de contenidos de vídeo. Admite la entrada conjunta de modalidades de texto, vídeo y audio, y puede comprender simultáneamente contenido de imagen, información de sonido y comandos de lenguaje natural para lograr una interacción intermodal y empujar...
hace 1 mes
013.8K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - Modelo de visión-lenguaje-acción de código abierto de NVIDIA con capacidad de razonamiento

Alpamayo-R1 es un modelo Visión-Lenguaje-Acción (VLA) desarrollado por NVIDIA con capacidad de razonamiento, diseñado para mejorar la capacidad de toma de decisiones de la conducción autónoma en escenarios complejos. Mediante la introducción de un mecanismo de razonamiento de cadena causal, el vehículo es capaz de analizar la causalidad del escenario (por ejemplo, "debido a...
hace 1 mes
019.8K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Wisdom Source Research Institute gran modelo multimodal del mundo de código abierto

Wujie-Emu3.5 es un macromodelo de mundo multimodal de código abierto del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín, con 34.000 millones de referencias y capacidad de modelado de mundo nativo. Entrenado con 10 billones de Token multimodales (incluidos 790 años de datos de vídeo), puede simular las leyes de la física y lograr la generación de gráficos, la guía visual...
hace 1 mes
011.9K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - Modelos de reconstrucción visual 3D de código abierto por Bitmap Seed

Depth Anything 3 (DA3) es un modelo de reconstrucción visual 3D desarrollado y de código abierto por el equipo de Byte Jump Seed. A través de una única arquitectura Transformer para lograr la reconstrucción de la geometría espacial en cualquier punto de vista, sólo tiene que predecir el mapa de profundidad y mapa de rayos puede restaurar la escena 3D, en comparación con...
hace 1 mes
018.8K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - Marco de generación de vídeo corporal multiinteligente de código abierto en la Universidad de Hong Kong

ViMax es un marco de generación de vídeo corporal multiinteligente de código abierto del Data Science Laboratory de la Universidad de Hong Kong, que puede automatizar todo el proceso, desde la entrada creativa hasta la salida de vídeo. La integración de funciones de generación de guiones, diseño de escenas, planificación de tomas y renderización de vídeo permite a los usuarios generar vídeos coherentes de calidad cinematográfica y televisiva mediante la descripción en lenguaje natural ...
hace 1 mes
025.5K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Modelo de asistente informático de código abierto de Microsoft

Fara-7B es una versión de código abierto de Microsoft de un modelo de agente operado por ordenador (CUA) a escala de 7.000 millones de parámetros basado en la arquitectura Qwen 2.5-VL-7B. Al analizar visualmente capturas de pantalla de páginas web y realizar clics, entradas, etc. en la pantalla, no necesita depender de árboles de accesibilidad adicionales ni de múltiples modelos de gran tamaño...
hace 1 mes
018.7K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

HunyuanOCR es un modelo de reconocimiento óptico de caracteres de alto rendimiento de código abierto creado por el equipo híbrido de Tencent, con sólo 1.000 millones de referencias. Desarrollado sobre la base de la arquitectura multimodal híbrida, adopta un diseño integral y puede gestionar eficazmente tareas de detección y reconocimiento de texto y análisis sintáctico de documentos. El modelo obtuvo 94,1 puntos en la prueba de documentos complejos, superando...
hace 1 mes
020.1K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - Sistema AI de conversión de texto en voz de código abierto y alto rendimiento que funciona offline a velocidades de vértigo.

Supertonic es un sistema de texto a voz (TTS) de código abierto y alto rendimiento centrado en la generación rápida de voz en dispositivos locales. Gracias a la tecnología ONNX Runtime, puede ejecutarse en dispositivos como teléfonos móviles, ordenadores e incluso Raspberry Pi, admite 23 idiomas y clones de voz, y no requiere red....
hace 1 mes
015.8K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - El primer sistema operativo de inteligencia artificial totalmente autónomo del mundo, con código abierto de Gradient

Parallax es el primer "sistema operativo de IA totalmente autónomo" del mundo, de código abierto, creado por Gradient, un laboratorio de IA distribuida. Admite el despliegue multiplataforma de grandes modelos en Mac, Windows y otros dispositivos heterogéneos, lo que permite a los usuarios controlar totalmente el modelo, los datos y la memoria de la IA. El sistema es consciente de la red ...
hace 2 meses
031.1K
Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Marco de intercambio de pesos de código abierto y alto rendimiento del Grupo Ant

Awex es el marco de intercambio de pesos de alto rendimiento y código abierto de Ant Group, diseñado para la sincronización de parámetros a gran escala en el aprendizaje por refuerzo. Puede completar terabytes de intercambio de parámetros en segundos, mejorando significativamente la eficiencia del entrenamiento y la inferencia.Awex tiene un rendimiento de sincronización muy rápido, en un clúster de mil tarjetas, los modelos de parámetros de trillones se pueden completar en 6 segundos de la cantidad total de...
hace 2 meses
029K
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - Herramienta automatizada de código abierto de la Universidad Jiaotong de Shanghai y Little Red Book para llamar al marco de evolución de datos.

LoopTool es un marco automatizado de evolución de datos de llamada a herramientas de código abierto creado por la Universidad Jiao Tong de Shanghai y el equipo del Pequeño Libro Rojo, diseñado para mejorar la capacidad de llamada a herramientas de grandes modelos lingüísticos. Optimiza la generación de datos y la formación de modelos mediante la iteración en bucle cerrado, utilizando modelos de código abierto (por ejemplo, Qwen3-32B) como...
hace 2 meses
028.8K
AgentEvolver - 阿里通义实验室开源的智能体进化系统

AgentEvolver - Sistema de código abierto de Ali Tongyi Lab para inteligencias en evolución

AgentEvolver es un sistema de evolución del cuerpo inteligente de código abierto de Alibaba Tongyi Lab. Mediante los tres mecanismos de autocuestionamiento, autonavegación y autoatribución, consigue el aprendizaje autónomo y la evolución de las inteligencias.AgentEvolver adopta una arquitectura orientada a servicios que combina el sandbox ambiental, LLM y sc...
hace 2 meses
034.8K
MemOS - 开源的AI记忆管理与调度平台,共享长期记忆

MemOS - Plataforma de código abierto de gestión y programación de la memoria de la IA para compartir recuerdos a largo plazo

MemOS es un marco de programación y gestión de memoria de código abierto para grandes modelos de lenguaje (LLM) como MemTensor. Considerando la memoria como un recurso tan importante como la potencia aritmética, unifica la gestión del texto plano, el estado de activación y la memoria de parámetros mediante unidades de memoria MemCube estandarizadas.
hace 2 meses
029.2K