Últimos recursos sobre IA

共 3048 篇文章

Información sobre el curso Últimos recursos sobre IA Base de conocimientos de IA Noticias AI

ordenar

hojear Marcador (Internet)

SurfSense - 开源的AI研究与知识管理工具，NotebookLM最强平替

SurfSense - Herramientas de código abierto para la investigación en IA y la gestión del conocimiento, Las pintas más fuertes de NotebookLM

SurfSense es una herramienta de investigación y gestión del conocimiento de IA de código abierto. Altamente personalizable, puede conectarse a motores de búsqueda, Slack, Jira, Notion, YouTube, GitHub y muchas otras fuentes de datos externas para facilitar la integración de la información. Los usuarios pueden cargar...

Últimos recursos sobre IA

hace 4 meses

029.8K

GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Serie de modelos multilingües multimodales de código abierto Wisdom Spectrum AI

GLM-4.6V es una serie de grandes modelos lingüísticos multimodales de código abierto de Smart Spectrum AI. La serie contiene dos versiones: GLM-4.6V (106B-A12B), la versión base para escenarios de nube y clúster de alto rendimiento, con la arquitectura Mixed Expert (MoE), un total de unos 106.000 millones de referencias y una activación...

Últimos recursos sobre IA

hace 4 meses

027K

InkSight - Google开源的AI手写识别工具

InkSight - Herramienta de Google de código abierto para el reconocimiento de la escritura a mano con inteligencia artificial

InkSight es la herramienta de reconocimiento de escritura AI de código abierto de Google que convierte notas manuscritas en papel en archivos digitales editables con tinta (por ejemplo, en formato SVG). A diferencia de OCR tradicional , puede reconocer el contenido del texto , puede restaurar el estilo de escritura a mano , la estructura del párrafo y la marca de enfoque , soporte para el procesamiento multi-idioma .

Últimos recursos sobre IA

hace 4 meses

025.9K

NewBie-image-Exp0.1 - NewBieAI-Lab开源的实验性动漫文生图模型

NewBie-image-Exp0.1 - NewBieAI-Lab modelos gráficos experimentales alfabetizados en anime de código abierto

NewBie-image-Exp0.1 es el primer modelo gráfico experimental de anime nacido de texto y de código abierto del equipo NewBieAI-Lab, que utiliza la arquitectura Next-DiT con parámetros 3.5B, optimizada para el estilo secundario. El modelo está optimizado para el estilo secundario mediante un codificador de texto dual (GEMMA3-4B...

Últimos recursos sobre IA

hace 4 meses

029.4K

LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - Modelo de generación y edición de imágenes de código abierto del grupo estadounidense LongCat team

LongCat-Image es un modelo de generación y edición de imágenes de código abierto lanzado por el equipo LongCat de Meituan. Utilizando una arquitectura híbrida de columna vertebral (MM-DiT+Single-DiT), combinada con un codificador condicional de modelo de lenguaje visual (VLM), es capaz de lograr imágenes generadas por texto y múltiples rondas de edición de imágenes....

Últimos recursos sobre IA

hace 4 meses

024.9K

VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - Modelo ligero de texto a voz en tiempo real de código abierto de Microsoft

VibeVoice-Realtime es el modelo ligero de texto a voz (TTS) en tiempo real de código abierto de Microsoft diseñado para una interacción de baja latencia y en tiempo real. Admite la entrada de texto en streaming , desde el primer token de texto se puede vocalizar , la latencia es de solo unos 300 ms , adecuado para un número dinámico...

Últimos recursos sobre IA

hace 4 meses

025.8K

Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - Herramienta de desarrollo de flujos de trabajo de IA de código abierto por Magic Hitch y el equipo Wooli WULI

Flowra es el motor de ejecución de gráficos de código abierto y las herramientas de desarrollo de paquetes de nodos de ModelScope joint woo mile WULI team, es el componente central de FlowBench. A través del flujo de trabajo de organización de grafo acíclico dirigido (DAG) , con almacenamiento en caché inteligente , programación paralela , soporte distribuido ...

Últimos recursos sobre IA

hace 4 meses

025.2K

RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Un conjunto de datos de robots reales de doble brazo de código abierto creado por Wisdom Source en colaboración con varias universidades.

RoboCOIN es el primer conjunto de datos de máquinas reales de robots de doble brazo a gran escala del mundo, de código abierto, creado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con varias empresas y universidades. Contiene 15 tipos de plataformas robóticas, 180.000 trayectorias de operaciones reales y 421 tipos de escenarios de tareas. Su mayor característica es la adopción de un sistema de anotación jerárquica para desmontar la tarea...

Últimos recursos sobre IA

hace 4 meses

025.7K

TalkCody - 免费开源的AI编程桌面助手，支持复杂任务

TalkCody - Asistente de escritorio de programación de IA gratuito y de código abierto con soporte para tareas complejas

TalkCody es una aplicación de escritorio de asistente de programación de AI gratuita y de código abierto , construida sobre Rust + Tauri 2 , soporte para Windows, macOS y Linux tres plataformas , con rendimiento nativo , inicio rápido y ventajas de bajo uso de recursos . Soporte para más de 50 A...

Últimos recursos sobre IA

hace 4 meses

029.3K

MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - Sistema de memoria de IA de código abierto de MemVerge

MemMachine es un sistema de memoria de IA de código abierto desarrollado por MemVerge, diseñado para modelos e inteligencias de IA, que puede almacenar y recuperar datos de interacción como el cerebro humano, resolviendo el problema de la "pérdida de memoria sin estado" de la IA. Adopta una arquitectura en capas (memoria a corto plazo, memoria a largo plazo, imagen de usuario...

Últimos recursos sobre IA

hace 4 meses

029.5K

PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes modelo de generación 3D de una sola figura de código abierto

PartCrafter es un modelo generativo 3D avanzado, propuesto conjuntamente por la Universidad de Pekín, ByteDance y la Universidad Carnegie Mellon. Puede generar a la vez múltiples partes de malla 3D semánticamente explícitas y geométricamente diversas a partir de una sola imagen RGB. El modelo se modela mediante un espacio potencial combinatorio y...

Últimos recursos sobre IA

hace 4 meses

027K

GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - Marco de modelado del mundo de código abierto de GigaVision

GigaWorld-0 es el marco del modelo mundial de código abierto de la startup nacional de Inteligencia Corporal GigaAI, utilizado principalmente para resolver el problema del cuello de botella de datos en el campo de la Inteligencia Corporal (IA Corporal). Genera de forma eficiente datos de entrenamiento de alta calidad, diversos y físicamente realistas,...

Últimos recursos sobre IA

hace 4 meses

025.6K

Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI lanza la nueva serie de grandes modelos multimodales de código abierto

Mistral 3 es la última serie de grandes modelos multimodales lanzada como código abierto por Mistral AI, que incluye el modelo insignia Mistral Large 3 (675B de parámetros totales) y una versión más ligera de la serie Ministral (3B/8B/14B), ambos compatibles con la comprensión de imágenes...

Últimos recursos sobre IA

hace 4 meses

024.1K

Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - Comprensión multimodal de vídeo y generación de grandes modelos de código abierto de ByteHop

Vidi2 es un gran modelo de generación y comprensión de vídeo multimodal de segunda generación de código abierto de ByteDance, centrado en la comprensión, el análisis y la creación de contenidos de vídeo. Admite la entrada conjunta de modalidades de texto, vídeo y audio, y puede comprender simultáneamente contenido de imagen, información de sonido y comandos de lenguaje natural para lograr una interacción intermodal y empujar...

Últimos recursos sobre IA

hace 4 meses

027.4K

Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - Modelo de visión-lenguaje-acción de código abierto de NVIDIA con capacidad de razonamiento

Alpamayo-R1 es un modelo Visión-Lenguaje-Acción (VLA) desarrollado por NVIDIA con capacidad de razonamiento, diseñado para mejorar la capacidad de toma de decisiones de la conducción autónoma en escenarios complejos. Mediante la introducción de un mecanismo de razonamiento de cadena causal, el vehículo es capaz de analizar la causalidad del escenario (por ejemplo, "debido a...

Últimos recursos sobre IA

hace 4 meses

035.9K

Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Modelo gráfico aventurado de código abierto por el equipo Ali AIDC-AI

Ovis-Image es un modelo de gráfico generado por texto de 7.000 millones de parámetros de código abierto del equipo AIDC-AI de Alibaba International Digital Commerce Group, centrado en la representación de texto de alta calidad. Basado en la arquitectura Ovis-U1, hereda el decodificador visual avanzado y el refinador bidireccional Token ...

Últimos recursos sobre IA

hace 4 meses

023.5K

悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Wisdom Source Research Institute gran modelo multimodal del mundo de código abierto

Wujie-Emu3.5 es un macromodelo de mundo multimodal de código abierto del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín, con 34.000 millones de referencias y capacidad de modelado de mundo nativo. Entrenado con 10 billones de Token multimodales (incluidos 790 años de datos de vídeo), puede simular las leyes de la física y lograr la generación de gráficos, la guía visual...

Últimos recursos sobre IA

hace 4 meses

026.8K

GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - Modelo de agente GUI multimodal de código abierto por el equipo Steps

GELab-Zero es un modelo de agente GUI multimodal de código abierto creado por el equipo Step Leap, basado en el modelo Qwen3-VL-4B-Instruct con parámetros 4B. Puede reconocer elementos de interfaz de usuario y realizar operaciones como hacer clic, deslizar, etc., y admite tareas entre aplicaciones...

Últimos recursos sobre IA

hace 4 meses

034.6K

Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - Modelos de reconstrucción visual 3D de código abierto por Bitmap Seed

Depth Anything 3 (DA3) es un modelo de reconstrucción visual 3D desarrollado y de código abierto por el equipo de Byte Jump Seed. A través de una única arquitectura Transformer para lograr la reconstrucción de la geometría espacial en cualquier punto de vista, sólo tiene que predecir el mapa de profundidad y mapa de rayos puede restaurar la escena 3D, en comparación con...

Últimos recursos sobre IA

hace 4 meses

036.3K

DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - Modelo de razonamiento matemático de código abierto DeepSeek

DeepSeek-Math-V2 es un modelo de razonamiento matemático de código abierto de DeepSeek, una empresa de IA dependiente de Phantom Cube, y la última versión se basa en la mejora de DeepSeek-V3.2-Exp-Base, con un rendimiento superior al de Gemini DeepThink para alcanzar el...

Últimos recursos sobre IA

hace 4 meses

028.9K

Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - Modelo de generación de imágenes de código abierto de Ali Tongyi Labs

Z-Image es un modelo de generación de imágenes de código abierto de Ali Tongyi Labs con capacidades de generación de imágenes eficientes, rápidas y potentes. Mediante una arquitectura de transformador de difusión de flujo único (S3-DiT), integra texto, semántica visual y tokens VAE de imagen en un flujo de entrada unificado....

Últimos recursos sobre IA

hace 4 meses

050.7K

ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK: el entorno de código abierto de Alibaba para el entrenamiento corporal inteligente

ROCK (Reinforcement Open Construction Kit) es el sandbox de código abierto de Alibaba para el entorno de entrenamiento de inteligencias, que resuelve el problema de que las inteligencias no pueden entrenarse a escala en entornos reales.ROCK proporciona un servicio de gestión de sandbox altamente estable...

Últimos recursos sobre IA

hace 4 meses

027.4K

ViMax - 香港大学开源的多智能体视频生成框架

ViMax - Marco de generación de vídeo corporal multiinteligente de código abierto en la Universidad de Hong Kong

ViMax es un marco de generación de vídeo corporal multiinteligente de código abierto del Data Science Laboratory de la Universidad de Hong Kong, que puede automatizar todo el proceso, desde la entrada creativa hasta la salida de vídeo. La integración de funciones de generación de guiones, diseño de escenas, planificación de tomas y renderización de vídeo permite a los usuarios generar vídeos coherentes de calidad cinematográfica y televisiva mediante la descripción en lenguaje natural ...

Últimos recursos sobre IA

hace 4 meses

045.3K

FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - Modelo de generación y edición de imágenes de código abierto de Black Forest

FLUX.2 es un modelo de generación y edición de imágenes de código abierto publicado por Black Forest Labs que admite imágenes textuales sin procesar, referencias a varias imágenes y edición de imágenes con detalles más ricos, texturas claras e iluminación estable. Existen cuatro versiones: FLUX.2 [pro] (comparable al...

Últimos recursos sobre IA

hace 4 meses

026.7K

Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Modelo de asistente informático de código abierto de Microsoft

Fara-7B es una versión de código abierto de Microsoft de un modelo de agente operado por ordenador (CUA) a escala de 7.000 millones de parámetros basado en la arquitectura Qwen 2.5-VL-7B. Al analizar visualmente capturas de pantalla de páginas web y realizar clics, entradas, etc. en la pantalla, no necesita depender de árboles de accesibilidad adicionales ni de múltiples modelos de gran tamaño...

Últimos recursos sobre IA

hace 4 meses

032.6K

HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

HunyuanOCR es un modelo de reconocimiento óptico de caracteres de alto rendimiento de código abierto creado por el equipo híbrido de Tencent, con sólo 1.000 millones de referencias. Desarrollado sobre la base de la arquitectura multimodal híbrida, adopta un diseño integral y puede gestionar eficazmente tareas de detección y reconocimiento de texto y análisis sintáctico de documentos. El modelo obtuvo 94,1 puntos en la prueba de documentos complejos, superando...

Últimos recursos sobre IA

hace 5 meses

033.9K

Supertonic - 开源的高性能AI 文本转语音系统，极速离线运行

Supertonic - Sistema AI de conversión de texto en voz de código abierto y alto rendimiento que funciona offline a velocidades de vértigo.

Supertonic es un sistema de texto a voz (TTS) de código abierto y alto rendimiento centrado en la generación rápida de voz en dispositivos locales. Gracias a la tecnología ONNX Runtime, puede ejecutarse en dispositivos como teléfonos móviles, ordenadores e incluso Raspberry Pi, admite 23 idiomas y clones de voz, y no requiere red....

Últimos recursos sobre IA

hace 5 meses

028.2K

MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied: el modelo pedestal de inteligencia incorporada multidominio de código abierto de Xiaomi

MiMo-Embodied es el primer modelo base del mundo basado en la inteligencia artificial y la conducción autónoma. Resuelve el problema de la migración de conocimientos entre la IA incorporada y la conducción autónoma, y logra un modelado unificado de tareas en los dos dominios.

Últimos recursos sobre IA

hace 5 meses

033.4K

MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Gran modelo de conversión de voz de código abierto de la Universidad de Fudan

MOSS-Speech es un gran modelo de voz a voz (Speech-to-Speech) de código abierto del equipo del profesor Qiu Xipeng, de la Universidad de Fudan. Rompe con el procesamiento tradicional del habla, sin necesidad de guía textual, y comprende y genera directamente el habla, que puede capturar elementos no textuales como la entonación y la emoción, haciendo...

Últimos recursos sobre IA

hace 5 meses

028.8K

Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - El primer sistema operativo de inteligencia artificial totalmente autónomo del mundo, con código abierto de Gradient

Parallax es el primer "sistema operativo de IA totalmente autónomo" del mundo, de código abierto, creado por Gradient, un laboratorio de IA distribuida. Admite el despliegue multiplataforma de grandes modelos en Mac, Windows y otros dispositivos heterogéneos, lo que permite a los usuarios controlar totalmente el modelo, los datos y la memoria de la IA. El sistema es consciente de la red ...

Últimos recursos sobre IA

hace 5 meses

084.3K

HunyuanVideo 1.5 - 腾讯混元免费开源的轻量级视频生成模型

HunyuanVideo 1.5 - Modelo de generación de vídeo ligero de código abierto y gratuito Tencent mixed yuan

HunyuanVideo 1.5 es un modelo de generación de vídeo ligero de código abierto de Tencent hybrid big model team , basado en la arquitectura Diffusion Transformer (DiT) , el número de parámetros es de 8.3B. soporta la generación de 5-10 segundos de vídeo de alta definición , sub...

Últimos recursos sobre IA

hace 5 meses

034.9K

Awex - 蚂蚁集团开源的高性能权重交换框架

Awex - Marco de intercambio de pesos de código abierto y alto rendimiento del Grupo Ant

Awex es el marco de intercambio de pesos de alto rendimiento y código abierto de Ant Group, diseñado para la sincronización de parámetros a gran escala en el aprendizaje por refuerzo. Puede completar terabytes de intercambio de parámetros en segundos, mejorando significativamente la eficiencia del entrenamiento y la inferencia.Awex tiene un rendimiento de sincronización muy rápido, en un clúster de mil tarjetas, los modelos de parámetros de trillones se pueden completar en 6 segundos de la cantidad total de...

Últimos recursos sobre IA

hace 5 meses

082.4K

Seekdb - 蚂蚁OceanBase开源的AI原生混合搜索数据库

Seekdb - Ant OceanBase base de datos de búsqueda híbrida nativa de IA de código abierto

Seekdb (OceanBase Seekdb) es la base de datos de búsqueda híbrida nativa de IA de código abierto de Ant OceanBase, que admite la búsqueda híbrida unificada de datos vectoriales, de texto completo, escalares y geoespaciales, utilizando un mecanismo de recuperación de varias etapas, para lograr una búsqueda de alta precisión con baja latencia ...

Últimos recursos sobre IA

hace 5 meses

028K

LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - Herramienta automatizada de código abierto de la Universidad Jiaotong de Shanghai y Little Red Book para llamar al marco de evolución de datos.

LoopTool es un marco automatizado de evolución de datos de llamada a herramientas de código abierto creado por la Universidad Jiao Tong de Shanghai y el equipo del Pequeño Libro Rojo, diseñado para mejorar la capacidad de llamada a herramientas de grandes modelos lingüísticos. Optimiza la generación de datos y la formación de modelos mediante la iteración en bucle cerrado, utilizando modelos de código abierto (por ejemplo, Qwen3-32B) como...

Últimos recursos sobre IA

hace 5 meses

083.7K

SAM 3D - Meta开源的3D重建模型系列

SAM 3D - Meta serie de modelos de reconstrucción 3D de código abierto

SAM 3D es un modelo de reconstrucción 3D basado en la serie SAM de Meta, que incluye dos ramas, SAM 3D Objects y SAM 3D Body. SAM 3D Objects puede generar modelos de objetos 3D interactivos a partir de una sola foto, soportando...

Últimos recursos sobre IA

hace 5 meses

031.8K

AgentEvolver - 阿里通义实验室开源的智能体进化系统

AgentEvolver - Sistema de código abierto de Ali Tongyi Lab para inteligencias en evolución

AgentEvolver es un sistema de evolución del cuerpo inteligente de código abierto de Alibaba Tongyi Lab. Mediante los tres mecanismos de autocuestionamiento, autonavegación y autoatribución, consigue el aprendizaje autónomo y la evolución de las inteligencias.AgentEvolver adopta una arquitectura orientada a servicios que combina el sandbox ambiental, LLM y sc...

Últimos recursos sobre IA

hace 5 meses

089.8K

MemOS - 开源的AI记忆管理与调度平台，共享长期记忆

MemOS - Plataforma de código abierto de gestión y programación de la memoria de la IA para compartir recuerdos a largo plazo

MemOS es un marco de programación y gestión de memoria de código abierto para grandes modelos de lenguaje (LLM) como MemTensor. Considerando la memoria como un recurso tan importante como la potencia aritmética, unifica la gestión del texto plano, el estado de activación y la memoria de parámetros mediante unidades de memoria MemCube estandarizadas.

Últimos recursos sobre IA

hace 5 meses

085.6K

WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型

WithAnyone - Fudan salto conjunto estrella de código abierto AI modelo de generación de fotos

WithAnyone es un modelo de generación de fotos de IA desarrollado conjuntamente por la Universidad de Fudan y StepStar, que resuelve el problema habitual de "copiar y pegar" en la generación de imágenes de IA tradicional y consigue una generación de imágenes multipersona más natural y controlable. El modelo se basa en el conjunto de datos a gran escala MultiID-2M ...

Últimos recursos sobre IA

hace 5 meses

084.4K

ChatTutor - 开源的AI教学辅助工具，可视化互动学习

ChatTutor - Ayuda pedagógica de AI de código abierto para visualizar el aprendizaje interactivo

ChatTutor es un código abierto AI ayuda a la enseñanza, centrándose en el aprendizaje interactivo visual en las materias STEM. A través de la arquitectura del cuerpo multi-inteligente para lograr el diálogo Q & A y la función de dibujo dinámico, se puede dibujar en la pizarra en tiempo real gráficos matemáticos, circuitos de física o mapas mentales, para ayudar a los usuarios a entender intuitivamente el general abstracto....

Últimos recursos sobre IA

hace 5 meses

023.7K

DPAI Arena - JetBrains开源的AI编程基准测试平台

DPAI Arena - Plataforma de evaluación comparativa de código abierto JetBrains para programación de IA

DPAI Arena (Developer Productivity AI Arena) es una plataforma de evaluación comparativa abierta creada por JetBrains para medir la eficacia de las herramientas de desarrollo asistidas por IA en tareas de ingeniería de software del mundo real. A través de un flujo de evaluación transparente...

Últimos recursos sobre IA

hace 5 meses

029.5K

EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - Sistema operativo de memoria a largo plazo de código abierto por Team Shanda

EverMemOS es un sistema operativo de memoria a largo plazo de código abierto lanzado por el equipo de Shanda dirigido por Chen Tianqiao, diseñado para que las inteligencias artificiales resuelvan el problema de la rotura de memoria causada por la ventana de contexto fija de los grandes modelos de lenguaje. El sistema se basa en el mecanismo de memoria del cerebro humano, utilizando una arquitectura de cuatro capas (capa de agente, capa de memoria, capa de índice...

Últimos recursos sobre IA

hace 5 meses

035.7K

Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - Plataforma de desarrollo de flujos de trabajo inteligentes de código abierto para empresas de KDDI

Astron Agent es una plataforma de desarrollo de flujo de trabajo inteligente de grado empresarial de código abierto de KDDI , centrándose en ayudar a las empresas a construir rápidamente una aplicación de agente AI aterrizable . Utilizando la pila de tecnología Java + Spring Boot , soporte para el despliegue privado ligero (configuración mínima de 2 núcleos 4G) , incorporado ...

Últimos recursos sobre IA

hace 5 meses

030.1K

Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - Proyecto de modelo multimodal de gran tamaño de código abierto Tencent Mixed Meta y Tsinghua

Bee es una solución de big model multimodal de código abierto de pila completa lanzada conjuntamente por el equipo de Tencent Mixed Element y la Universidad de Tsinghua para reducir la brecha de rendimiento entre los modelos de código abierto y los de código cerrado mediante la mejora de la calidad de los datos. El proyecto contiene tres logros fundamentales: el conjunto de datos CoT de dos capas de alta calidad a escala de 15 millones Honey-Data...

Últimos recursos sobre IA

hace 5 meses

026.7K

InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - Marco de generación de vídeo autorregresivo espaciotemporal unificado de código abierto Byte

InfinityStar es un marco autorregresivo espaciotemporal unificado de código abierto de ByteDance, diseñado para la generación de imágenes y vídeos de alta resolución. Utilizando un enfoque autorregresivo discreto, puede gestionar simultáneamente tareas de texto a imagen, texto a vídeo e imagen a vídeo en un único modelo. El marco se evalúa en VBench ...

Últimos recursos sobre IA

hace 5 meses

028.3K

Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina: plataforma descentralizada de aprendizaje automático de código abierto desarrollada por la Universidad Técnica de Múnich en colaboración con la Universidad de Michigan.

Koina es una plataforma de aprendizaje automático descentralizada y de código abierto cuyo objetivo es simplificar el análisis de datos proteómicos. Ha sido desarrollada por un equipo de la Universidad Técnica de Múnich (Alemania) y la Universidad de Michigan (EE.UU.). La plataforma integra más de 30 modelos principales (por ejemplo, ProSIT, MS²PIP) a través de una interfaz estandarizada y admite...

Últimos recursos sobre IA

hace 5 meses

028.7K

VibeThinker-1.5B - 微博AI开源的15亿参数大型语言模型

VibeThinker-1.5B - Weibo AI abre un modelo lingüístico a gran escala con 1.500 millones de parámetros

VibeThinker-1.5B es un modelo lingüístico a gran escala de 1.500 millones de parámetros de código abierto de Weibo AI. Basado en el modelo Qwen2.5-Math-1.5B de Alibaba, está optimizado para tareas matemáticas y de codificación y ofrece un rendimiento de inferencia líder en el sector.

Últimos recursos sobre IA

hace 5 meses

031.5K

BestBlogs - 开源的AI内容聚合平台，精选优质技术内容

BestBlogs - Plataforma de agregación de contenidos de AI de código abierto con una selección de contenidos técnicos de calidad.

BestBlogs es una plataforma centrada en ofrecer contenidos de alta calidad a profesionales de la tecnología, emprendedores, gestores de productos, etc. Recopila artículos, podcasts, vídeos y otros contenidos multiformato de más de 400 blogs de alta calidad a través de canales RSS y tecnología de rastreo. Su punto fuerte es el uso de la inteligencia...

Últimos recursos sobre IA

hace 5 meses

025.3K

Egocentric-10K - Build AI开源的第一人称视角机器人数据集

Egocentric-10K - Conjunto de datos robóticos de código abierto sobre la perspectiva en primera persona de Build AI

Egocentric-10K es un conjunto de datos de vídeo a gran escala de operaciones de fábrica con vista en primera persona (egocéntrica) de código abierto del equipo build.ai. El conjunto de datos contiene 10.000 horas de vídeo, con un total de 1.080 millones de...

Últimos recursos sobre IA

hace 5 meses

030.5K

LazyCraft - 开源AI Agent应用开发与管理平台，基于LazyLLM构建

LazyCraft - Plataforma de desarrollo y gestión de aplicaciones de agentes de IA de código abierto, basada en LazyLLM

LazyCraft es una plataforma de desarrollo y gestión de aplicaciones de agentes de IA de código abierto creada por Shangtang basada en el marco de código abierto LazyLLM, que proporciona soluciones integrales de desarrollo de aplicaciones de IA para empresas y desarrolladores. Ayuda a los desarrolladores a construir y lanzar rápidamente grandes aplicaciones modelo con bajo umbral y bajo coste....

Últimos recursos sobre IA

hace 5 meses

034.2K

Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Nuevo marco de desarrollo de agentes de IA de código abierto de Moonshot AI

Kosong es un nuevo marco de desarrollo de agentes de IA de código abierto de Moonshot AI, que proporciona a los desarrolladores un soporte subyacente ligero, flexible y altamente escalable para crear aplicaciones de cuerpos inteligentes de próxima generación. Con un motor de programación de herramientas asíncrono que programa eficientemente múltiples herramientas...

Últimos recursos sobre IA

hace 5 meses

028.6K

SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - Una familia de grandes modelos de inteligencia espacial de código abierto de ShangTang Technology

SenseNova-SI es un gran modelo de inteligencia espacial de código abierto lanzado por ShangTech, que se centra en mejorar la capacidad de la IA para la comprensión y el razonamiento espaciales. El modelo destaca en seis dimensiones básicas, como la medición espacial, la reconstrucción, el juicio de relaciones, la transformación de perspectivas, el análisis de deformaciones y el razonamiento espacial, superando...

Últimos recursos sobre IA

hace 5 meses

024.7K

Omnilingual ASR - Meta推出的多语言语音识别框架

Omnilingual ASR - Marco de reconocimiento del habla multilingüe de Meta

Omnilingual ASR es un marco de reconocimiento del habla multilingüe introducido por Meta, que cubre más de 1600 idiomas, con una tasa de error de caracteres lingüísticos 78% inferior a 10%. Su codificador wav2vec 2.0 de 7.000 millones de parámetros, combinado con el decodificador CTC y Transformer, admite...

Últimos recursos sobre IA

hace 5 meses

028.6K

Frappe Builder - 开源的AI低代码网站构建工具，拖拽组件快速搭建

Frappe Builder - Constructor de sitios web de código bajo, componentes de arrastrar y soltar para una construcción rápida.

Frappe Builder es un constructor de sitios web de código abierto, desarrollado por Frappe, la característica principal es proporcionar un editor visual similar a Figma que soporta componentes de arrastrar y soltar para construir sitios web rápidamente. Forma parte de la ecología Frappe (Frappeverse)...

Últimos recursos sobre IA

hace 5 meses

031.7K

DeepOCR - 基于DeepSeek-OCR模型的开源复刻项目

DeepOCR - Proyecto de réplica de código abierto basado en el modelo DeepSeek-OCR

DeepOCR es un proyecto de replicación de código abierto que implementa la arquitectura central de DeepSeek-OCR, que procesa eficientemente información textual mediante técnicas de compresión óptica. El núcleo es DeepEncoder, que consta de SAM-base (procesamiento de imágenes de alta resolución), compresor convolucional de 16×...

Últimos recursos sobre IA

hace 5 meses

028.2K

Glow - 开源的命令行工具，支持在终端渲染Markdown文件

Glow - herramienta de línea de comandos de código abierto que permite renderizar archivos Markdown en el terminal

Glow es una herramienta de línea de comandos de código abierto para la representación elegante de archivos Markdown en el terminal. La herramienta permite resaltar bloques de código , fórmulas matemáticas y otros elementos complejos , proporcionando una gran cantidad de características tales como estilos personalizados , visualización de paginación , soporte de ratón y así sucesivamente.

Últimos recursos sobre IA

hace 5 meses

032.5K

NocoBase - 免费开源的AI无代码开发平台，可视化构建应用

NocoBase - Plataforma de desarrollo de IA sin código, gratuita y de código abierto, para crear aplicaciones de forma visual.

NocoBase se basa en la plataforma de desarrollo sin código de código abierto impulsado por IA , el apoyo a la rápida construcción de sistemas de negocio , sin programación se puede completar a través de la configuración del desarrollo de aplicaciones . El proyecto utiliza el protocolo Apache-2.0 , proporciona despliegue privado y escalabilidad flexible , adecuado para la gestión empresarial , plataformas de colaboración y otros campos ...

Últimos recursos sobre IA

hace 5 meses

028.8K

UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - Una nueva generación de modelos de edición de imágenes lanzada por RabbitShow Intelligence y la Universidad de Pekín

UniWorld V2 es un modelo de edición de imágenes de nueva generación lanzado conjuntamente por RabbitZhan Intelligence y el equipo UniWorld de la Universidad de Pekín. Presenta ventajas significativas en el campo de la edición de imágenes, especialmente en la comprensión del chino y la ejecución de comandos complejos. El modelo puede representar con precisión fuentes chinas artísticas y...

Últimos recursos sobre IA

hace 5 meses

030.4K

SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - Herramienta de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos con inteligencia artificial

SmartResume es la herramienta inteligente de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos que extrae eficazmente información estructurada, como datos básicos, formación y experiencia laboral, de documentos PDF, imágenes u Office. Mediante la integración de tecnología OCR y metadatos PDF...

Últimos recursos sobre IA

hace 5 meses

032K

Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - El primer gran modelo de edición de audio de código abierto a nivel LLM de Step-Star

Step-Audio-EditX es un macromodelo de edición de audio de código abierto, desarrollado por el equipo Step-Star, que se centra en la manipulación precisa del contenido de audio mediante tecnología de inteligencia artificial. El modelo puede ajustar dinámicamente el estado de ánimo del audio, el estilo de habla (como petulante, acento de anciano, etc.) y los elementos paralingüísticos (como risas, suspiros...

Últimos recursos sobre IA

hace 5 meses

031.1K

Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - Un modelo de razonamiento en vídeo de código abierto de la Universidad de Pekín United Bytes

Open-o3 Video es un modelo de inferencia de vídeo de código abierto desarrollado conjuntamente por la Universidad de Pekín y ByteDance, centrado en mejorar la inferencia de vídeo mediante pruebas temporales y espaciales. Al etiquetar explícitamente las pruebas clave con marcas de tiempo y cuadros delimitadores, ayuda al modelo a comprender e interpretar mejor el contenido del vídeo.

Últimos recursos sobre IA

hace 5 meses

027.7K

Handy - 开源免费的本地AI语音转文字工具

Handy - Herramienta de conversión de voz a texto de AI nativa, gratuita y de código abierto

Handy es una herramienta local de voz a texto de código abierto y gratuita, compatible con sistemas Windows, MacOS y Linux, desarrollada por Rust y React. Al procesar los datos de voz localmente sin subirlos a la nube, garantiza la privacidad y la seguridad, y es adecuada para la transcripción rápida y la introducción de texto.

Últimos recursos sobre IA

hace 5 meses

060.4K

FG-CLIP 2 - 360开源的图文跨模态视觉语言模型

FG-CLIP 2 - 360 Modelo de lenguaje visual multimodal de código abierto para gráficos

FG-CLIP 2 es el modelo gráfico de lenguaje visual multimodal (VL-M) líder en el mundo, lanzado por el Instituto de Investigación 360 Artificial Intelligence, que ha superado a modelos similares de Google y Meta en 29 pruebas comparativas autorizadas, lo que lo convierte en el VL-M más potente de la actualidad....

Últimos recursos sobre IA

hace 5 meses

028.3K

微舆BettaFish - 开源的多智能体舆情分析系统

Micro Opinion BettaFish - Sistema de análisis de opiniones multiinteligencia de código abierto

BettaFish es un sistema de análisis de opinión multi-inteligencia de código abierto. Utilizando la arquitectura de cuerpo multi-inteligente, a través de Query, Media, Insight, Report y otros Agentes trabajan juntos para lograr la recuperación, extracción y presentación de informes de bucle cerrado. El sistema es compatible con ...

Últimos recursos sobre IA

hace 5 meses

061.8K

Ouro - 字节跳动Seed团队开源的新型循环语言模型

Ouro - Un nuevo modelo de lenguaje cíclico de código abierto del equipo ByteHopper Seed

Ouro es un nuevo tipo de Looped Language Models (LLMs) desarrollado por el equipo de ByteDance Seed, con la innovación central de construir directamente capacidades de inferencia en la fase de pre-entrenamiento a través de una estructura computacional recurrente de parámetros compartidos. El modelo utiliza 24 capas como bloque base, a través de...

Últimos recursos sobre IA

hace 5 meses

037.6K

ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit: NVIDIA y la Universidad de Toronto abren un marco de edición de imágenes basado en IA

ChronoEdit, un marco de edición de imágenes de IA de código abierto desarrollado conjuntamente por NVIDIA y la Universidad de Toronto, redefine la tarea de edición de imágenes como una tarea de generación de vídeo para garantizar que los resultados de la edición sean coherentes temporal y físicamente. Mediante la destilación de un modelo de generación de vídeo preentrenado con 14B...

Últimos recursos sobre IA

hace 5 meses

032.4K

LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - Un modelo de gran lenguaje completamente modal para Meituan Open Source

LongCat-Flash-Omni es un modelo de gran lenguaje de código abierto totalmente modal lanzado por el equipo LongCat de Meituan. Con una escala de parámetros de 560.000 millones (27.000 millones de parámetros activados), consigue capacidades de interacción de audio y vídeo en tiempo real de nivel de milisegundos manteniendo un gran número de parámetros.

Últimos recursos sobre IA

hace 5 meses

030.5K

Petri - Anthropic开源的 AI 安全审计框架

Petri - Marco de auditoría de seguridad de IA de código abierto de Anthropic

Petri es un marco de auditoría de seguridad de IA de código abierto desarrollado por Anthropic que evalúa sistemáticamente la seguridad y la alineación del comportamiento de los modelos de IA. Mediante la simulación de un escenario real en el que un auditor automatizado participa en múltiples rondas de diálogo con un modelo objetivo, seguido de un agente juez que actúa sobre el modelo de...

Últimos recursos sobre IA

hace 5 meses

026.9K

Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear: una novedosa arquitectura híbrida de atención lineal de código abierto en el Lado Oscuro de la Luna

Kimi Linear es una nueva arquitectura híbrida de atención lineal de código abierto de Dark Side of the Moon, con Kimi Delta Attention (KDA) como núcleo, que optimiza el modelo de atención tradicional mediante un mecanismo de control más preciso, mejorando significativamente la eficiencia del hardware y la capacidad de control de la memoria...

Últimos recursos sobre IA

hace 5 meses

038.9K

FIBO - 全球首个开源原生支持JSON的文本生成图像模型

FIBO - El primer texto JSON de código abierto del mundo con soporte nativo para generar modelos de imagen

FIBO es el primer modelo de imagen de generación de texto de código abierto del mundo con soporte nativo JSON desarrollado por Bria AI. Basado en la arquitectura DiT (Diffusion Transformer) con 8B parámetros, adopta el método de entrenamiento Flow Matching....

Últimos recursos sobre IA

hace 5 meses

031.4K

SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Modelo de síntesis de voz conversacional de código abierto de Soul AI Lab

SoulX-Podcast es el modelo avanzado de síntesis de voz conversacional multihablante de código abierto de Soul AI Lab diseñado para generar contenidos de podcast de alta calidad. SoulX-Podcast tiene la capacidad de generar múltiples rondas de diálogo y puede simular un diálogo fluido en escenarios reales de podcasting, soportando mandarín, inglés y múltiples...

Últimos recursos sobre IA

hace 5 meses

040.1K

GigaBrain-0 - 开源的具身基础模型，由世界模型生成数据驱动

GigaBrain-0 - Modelo básico encarnado de código abierto basado en datos de generación de modelos mundiales

GigaBrain-0 es el primer modelo de base encarnada Visión-Lenguaje-Acción (VLA) integral de China que utiliza datos de generación de modelos mundiales para lograr una generalización real de la máquina, y está publicado conjuntamente como código abierto por GigaVision y el Centro de Innovación en Robótica Humanoide de Hubei. Adopta la arquitectura híbrida Transformer, que fusiona ...

Últimos recursos sobre IA

hace 5 meses

027.5K

Ming-flash-omni-Preview - 蚂蚁集团开源的全模态大模型

Ming-flash-omni-Preview - Macromodelo totalmente modal de código abierto del Grupo Ant

Ming-flash-omni-Preview es un macromodelo full-modal de código abierto lanzado por Ant Group inclusionAI, con una escala de parámetros de cientos de miles de millones, basado en la arquitectura sparse MoE de Ling 2.0, con parámetros totales de 103B y activaciones de 9B. en la comprensión full-modal y la generación...

Últimos recursos sobre IA

hace 5 meses

032.3K

OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci: el modelo de gran lenguaje omnimodal de código abierto de NVIDIA

OmniVinci es un modelo lingüístico a gran escala, totalmente modal y de código abierto desarrollado por NVIDIA que resuelve el problema de la fragmentación modal en modelos multimodales mediante la innovación arquitectónica y la optimización de datos. La alineación de las incrustaciones visuales y sonoras se mejora mediante OmniAlignNet, que utiliza la captura de grupos incrustada temporalmente....

Últimos recursos sobre IA

hace 5 meses

032K

olmOCR 2 - AI2开源的多模态文档解析模型

olmOCR 2 - Modelo de análisis sintáctico multimodal de documentos de código abierto AI2

olmOCR 2 es un modelo de análisis sintáctico multimodal de documentos de código abierto del Allen Institute for Artificial Intelligence (AI2) y es una versión mejorada de olmOCR. Los documentos impresos digitalizados (por ejemplo, PDF) se...

Últimos recursos sobre IA

hace 5 meses

038.1K

ValueCell - 开源的多智能体金融平台，多个Agent分工协作

ValueCell - Plataforma financiera multiinteligencia de código abierto con múltiples agentes trabajando juntos

ValueCell es una plataforma de aplicaciones financieras de código abierto con múltiples cuerpos inteligentes que mejora la eficiencia del análisis financiero y la gestión de inversiones a través de la tecnología de IA. Simulando un equipo de inversión profesional, múltiples inteligencias de IA trabajan juntas, cubriendo análisis de mercado, análisis de sentimiento, investigación fundamental, trading automático y otras funciones, proporcionando a los usuarios una completa...

Últimos recursos sobre IA

hace 5 meses

057.3K

Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - La máquina de la Fuerza Espíritu de código abierto inteligencia corporal modelo VLA plataforma de servicios de investigación de ventanilla única.

Dexbotic es el modelo de código abierto Visual-Lingüística-Acción (VLA) de la plataforma de servicios de investigación de ventanilla única de inteligencia incorporada de Dexmal, que resuelve los problemas de fragmentación y baja eficiencia de la investigación en el campo de la inteligencia incorporada. Basado en PyTorch, Dexbotic es una plataforma de servicios de investigación de ventanilla única para resolver los problemas de fragmentación y baja eficiencia en el campo de la inteligencia corporal....

Últimos recursos sobre IA

hace 5 meses

029.4K

LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - Modelo de generación de vídeo de código abierto LongCat de la Misión

LongCat-Video es un modelo de generación de vídeo de 1.360 millones de parámetros de código abierto del equipo LongCat, que utiliza el protocolo de código abierto del MIT y soporta tres tareas principales: vídeo generado por texto, vídeo generado por gráficos y continuación de vídeo. El modelo, a través de la estrategia de generación "de grueso a fino" y el mecanismo de atención dispersa por bloques, puede ...

Últimos recursos sobre IA

hace 5 meses

051.1K

DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - Modelo multimodal de edición y generación de imágenes de IA de código abierto de la HKUST

DreamOmni2 es un modelo multimodal de edición y generación de imágenes de IA de código abierto creado por el equipo de Jiajia en la HKUST. Puede procesar simultáneamente comandos de texto e imagen y admite múltiples imágenes de referencia, lo que proporciona a los creadores formas más flexibles de crear. El modelo se entrena mediante un proceso de síntesis de datos en tres fases, un entrenamiento conjunto de generación/edición...

Últimos recursos sobre IA

hace 6 meses

036.2K

混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Mixed World Model 1.1 - Tencent Mixed World lanza un gran modelo reconstruido en 3D de código abierto

WorldMirror 1.1 (WorldMirror) es una reconstrucción 3D de código abierto de grandes modelos lanzada por el equipo WorldMirror de Tencent, que es una versión mejorada de la serie WorldMirror. Admite imágenes multivista, vídeos y entradas multimodales a priori como la posición de la cámara, la referencia interna, el mapa de profundidad, etc. Rompe con la reconstrucción 3D tradicional que sólo se basa en...

Últimos recursos sobre IA

hace 6 meses

035.3K

DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - Modelo de reconocimiento óptico de caracteres de código abierto DeepSeek

DeepSeek-OCR es un modelo avanzado de reconocimiento óptico de caracteres (OCR) de código abierto creado por el equipo de DeepSeek, que convierte texto en imágenes mediante la tecnología de "compresión óptica contextual" y utiliza fichas visuales para la compresión y descodificación con el fin de lograr un procesamiento eficaz de textos largos.

Últimos recursos sobre IA

hace 6 meses

040.4K

VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks

VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...

Últimos recursos sobre IA

hace 6 meses

032K

MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - Modelo de análisis sintáctico de documentos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Pekín

MinerU2.5 es un modelo de lenguaje visual desacoplado desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai y el equipo de la Universidad de Pekín, centrado en el procesamiento eficiente del análisis sintáctico de imágenes de documentos de alta resolución. La principal innovación radica en el diseño en dos fases de la "detección de la disposición global seguida del reconocimiento del contenido local": la primera fase...

Últimos recursos sobre IA

hace 6 meses

046.2K

LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - Soluciones de códec de voz de código abierto Meituan LongCat

LongCat-Audio-Codec es una solución de códec de voz de código abierto del equipo LongCat de Meituan. La solución está diseñada para Speech Large Language Model (Speech LLM), a través del mecanismo de extracción en paralelo Token dual semántico y acústico , teniendo en cuenta las características semánticas y acústicas del habla ...

Últimos recursos sobre IA

hace 6 meses

029.9K

PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros, mediante la fusión de un codificador visual dinámico de alta resolución y un modelo lingüístico ERNIE ligero, al tiempo que mantiene una alta precisión y reduce significativamente la sobrecarga computacional.

Últimos recursos sobre IA

hace 6 meses

047.1K

UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.

UniPixel es un novedoso modelo multimodal propuesto conjuntamente por la Universidad Politécnica de Hong Kong, Tencent, la Academia China de Ciencias y Vivo para lograr la comprensión del lenguaje visual a nivel de píxel. Al unificar las capacidades de referenciación y segmentación de objetos, admite diversas tareas de granularidad fina, como la segmentación de imágenes, la segmentación de vídeos, la comprensión de regiones y la comprensión de pi...

Últimos recursos sobre IA

hace 6 meses

035.4K

DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network

DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...

Últimos recursos sobre IA

hace 6 meses

037.3K

Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Kandinsky 5.0 - Serie de modelos de generación de vídeo de código abierto del equipo ruso de IA

Kandinsky 5.0 es la última serie de modelos de generación de vídeo desarrollada por el equipo ruso de IA, centrada en un diseño ligero y un alto rendimiento. El primer modelo de la serie, Kandinsky 5.0 Video Lite, solo tiene 2.000 millones de parámetros, pero supera a modelos similares de 14B, especialmente...

Últimos recursos sobre IA

hace 6 meses

045.3K

SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...

Últimos recursos sobre IA

hace 6 meses

036.3K

Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...

Últimos recursos sobre IA

hace 6 meses

029.1K

Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Modelo de representación de texto genérico de código abierto de Tencent Youtu

Youtu-Embedding es un modelo de representación de texto universal de código abierto de Youtu Labs de Tencent, diseñado para aplicaciones de nivel empresarial. El texto se mapea en un espacio vectorial de alta dimensión mediante redes neuronales profundas, de modo que las frases semánticamente similares están más cerca unas de otras en ese espacio, logrando una recuperación semántica precisa.

Últimos recursos sobre IA

hace 6 meses

034.2K

SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - Modelo de lenguaje visual multimodal de código abierto de ByteHop

SAIL-VL2 es un modelo de lenguaje visual multimodal de código abierto del equipo Byte Jump, centrado en el modelado conjunto de entradas multimodales como imágenes y texto. Utilizando la arquitectura de mezcla dispersa de expertos (MoE) y la estrategia de entrenamiento progresivo, logra un alto rendimiento en escalas de parámetros de 2B a 8B, especialmente en las áreas de comprensión gráfica, matemática...

Últimos recursos sobre IA

hace 6 meses

027.3K

MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - Socio de IA consciente del contexto activo y de código abierto de Bytes

MineContext es un socio activo de IA consciente del contexto, de código abierto por el equipo de ByteDance Viking, para ayudar a los usuarios a gestionar eficientemente cantidades masivas de información y mejorar la eficiencia del trabajo del conocimiento. Sobre la tecnología de captura de pantalla y comprensión de contenido, registra automáticamente las operaciones diarias del usuario (como navegar por la web, editar documentos, etc.), apoya...

Últimos recursos sobre IA

hace 6 meses

048.3K

nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - el proyecto de formación de modelos de bajo coste, gratuito y de código abierto de Karpathy

nanochat es un proyecto de código abierto lanzado por Andrej Karpathy, leyenda de la IA y antiguo Director de IA de Tesla, que permite a los particulares entrenar rápidamente un pequeño modelo de lenguaje similar a ChatGPT con un coste y una simplicidad muy bajos. Todo el proyecto utiliza sólo unos 800...

Últimos recursos sobre IA

hace 6 meses

033.8K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - Modelo multimodal gratuito y de código abierto para una comprensión multimodal de alto rendimiento

LLaVA-OneVision-1.5 es un modelo multimodal de código abierto del equipo EvolvingLMMS-Lab, que utiliza la escala de parámetros 8B, mediante un proceso de entrenamiento compacto en tres etapas (alineación lenguaje-imagen, equilibrio conceptual e inyección de conocimientos, y ajuste fino de instrucciones) en 128 A800....

Últimos recursos sobre IA

hace 6 meses

032.3K

Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - Proyecto de código abierto de la NUS para generar automáticamente vídeos de demostración de trabajos académicos

Paper2Video es un proyecto de código abierto para la generación automática de vídeos de presentación de trabajos académicos en el Show Lab de la Universidad Nacional de Singapur. Utilizando el marco de inteligencia múltiple PaperTalker, los artículos se transforman en vídeos de presentación completos que contienen diapositivas, subtítulos, voz en off y avatar del orador....

Últimos recursos sobre IA

hace 6 meses

034.8K

NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - Modelos de síntesis de voz ligeros y gratuitos compatibles con la ejecución sin conexión a la CPU

NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....

Últimos recursos sobre IA

hace 6 meses

040.6K

KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - Racer de código abierto de programación libre de modelos específicos

KAT-Dev-72B-Exp es un modelo de gran lenguaje específico de programación de código abierto lanzado por el equipo Racer, optimizado sobre la base de técnicas de aprendizaje por refuerzo, que alcanzó una tasa de precisión de 74,6% en la prueba de referencia SWE-Bench Verified, actualmente el mejor rendimiento entre los modelos de código abierto. El modelo utiliza...

Últimos recursos sobre IA

hace 6 meses

031.7K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - Modelo de razonamiento ligero de código abierto de Israel AI21 Labs

Jamba Reasoning 3B es un modelo de inferencia ligero de código abierto de la startup israelí AI21 Labs, con un gran rendimiento y potencial para una amplia gama de aplicaciones. Utiliza una arquitectura híbrida SSM-Transformer que combina...

Últimos recursos sobre IA

hace 6 meses

029K

吴恩达的《Agentic AI》最新智能体免费课程

Un curso gratuito sobre las últimas inteligencias de Agentic AI por Ernst Woo

Agentic AI es el último curso sobre cuerpos inteligentes lanzado por Ernest Ng.El curso se centra en el diseño y construcción de cuerpos inteligentes, abarcando los cuatro patrones de diseño de reflexión, uso de herramientas, planificación y colaboración de cuerpos multi-inteligentes. Los alumnos dominarán cómo hacer que los cuerpos inteligentes comprueben las salidas, se sintonicen de forma autónoma a través de explicaciones teóricas y prácticas de código...

Últimos recursos sobre IA Información sobre el curso

hace 6 meses

054.2K

Más información