Últimos recursos sobre IA

共 2830 篇文章
CWM - Meta FAIR开源的代码世界语言模型

CWM - Modelo Meta FAIR de lenguaje mundial de código abierto

CWM (Code World Model) es un modelo de lenguaje mundial de código abierto con 32.000 millones de parámetros publicado por el equipo Meta FAIR, diseñado para la generación y el razonamiento de código. Introduce el concepto de "modelo del mundo", que puede simular el proceso de ejecución del código, predecir los cambios de estado de las variables y avanzar...
hace 2 meses
019.7K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - El asistente de programación inteligente de Ant Open Source

Neovate Code es un asistente de programación inteligente de código abierto del Departamento de Tecnología de Experiencia Alipay de Ant Group, que mejora la eficiencia del desarrollo mediante tecnología de inteligencia artificial. Con funciones de desarrollo conversacional, los desarrolladores pueden describir los requisitos a través del lenguaje natural, Neovate Code puede entender y generar la generación correspondiente....
hace 2 meses
021.7K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face: el modelo de generación de animaciones faciales 3D de NVIDIA de código abierto

Audio2Face es una herramienta de IA de código abierto de NVIDIA capaz de transformar la señal de audio en animaciones faciales realistas en 3D. Mediante el análisis de las características del habla en el audio, como los fonemas y la entonación, genera una sincronización precisa de los labios y sutiles expresiones emocionales para dotar de viveza humana a los personajes virtuales.
hace 2 meses
021.3K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - Macromodelos de lenguaje visual multimodal de código abierto AliCloud Tongyi Qianqian

Qwen3-VL es un gran modelo de lenguaje visual multimodal de código abierto del equipo AliCloud Tongyi Qianqian, con 235.000 millones de referencias y unos 471 GB de archivos de modelo.Contiene versiones de instrucción y pensamiento, adopta el diseño intercalado MRope mejorado, DeepStack y otras tecnologías, que pueden utilizar eficazmente transformaciones visuales....
hace 2 meses
024.8K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - Modelo de seguridad de código abierto Ali Qwen

Qwen3Guard es un modelo de protección de seguridad afinado basado en el modelo base Qwen3, diseñado para la detección de seguridad. Proporciona una categorización de seguridad precisa de las solicitudes y respuestas, proporciona niveles de riesgo y es compatible con entornos en inglés, chino y multilingües.Qwen3Guard está disponible en dos pro...
hace 2 meses
024K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - Modelos de síntesis de voz de Ali Tongyi

Qwen3-TTS-Flash es un avanzado modelo de síntesis de voz introducido por Ali Tongyi, compatible con 17 tonos y 10 idiomas, que abarca mandarín, inglés, dialectos, etc. Tiene una excelente estabilidad y una gran expresividad del habla china e inglesa, y el modelo puede ajustar automáticamente el tono de voz para hacerlo más vivo.
hace 2 meses
023.7K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑

Lucy Edit - Herramienta de edición de vídeo con inteligencia artificial de código abierto, edición de descripciones en lenguaje natural

Lucy Edit es una herramienta de edición de vídeo de IA de código abierto desarrollada por Decart AI. Permite a los usuarios editar vídeo mediante sencillas descripciones en lenguaje natural, como "cambiar el personaje en un oso polar" o "convertir la escena en un estilo de dibujos animados 2D", sin necesidad de complejos ajustes finos ni del uso de máscaras...
hace 2 meses
022.8K
Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - Modelo de base de gráficos K financieros de código abierto conjunto de Tsinghua y Microsoft

Kronos es el primer modelo básico de gráfico K-line para el mercado financiero, desarrollado conjuntamente por la Universidad Tsinghua y Microsoft Research Asia. Mediante el análisis de los datos K-line de acciones, criptomonedas y otros activos, incluidos el precio de apertura, el precio máximo, el precio mínimo, el precio de cierre y el volumen, puede predecir futuros movimientos de precios.
hace 2 meses
030.5K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - Un modelo generativo para la generación de acciones del código abierto Tongyi Wanxiang

Wan2.2-Animate es un modelo de generación de acción de código abierto de Tongyi Wanxiang, que admite dos modos de imitación de acción y juego de rol. Los usuarios sólo tienen que introducir una imagen del personaje y un vídeo de referencia, el modelo puede migrar los movimientos y expresiones del personaje del vídeo al personaje de la imagen, dando al personaje de la imagen una expresión dinámica ...
hace 2 meses
022.2K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio: el primer modelo nativo de voz de extremo a extremo de código abierto de Xiaomi

Xiaomi-MiMo-Audio es el macromodelo de voz de Xiaomi de código abierto con 7.000 millones de parámetros de extremo a extremo y potentes funciones como el diálogo multilingüe, la continuación del habla, la generalización de menos muestras y la comprensión de audio, capaz de alcanzar el nivel SOTA en inteligencia del habla y comprensión de audio, superando a Google Gemi...
hace 2 meses
019.4K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - Laboratorio de IA de Shanghai Integración de código abierto de capacidades operativas para grandes modelos incorporados

InternVLA-A1 es un gran modelo de operación encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Tiene la capacidad de comprender, imaginar y ejecutar la integración, y puede completar la tarea con precisión. El modelo fusiona datos de operación reales y simulados, y automatiza la construcción de activos de escena híbridos multimodales masivos a través de...
hace 2 meses
019K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - Inteligencia de cara al futuro y modelo TTS de código abierto de Tsinghua

VoxCPM es un modelo de generación de voz de código abierto desarrollado conjuntamente por Facade Intelligence y la Shenzhen International Graduate School de la Universidad de Tsinghua. VoxCPM adopta una arquitectura autorregresiva de difusión de extremo a extremo para generar representaciones continuas del habla directamente a partir del texto, superando las limitaciones de la desambiguación discreta tradicional. Mediante el modelado jerárquico del lenguaje y la cuantización de estados finitos...
hace 2 meses
023K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Modelo grande de navegación de doble sistema de código abierto de Shanghai AI Lab

InternVLA-N1 es un macromodelo de navegación de doble sistema de extremo a extremo de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Utilizando una arquitectura de doble sistema, el Sistema 2 se encarga de comprender las órdenes lingüísticas y planificar las trayectorias de largo alcance, mientras que el Sistema 1 se centra en la respuesta de alta frecuencia y la evitación ágil de obstáculos. El modelo se entrena íntegramente a partir de datos sintéticos mediante ...
hace 2 meses
018.4K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - Gran modelo de recompensas encarnadas de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

VLAC es un macromodelo de recompensa encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Basado en el macromodelo multimodal InternVL, integra datos de vídeo de Internet y datos de funcionamiento del robot para proporcionar una estimación de la recompensa del proceso y la finalización de la tarea para el aprendizaje por refuerzo del robot en el mundo real.
hace 2 meses
016.4K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - "Cerebro" de funcionamiento del sistema dual encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

InternVLA-M1 es un "cerebro" operativo encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, que es un gran modelo de funcionamiento de dos sistemas orientado al seguimiento de instrucciones. Construye un bucle cerrado completo que abarca "pensar-actuar-aprender" y es responsable del razonamiento espacial de alto nivel y de la planificación de tareas. El modelo adopta una política de entrenamiento en dos etapas...
hace 2 meses
017.9K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

PDF gratuito de Fundamentos de grandes modelos de la Universidad de Zhejiang - con enlace de descarga

Fundamentos de los grandes modelos ofrece un análisis en profundidad de las tecnologías básicas y las vías prácticas de los grandes modelos lingüísticos (LLM). Partiendo de la teoría fundamental de la modelización lingüística, explica sistemáticamente los principios del diseño de modelos basados en arquitecturas estadísticas, de redes neuronales recurrentes (RNN) y Transformer, centrándose en los tres grandes modelos lingüísticos....
hace 2 meses
021.7K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO: el primer modelo de voz de código abierto de Logic Intelligence

LLaSO es un modelo del habla de código abierto lanzado por Beijing Depth Logic Intelligence Technology Co. Ltd, que resuelve los problemas de dispersión de datos e insuficiente cobertura de tareas en el campo del modelado del lenguaje del habla a gran escala integrando datos del habla y del texto y proporcionando conjuntos de datos de alineación, conjuntos de datos de ajuste de comandos y puntos de referencia de evaluación.
hace 2 meses
014.2K
混元3D 3.0 - 腾讯推出的3D生成模型,支持超高清建模

Hybrid 3D 3.0: modelos generados en 3D de Tencent compatibles con UHD

Hybrid 3D 3.0 es un modelo avanzado de generación 3D de Tencent, basado en la tecnología de esculpido jerárquico 3D-DiT, con una resolución geométrica de hasta 1536³, capaz de generar modelos 3D de ultra alta definición y ricos en detalles, y de destacar en el modelado de personajes, con capacidad para modelar con precisión los cinco sentidos y la forma del cuerpo.
hace 2 meses
024.7K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

UnifoLM-WMA-0 es una arquitectura de acción-modelo del mundo de código abierto para múltiples clases de ontologías robóticas de Yu Shu Technology, diseñada para el aprendizaje general de robots. Compuesto por un modelo de mundo y una arquitectura de acción, el modelo de mundo entiende las leyes físicas de la interacción robot-entorno, y la arquitectura de acción es responsable de...
hace 2 meses
023.5K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

InfiniteTalk es una herramienta de generación de vídeo basada en audio desarrollada por el equipo de MeiGen-AI que genera vídeos hablados de duración ilimitada a partir del audio introducido. Su principal ventaja es la precisa tecnología de sincronización labial, que hace coincidir perfectamente el audio con la forma de la boca del personaje, generando...
hace 2 meses
029.1K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - Un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y Huawei Rise

Lumina-DiMOO es un modelo unificado de nueva generación para la generación y comprensión multimodal lanzado por el Laboratorio de Inteligencia Artificial de Shanghái (SAL) junto con Huawei Rise en la Conferencia Mundial sobre Inteligencia Artificial 2025. Basado en la plataforma básica de hardware y software Rise AI y en el conjunto de grandes modelos multimodales MindSpeed MM, completa la...
hace 2 meses
020.1K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Herramienta de código abierto para tomar notas de conferencias con inteligencia artificial en primer lugar local

Hyprnote es una herramienta AI de código abierto para tomar notas en reuniones, diseñada para que los profesionales protejan la privacidad de los usuarios y mejoren la eficiencia de las reuniones. Adoptando el principio de "lo local primero", todo el almacenamiento y procesamiento de datos se realiza en el dispositivo local del usuario para garantizar la seguridad de los datos y permitir el funcionamiento sin conexión.
hace 2 meses
018.5K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - Meta serie de modelos de inferencia eficientes especializados de código abierto

MobileLLM-R1 es la serie de código abierto de Meta de modelos de inferencia eficientes diseñados para el razonamiento matemático, de programación y científico. Contiene un modelo base y un modelo final, con versiones de 140 millones, 360 millones y 950 millones de parámetros, respectivamente. Los modelos no son modelos genéricos de chat y son modelos supervisados de ajuste fino (SFT...
hace 2 meses
017.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - framework de código abierto para la creación de cuerpos inteligentes móviles de la Universidad Jiaotong de Shanghai

MobiAgent es una cadena de herramientas de código abierto para cuerpos inteligentes móviles del Laboratorio IPADS de la Universidad Jiaotong de Shanghai, que ayuda a los usuarios a construir sus propios asistentes inteligentes móviles. Mediante el registro de la trayectoria de funcionamiento del usuario y la generación de datos de alta calidad, entrena cuerpos inteligentes capaces de entender órdenes en lenguaje natural. Entre sus principales características se incluyen...
hace 2 meses
017.4K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - Modelo de IA de código abierto de Baidu para el reconocimiento de texto de nueva generación

PP-OCRv5 es el modelo de IA de reconocimiento de texto de última generación lanzado por Baidu. Con un diseño ligero y un recuento de referencias de solo 0,07 B, es apto para ejecutarse de forma eficiente en CPU y dispositivos edge, y puede procesar más de 370 caracteres por segundo. El modelo admite chino simplificado, chino tradicional, inglés, japonés y pinyin...
hace 2 meses
029.4K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Marco de generación de gráficos mejorados de código abierto de Tencent Youtu Labs

Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...
hace 2 meses
018K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - Modelo TTS gratuito de código abierto para la estación B, el primero que admite un control preciso de la duración

IndexTTS2 es un nuevo modelo libre de texto a voz (TTS) de código abierto por el equipo de voz de la estación B, que logra un gran avance en la expresión emocional y el control de la duración, el primer modelo TTS autorregresivo que soporta un control preciso de la duración. Soporta clonación de voz de muestra cero, sólo un archivo de audio puede copiar con precisión el sonido...
hace 3 meses
051.3K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - ¡El último modelo de generación de música por IA de MiniMax!

MiniMax Music 1.5 es una herramienta avanzada de generación de música por IA que permite generar hasta 4 minutos de música a partir de la descripción en lenguaje natural del usuario. El modelo es compatible con una amplia gama de estilos musicales y personalización del estado de ánimo, y genera tonos vocales naturales y completos, transiciones suaves y arreglos ricamente estratificados....
hace 3 meses
019.4K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - Marco de generación de vídeo multimodal de código abierto United Bytes de la Universidad de Tsinghua

HuMo es un marco de generación de vídeo multimodal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y ByteDance Intelligent Creation Lab, que se centra en la generación de vídeo centrada en el ser humano. Puede generar vídeos humanos de alta calidad, precisos y controlables a partir de entradas multimodales como texto, imágenes y audio.
hace 3 meses
039.9K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - Fudan y Ali Dharma Institute y otro marco de generación de animación de imágenes inteligente de código abierto

AnyI2V es un marco de generación de animaciones de imágenes lanzado conjuntamente por la Universidad de Fudan, Alibaba Darmo Academy y otras entidades, que permite convertir imágenes condicionales estáticas (por ejemplo, cuadrículas, nubes de puntos, etc.) en vídeos dinámicos sin necesidad de un complejo proceso de formación y una gran cantidad de datos.
hace 3 meses
017K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - El modelo de pensamiento profundo de Baidu para comprender mejor

Wenxin Big Model X1.1 es un modelo de pensamiento profundo lanzado por Baidu, basado en un marco híbrido de aprendizaje por refuerzo que se centra en mejorar la comprensión y la generación de lenguaje. El modelo destaca en el manejo de preguntas complejas, el seguimiento de instrucciones y la simulación del comportamiento de las inteligencias, y puede proporcionar con precisión respuestas bien fundamentadas y contenidos de texto de alta calidad.
hace 3 meses
021.6K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - Herramienta gratuita de rebanado semántico de documentos AI, ajuste dinámico de rebanado

AntSK FileChunk es una herramienta gratuita de rebanado inteligente de documentos diseñada para aplicaciones RAG (Retrieval Augmented Generation). Semántica como núcleo, el documento será inteligentemente rebanado en segmentos semánticamente completos, coherentes, soporte para multi-idioma, ajustar dinámicamente el tamaño de la rebanada para asegurar la coherencia contextual.
hace 3 meses
022K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Marco de código abierto de Tencent WeChat para la comprensión de documentos y la recuperación semántica

WeKnora es Tencent WeChat equipo de código abierto basado en el Modelo de Lenguaje Grande (LLM) comprensión de documentos y el marco de recuperación semántica , diseñado para la estructura de los escenarios de contenido de documentos complejos y heterogéneos y diseñado para utilizar una arquitectura modular , la integración de preprocesamiento multimodal , la indexación vectorial semántica , la recuperación inteligente y gran modelo de razonamiento generativo ...
hace 3 meses
029.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Motor de entrenamiento de grandes modelos de código abierto de Shanghai AI Lab

XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....
hace 3 meses
018.9K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modelo multimodal de código abierto para Meituan y la Universidad Jiaotong de Shanghai

OneCAT es un nuevo modelo multimodal unificado lanzado por Meituan junto con la Universidad Jiaotong de Shanghai, que adopta una arquitectura de descodificador puro que integra a la perfección la comprensión multimodal, la generación de texto a imagen y las funciones de edición de imágenes. El modelo abandona el diseño de los modelos multimodales tradicionales que dependen de codificadores y desambiguadores visuales externos mediante...
hace 3 meses
019.8K
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - ¡El último modelo de Dark Side of the Moon!

Kimi K2-0905 es un modelo avanzado de IA de Dark Side of the Moon Technologies Ltd. que destaca en la asistencia a la programación, genera código de forma eficiente y favorece la generación de código ordenado y estandarizado en el desarrollo front-end. La longitud del contexto del modelo se amplía hasta 256K para gestionar tareas complejas.
hace 3 meses
031K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Macromodelado del habla de código abierto Step-Star

Step-Audio 2 mini es un macromodelo del habla integral de código abierto de Step-Audio. Rompe con la estructura tradicional del modelo del habla y adopta una verdadera arquitectura multimodal de extremo a extremo, que transforma directamente la entrada de audio sin procesar en salida de respuesta del habla, con menor latencia, y comprende la información paralingüística y las señales no vocales.
hace 3 meses
029.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - Modelos grandes multimodales de código abierto de Shanghai AI Lab

InternVL3.5 (Shusheng-Wanxiang 3.5) es un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, el modelo está totalmente actualizado en términos de capacidad general, capacidad de razonamiento y eficiencia de despliegue, proporcionando nueve tamaños de versiones de 1.000 millones a 241.000 millones de parámetros, cubriendo diferentes escenarios de demanda de recursos,...
hace 3 meses
029.3K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Conjunto de evaluación de código abierto Meeseeks para evaluar la capacidad de seguir instrucciones de modelos.

Meeseeks es un conjunto de evaluación de grandes modelos de código abierto utilizado por el equipo M17 de Meituan para evaluar la capacidad de un modelo para seguir instrucciones.Meeseeks utiliza un marco de evaluación de tres niveles para medir de forma exhaustiva si un modelo es capaz de generar respuestas en estricta conformidad con las instrucciones del usuario desde el nivel macro al micro, y no evalúa el conocimiento del contenido de la respuesta como...
hace 3 meses
025.2K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-Foley - Modelo de generación de sonido de vídeo de código abierto de Tencent

HunyuanVideo-Foley es un modelo de generación de sonido de vídeo de código abierto del equipo Tencent Mixed Yuan que permite añadir efectos de sonido adaptados con precisión a los vídeos silenciosos. El modelo se basa en un conjunto de datos a gran escala de formación , con una arquitectura de convertidor de difusión multimodal , combinado con la representación de la función de pérdida de alineación y técnicas de optimización de audio VAE....
hace 3 meses
032K
问小白5 - 问小白推出的全能AI模型

Ask White 5 - Modelo AI todo en uno de Ask White

Ask White 5 es el modelo insignia "Todo en uno" con un nivel de inteligencia muy alto. El modelo obtiene buenos resultados en muchas evaluaciones, como la puntuación de evaluación compuesta AA-Index de 64,7 y la puntuación de evaluación de la capacidad STEM de 86, que se acerca a la del líder mundial GPT-5.
hace 3 meses
027K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Un modelo de pensamiento paralelo introducido por Ask o4 que abre 8 vías de pensamiento al mismo tiempo

Ask White o4 es un innovador modelo de pensamiento paralelo que abre 8 vías de pensamiento al mismo tiempo, analiza el problema desde múltiples perspectivas y filtra automáticamente la solución óptima. El modelo incorpora técnicas avanzadas de aprendizaje por refuerzo Long-CoT y aprendizaje por recompensa de procesos, tiene potentes capacidades de razonamiento profundo y rinde bien en tareas complejas.
hace 3 meses
025.8K
VibeVoice - 微软推出的文本到语音模型

VibeVoice - Modelado de texto a voz de Microsoft

VibeVoice es un nuevo modelo de conversión de texto a voz (TTS) de Microsoft. Este modelo genera audio conversacional a partir de hasta cuatro altavoces diferentes y admite hasta 90 minutos de emisión continua de voz, con lo que rompe las limitaciones de duración de los sistemas TTS tradicionales.
hace 3 meses
034.6K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Modelos de generación de escenas 3D de código abierto de Qunar Technologies

SpatialGen es un modelo de generación de escenas 3D de código abierto de Qunar Technology, basado en la arquitectura del modelo de difusión, que admite la generación de imágenes multivista coherentes espaciotemporalmente a partir de descripciones textuales, imágenes de referencia y disposición espacial 3D, y que además genera escenas gaussianas 3D y renderiza vídeos itinerantes.
hace 3 meses
026.8K
Fun-ASR - 钉钉、通义联合推出的新一代语音识别模型

Fun-ASR: una nueva generación de modelos de reconocimiento del habla lanzada conjuntamente por Nail y Tongyi

Fun-ASR es un gran modelo de reconocimiento de voz lanzado conjuntamente por Nail y Tongyi Labs. El modelo se ha entrenado con datos de audio masivos y puede identificar con precisión terminología multisectorial, como Internet, tecnología, decoración del hogar, etc., mejorando significativamente la precisión del reconocimiento. El modelo se combina con la información empresarial de Nail para optimizar la inferencia y reducir el problema de las...
hace 3 meses
048.4K
Squibler - AI小说辅助写作平台,助力构思到创作全过程

Squibler: plataforma de escritura asistida por inteligencia artificial que impulsa todo el proceso, desde la idea hasta la creación.

Squibler es una potente plataforma de escritura asistida por IA diseñada para escritores que ayuda a los usuarios en todo el proceso, desde la concepción a la creación y la publicación. La plataforma ofrece diversas plantillas de historias que abarcan novelas, guiones, relatos cortos, etc. Los usuarios solo tienen que introducir el concepto inicial, y la IA puede generar esquemas, personajes, escenas...
hace 3 meses
027.4K
91写作 - 开源的AI智能小说创作平台

91Writing - Plataforma de creación de novelas inteligentes con IA de código abierto

91Writing es una herramienta de creación de novelas de IA totalmente de código abierto, desarrollada en base a Vue 3 y Element Plus, que integra una variedad de modelos avanzados de IA, como GPT, Claude, Gemini, etc. La herramienta proporciona a los creadores una completa cadena de herramientas de creación, desde la idea hasta el texto, incluyendo la creación de proyectos...
hace 3 meses
027.5K
Aivilization - 港科大推出的多Agent社会模拟平台

Aivilization, una plataforma de simulación social multiagente lanzada por la HKUST

Aivilization es la primera plataforma de simulación social de cuerpos multiinteligentes de IA del mundo, desarrollada por la Universidad de Ciencia y Tecnología de Hong Kong. Construye una caja de arena digital visual donde los usuarios pueden crear y guiar a miles de inteligencias IA para observar la evolución social de la futura coexistencia entre humanos e IA. La plataforma admite...
hace 3 meses
048.2K
Grok 2.5 - 马斯克旗下xAI开源的人工智能模型

Grok 2.5 - El modelo de IA de código abierto xAI de Musk

Grok 2.5 es un modelo de IA de código abierto de la xAI de Elon Musk. Con 269.000 millones de parámetros, se basa en la arquitectura Mixed Expertise (MoE) para un rendimiento y una inferencia potentes. El modelo se ha probado con conocimientos científicos de nivel universitario (GPQA), conocimientos de uso general (MMLU, MM...
hace 3 meses
030.3K
MIT最新报告《生成式AI鸿沟:2025年商业人工智能现状》

El nuevo informe del MIT, The Generative AI Divide: the State of Business Artificial Intelligence in 2025 (La brecha de la inteligencia artificial generativa: el estado de la inteligencia artificial empresarial en 2025)

El último informe del MIT, The Generative AI Divide: the State of Business AI in 2025, revela el núcleo del proceso de adopción de la IA generativa (GenAI) que están experimentando las empresas mediante una investigación en profundidad de más de 300 proyectos de IA, entrevistas con 52 organizaciones y una encuesta a 153 ejecutivos....
hace 3 meses
046.1K
AutoClip - 开源的AI视频切片工具,一键生成专题视频合集

AutoClip - Herramienta de código abierto para generar colecciones de vídeos temáticos con un solo clic.

AutoClip es de código abierto AI herramienta de edición de vídeo, basado en la tecnología de IA avanzada para lograr el proceso completo de procesamiento automatizado de vídeo. Las herramientas pueden identificar automáticamente los aspectos más destacados del vídeo, la extracción precisa de contenido valioso, se puede basar en la similitud del tema de la agrupación inteligente, para generar una colección de contenido.AutoClip apoyo...
hace 3 meses
033.6K
ToonComposer - 腾讯开源的生成式AI动画制作工具

ToonComposer - Herramienta de animación de IA generativa de código abierto de Tencent

ToonComposer es una herramienta de animación generativa por IA lanzada conjuntamente por la Universidad China de Hong Kong, Tencent PCG ARC Lab y la Universidad de Pekín. Gracias a la tecnología generativa de fotogramas clave posteriores, el proceso de generación de fotogramas intermedios y de coloreado se integra en un proceso automatizado que solo requiere un boceto y...
hace 3 meses
032.7K
Seed-OSS - 字节跳动团队开源的全新AI模型

Seed-OSS - Un nuevo modelo de IA de código abierto del equipo de Wordpress

Seed-OSS es una familia de grandes modelos lingüísticos de código abierto del equipo Byte Jump Seed, centrada en tareas de razonamiento y textos largos. El modelo tiene un buen rendimiento en el razonamiento lógico complejo y el razonamiento en varios pasos con una gran precisión y puede resolver problemas difíciles de forma eficiente.Seed-OSS admite contextos de texto largo de hasta 512K....
hace 3 meses
031.8K
Intern-S1-mini - 上海AI Lab开源的轻量化科学多模态模型

Intern-S1-mini - Modelo científico multimodal ligero de código abierto de Shanghai AI Lab

Intern-S1-mini es un macromodelo científico multimodal ligero con una escala de parámetros de 8B lanzado por el Laboratorio de Inteligencia Artificial de Shanghai (SAL).Hereda las potentes capacidades de Intern-S1, combinando tanto capacidades de propósito general como científicas especializadas, y es adecuado para un despliegue rápido y un desarrollo secundario. En términos de rendimiento, I...
hace 3 meses
027.1K