Últimos recursos sobre IA

共 2985 篇文章
浙江大学免费PDF资料《大模型基础》 - 附下载链接

PDF gratuito de Fundamentos de grandes modelos de la Universidad de Zhejiang - con enlace de descarga

Fundamentos de los grandes modelos ofrece un análisis en profundidad de las tecnologías básicas y las vías prácticas de los grandes modelos lingüísticos (LLM). Partiendo de la teoría fundamental de la modelización lingüística, explica sistemáticamente los principios del diseño de modelos basados en arquitecturas estadísticas, de redes neuronales recurrentes (RNN) y Transformer, centrándose en los tres grandes modelos lingüísticos....
hace 6 meses
040K
QVQ-Max - 阿里通义推出视觉推理模型

QVQ-Max - Ali Tongyi lanza un modelo de razonamiento visual

QVQ-Max es un modelo de razonamiento visual avanzado de Alitonix, una versión mejorada del QVQ-72B-Preview, que puede "leer" imágenes y contenido de vídeo y combinarlos con información para el análisis y la resolución de problemas. QVQ-Max es un modelo avanzado de razonamiento visual que puede "leer" imágenes y contenido de vídeo y combinar la información para el análisis, razonamiento y resolución de problemas.Las principales características de QVQ-Max incluyen análisis sintáctico de imágenes, análisis de vídeo...
hace 9 meses
039.8K
Ovis-U1 - 阿里推出的多模态统一AI模型

Ovis-U1: un modelo multimodal de IA unificada lanzado por Ali

Ovis-U1 es un modelo unificado multimodal introducido por el equipo Ovis de Alibaba Group con una escala de parámetros de 3.000 millones. El modelo cuenta con tres capacidades básicas de comprensión multimodal, generación de texto a imagen y edición de imágenes, y con un diseño arquitectónico avanzado y métodos de formación colaborativos y unificados, apoya la realización de...
hace 9 meses
039.7K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型

Qwen VLo - Un modelo unificado de comprensión y generación multimodal de Tongyi Qianqian

Qwen VLo es un modelo multimodal unificado de comprensión y generación presentado por el equipo de Tongyiqianqian. Qwen VLo puede "entender" el mundo y recrearlo con alta calidad basándose en su comprensión, realizando el salto de la percepción a la generación. VLo puede comprender con precisión el contenido de las imágenes y, a partir de ahí, llevar a cabo una generación coherente y de alta calidad.
hace 9 meses
039.7K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - La última generación de modelos de gran tamaño de Wisdom Spectrum AI Open Source

GLM-4.7 es la última generación del buque insignia Grand Model lanzado y de código abierto por Smart Spectrum AI, que está profundamente optimizado para la programación de IA, el razonamiento complejo y las tareas corporales inteligentes. El modelo admite una longitud de contexto de 200k y una salida máxima de 128k, con codificación multilingüe, planificación de tareas de largo alcance y capacidades de colaboración de herramientas...
hace 3 meses
039.5K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具

Por qué me grita mi mujer: una herramienta interactiva para simular la comunicación conyugal

Introducción general "Por qué me grita mi mujer" es un sitio web único de simulación de relaciones matrimoniales diseñado para ayudar a los usuarios a comprender las reacciones emocionales y los patrones de comunicación de su pareja mediante inteligencia artificial. Los usuarios pueden introducir diferentes escenarios y experimentar las reacciones de su pareja virtual, simulando...
hace 11 meses
039.5K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - ¡Herramienta gratuita de creación de manga AI para un proceso de creación completo!

AIMangaStudio es una herramienta gratuita de creación de manga AI que proporciona a los creadores una tubería completa de creación de manga, incluyendo la generación de la trama, el diseño de sub-escenas, la configuración de caracteres y otras funciones, que pueden simplificar el proceso de producción desde el guión hasta la página de manga. Soporta la generación en lenguaje natural de guiones de cómic, incluyendo trama, diálogos...
hace 5 meses
039.5K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Sistema de interacción por voz full-duplex de código abierto de Little Red Book

FireRedChat es un sistema de interacción de voz full-duplex de código abierto para Xiaohongshu con capacidad de diálogo bidireccional en tiempo real y soporte para interrupciones controladas. Utilizando un diseño modular , incluyendo módulo de control de transcripción , módulo de interacción y gestor de diálogo , etc., soporta arquitectura en cascada y semi-cascada , despliegue flexible.
hace 5 meses
039.4K
万兴天幕 – 万兴科技推出AIGC视频创作平台

Wanxing Canopy - Wanxing Technology lanza la plataforma de creación de vídeo AIGC

Wanxing Canopy es la plataforma de creación de vídeo AIGC lanzada por Wanxing Technology, que abarca los tres principales campos de creación: vídeo, imagen y generación de audio, y está especialmente diseñada para trabajadores de la industria cultural y de los medios de comunicación, trabajadores de cine y televisión/postproducción, trabajadores de arte y diseño, profesionales de la publicidad y el marketing, etc., con el fin de ofrecer soluciones de creación profesional integradas.
hace 9 meses
039.3K
全球首个量子 AI 模型问世!SECQAI 发布 QLLM 即将进入 Beta 测试

SECQAI lanza QLLM para pruebas beta: ¡el primer modelo de inteligencia artificial cuántica del mundo!

SECQAI, una empresa británica de hardware y software ultraseguros, ha anunciado el lanzamiento del primer Modelo Cuántico de Lenguaje Grande (QLLM) del mundo, que integra la tecnología de computación cuántica en los modelos tradicionales de IA para mejorar la eficiencia computacional y la capacidad de resolución de problemas. Mecánica cuántica + IA = ¿una IA más potente? ...
hace 1 año
039.3K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台

Elegante YOYA - Sinotech Winko lanza una plataforma de creación de contenidos de audio y vídeo basados en IA

Elegant YOYA es una plataforma de vídeo multimodal alfabetizada lanzada por Zhongke Wenge, la plataforma se basa en la tecnología multimodal AI para potenciar toda la cadena de creación de contenidos de vídeo. Los usuarios sólo tienen que introducir los requisitos del tema, la plataforma puede generar rápidamente secuencias de comandos, imágenes, vídeos, y puede completar la edición inteligente, síntesis de voz y la unidad de la boca de caracteres y otras operaciones, la salida...
hace 9 meses
039.2K
Confucius3-Math - 网易有道推出专注于数学教育的开源推理模型

Confucius3-Math - NetEase.com lanza un modelo de razonamiento de código abierto centrado en la enseñanza de las matemáticas

Confucius3-Math es el primer modelo de razonamiento de código abierto nacional centrado en la educación matemática de código abierto por NetEaseYouDao. Con 14.000 millones de parámetros, optimizado para escenarios de educación matemática K-12, puede ejecutarse eficientemente en una sola GPU de consumo (por ejemplo, RTX 4090D), con un rendimiento de inferencia de...
hace 9 meses
039.2K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - Conjunto de evaluación de código abierto Meeseeks para evaluar la capacidad de seguir instrucciones de modelos.

Meeseeks es un conjunto de evaluación de grandes modelos de código abierto utilizado por el equipo M17 de Meituan para evaluar la capacidad de un modelo para seguir instrucciones.Meeseeks utiliza un marco de evaluación de tres niveles para medir de forma exhaustiva si un modelo es capaz de generar respuestas en estricta conformidad con las instrucciones del usuario desde el nivel macro al micro, y no evalúa el conocimiento del contenido de la respuesta como...
hace 7 meses
039.1K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议

JobTech AI CV - Plataforma de generación y optimización de CV mediante IA, que analiza con precisión los problemas y ofrece sugerencias de optimización.

Job AI resume es una plataforma inteligente de generación y optimización de currículos eficiente y cómoda. Basada en la tecnología de IA, la plataforma ayuda a los usuarios a generar rápidamente currículos profesionales y personalizados. Los usuarios sólo tienen que introducir la información básica y la experiencia, la plataforma puede generar curriculum vitae de alta calidad en poco tiempo, proporcionando más de 2800 plantillas hermosas, que cubren una variedad de posiciones.
hace 9 meses
038.7K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - Herramienta de creación humana digital basada en audio de KunlunWangwei

SkyReels-A3 es una herramienta de creación humana digital basada en audio de Kunlun World Wide Group. SkyReels-A3 es una herramienta de creación humana digital basada en audio que puede generar contenidos de vídeo dinámicos de alta calidad a partir de entradas sencillas (por ejemplo, imágenes de retratos y voz), hacer que fotos estáticas "cobren vida" y sustituir líneas de vídeos existentes por nuevas sincronizaciones labiales que los personajes...
hace 7 meses
038.7K
MindLink - 昆仑万维推出的开源推理大模型

MindLink - Gran modelo de razonamiento de código abierto de KunlunWei

MindLink es un gran modelo de razonamiento de código abierto lanzado por Kunlun World Wide Web. Con el mecanismo de razonamiento adaptativo , de acuerdo con la complejidad de la tarea de conmutación flexible modo de razonamiento , las tareas simples generados rápidamente , tareas complejas razonamiento en profundidad , teniendo en cuenta la eficiencia y la precisión . Paradigma de razonamiento basado en planes para eliminar la etiqueta "pensar" , reducir ...
hace 7 meses
038.7K
有道小P - 网易有道推出的新一代AI全科学习助手

Youdao Xiao P: Netease lanza una nueva generación de asistente de aprendizaje general de IA

Youdao Little P es un asistente de aprendizaje de todas las asignaturas de IA lanzado por NetEase Youdao, diseñado para estudiantes de K12, equipado con el gran modelo educativo Youdao Ziyi, que cubre todas las asignaturas de primaria, secundaria y bachillerato, y proporciona asesoramiento de aprendizaje personalizado. Con las funciones de búsqueda de palabras AI y traducción AI, Youdao Little P ayuda a los estudiantes a resolver rápidamente los problemas lingüísticos...
hace 9 meses
038.6K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿

DeckSpeed - AI PPT Maker, Presentación Generada con Lenguaje Natural

DeckSpeed es una herramienta de creación de presentaciones por IA basada en la interacción conversacional, en la que los usuarios expresan sus necesidades basándose en el lenguaje natural para generar rápidamente diapositivas personalizadas sin depender de las plantillas tradicionales. La herramienta admite ajustes de retroalimentación en tiempo real, los usuarios pueden modificar el color, el estilo y el contenido de las diapositivas en cualquier momento, para garantizar que la presentación esté completa....
hace 9 meses
038.5K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - Laboratorio de IA de Shanghai Integración de código abierto de capacidades operativas para grandes modelos incorporados

InternVLA-A1 es un gran modelo de operación encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Tiene la capacidad de comprender, imaginar y ejecutar la integración, y puede completar la tarea con precisión. El modelo fusiona datos de operación reales y simulados, y automatiza la construcción de activos de escena híbridos multimodales masivos a través de...
hace 6 meses
038.5K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face: el modelo de generación de animaciones faciales 3D de NVIDIA de código abierto

Audio2Face es una herramienta de IA de código abierto de NVIDIA capaz de transformar la señal de audio en animaciones faciales realistas en 3D. Mediante el análisis de las características del habla en el audio, como los fonemas y la entonación, genera una sincronización precisa de los labios y sutiles expresiones emocionales para dotar de viveza humana a los personajes virtuales.
hace 6 meses
038.3K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

Skywork-SWE-32B - Modelo base de cuerpo inteligente de código abierto autónomo KunlunWanwei

Skywork-SWE-32B es un modelo de base de inteligencias de código autónomas de ingeniería de software (SWE) a escala 32B de código abierto introducido por Kunlun World Wide Web. El modelo se centra en tareas de ingeniería de software, tiene potentes capacidades de reparación de código a nivel de repositorio y puede funcionar en escenarios complejos con interacciones de varias rondas y procesamiento de texto largo....
hace 9 meses
038.2K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI Agent

CRIC - CRIC lanza el primer agente de IA para el sector inmobiliario chino

CRIC Depth Intelligence es el primer organismo inteligente de IA del sector inmobiliario chino desarrollado de forma independiente por CRIC, basado en los 20 años de experiencia y acumulación de datos de CRIC en el sector inmobiliario y en la tecnología de grandes modelos multimodales, que abre toda la cadena desde la integración de datos, el análisis inteligente hasta la generación de contenidos.
hace 9 meses
037.9K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Herramienta de código abierto para tomar notas de conferencias con inteligencia artificial en primer lugar local

Hyprnote es una herramienta AI de código abierto para tomar notas en reuniones, diseñada para que los profesionales protejan la privacidad de los usuarios y mejoren la eficiencia de las reuniones. Adoptando el principio de "lo local primero", todo el almacenamiento y procesamiento de datos se realiza en el dispositivo local del usuario para garantizar la seguridad de los datos y permitir el funcionamiento sin conexión.
hace 6 meses
037.8K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - Herramienta gratuita de rebanado semántico de documentos AI, ajuste dinámico de rebanado

AntSK FileChunk es una herramienta gratuita de rebanado inteligente de documentos diseñada para aplicaciones RAG (Retrieval Augmented Generation). Semántica como núcleo, el documento será inteligentemente rebanado en segmentos semánticamente completos, coherentes, soporte para multi-idioma, ajustar dinámicamente el tamaño de la rebanada para asegurar la coherencia contextual.
hace 6 meses
037.8K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

Wenshin Big Model X1.1 - El modelo de pensamiento profundo de Baidu para comprender mejor

Wenxin Big Model X1.1 es un modelo de pensamiento profundo lanzado por Baidu, basado en un marco híbrido de aprendizaje por refuerzo que se centra en mejorar la comprensión y la generación de lenguaje. El modelo destaca en el manejo de preguntas complejas, el seguimiento de instrucciones y la simulación del comportamiento de las inteligencias, y puede proporcionar con precisión respuestas bien fundamentadas y contenidos de texto de alta calidad.
hace 6 meses
037.7K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio: el primer modelo nativo de voz de extremo a extremo de código abierto de Xiaomi

Xiaomi-MiMo-Audio es el macromodelo de voz de Xiaomi de código abierto con 7.000 millones de parámetros de extremo a extremo y potentes funciones como el diálogo multilingüe, la continuación del habla, la generalización de menos muestras y la comprensión de audio, capaz de alcanzar el nivel SOTA en inteligencia del habla y comprensión de audio, superando a Google Gemi...
hace 6 meses
037.5K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - Un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y Huawei Rise

Lumina-DiMOO es un modelo unificado de nueva generación para la generación y comprensión multimodal lanzado por el Laboratorio de Inteligencia Artificial de Shanghái (SAL) junto con Huawei Rise en la Conferencia Mundial sobre Inteligencia Artificial 2025. Basado en la plataforma básica de hardware y software Rise AI y en el conjunto de grandes modelos multimodales MindSpeed MM, completa la...
hace 6 meses
037.4K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Modelo de síntesis de voz conversacional de código abierto de Soul AI Lab

SoulX-Podcast es el modelo avanzado de síntesis de voz conversacional multihablante de código abierto de Soul AI Lab diseñado para generar contenidos de podcast de alta calidad. SoulX-Podcast tiene la capacidad de generar múltiples rondas de diálogo y puede simular un diálogo fluido en escenarios reales de podcasting, soportando mandarín, inglés y múltiples...
hace 5 meses
037.4K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - Modelos de síntesis de voz ligeros y gratuitos compatibles con la ejecución sin conexión a la CPU

NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....
hace 5 meses
037.2K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Modelo grande de navegación de doble sistema de código abierto de Shanghai AI Lab

InternVLA-N1 es un macromodelo de navegación de doble sistema de extremo a extremo de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Utilizando una arquitectura de doble sistema, el Sistema 2 se encarga de comprender las órdenes lingüísticas y planificar las trayectorias de largo alcance, mientras que el Sistema 1 se centra en la respuesta de alta frecuencia y la evitación ágil de obstáculos. El modelo se entrena íntegramente a partir de datos sintéticos mediante ...
hace 6 meses
037.1K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发

Flycount JavaAI - AI Java asistente de desarrollo, la aplicación de lenguaje natural de todo el proceso de desarrollo inteligente

Flycount JavaAI es un asistente inteligente de desarrollo Java lanzado por Flycount Technology. La plataforma es compatible con la entrada de lenguaje natural para lograr todo el proceso de desarrollo inteligente de análisis de requisitos para la generación de código. Los desarrolladores sólo tienen que introducir una descripción de los requisitos, Flycount JavaAI puede entender con precisión y generar un marco completo de código de ingeniería, la plataforma...
hace 9 meses
037K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Marco de generación de gráficos mejorados de código abierto de Tencent Youtu Labs

Youtu-GraphRAG es un marco de generación de aumento de recuperación de grafos de código abierto de Tencent Youtu Labs para ayudar a los grandes modelos lingüísticos a manejar tareas complejas de preguntas y respuestas con mayor precisión. Mediante la construcción de un árbol de conocimiento de cuatro capas, el conocimiento se desmonta en cuatro niveles: atributos, relaciones, palabras clave y comunidades, para lograr un conocimiento transversal del dominio propio de la act...
hace 6 meses
036.8K
2024年自动化流程执行创作工作的14款出色AI工具

14 brillantes herramientas de IA para automatizar procesos y realizar trabajos creativos en 2024

Si está buscando aprovechar el poder de la Inteligencia Artificial para ayudarle con las tareas cotidianas y automatizar los flujos de trabajo en su vida personal y laboral, entonces puede que le interese la amplia gama de herramientas de IA disponibles. AssemblyAI ha elaborado un vídeo de cinco minutos en el que se detallan las herramientas que puedes utilizar para automatizar...
hace 1 año
036.6K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

ZeroSearch - Ali Tongyi lanza el framework de código abierto para motores de búsqueda de grandes modelos

ZeroSearch es Alibaba Tongyi Lab de código abierto innovador gran modelo de motor de búsqueda marco. El marco no necesita interactuar con los motores de búsqueda reales , basado en la simulación del motor de búsqueda , con un gran modelo de su propio conocimiento pre-entrenamiento para generar documentos relevantes o de ruido , lo que reduce significativamente el coste de formación ( reducir 80% o más...
hace 9 meses
036.6K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear: una novedosa arquitectura híbrida de atención lineal de código abierto en el Lado Oscuro de la Luna

Kimi Linear es una nueva arquitectura híbrida de atención lineal de código abierto de Dark Side of the Moon, con Kimi Delta Attention (KDA) como núcleo, que optimiza el modelo de atención tradicional mediante un mecanismo de control más preciso, mejorando significativamente la eficiencia del hardware y la capacidad de control de la memoria...
hace 5 meses
036.5K
美间:在线软装(家装)设计工具,快速生成设计方案,软装辅助AI工具箱

Meiman: herramientas de diseño en línea de mobiliario blando (decoración del hogar), generación rápida de soluciones de diseño, conjunto de herramientas de IA auxiliar de mobiliario blando.

Introducción exhaustiva Meiman es una plataforma en línea centrada en el diseño de viviendas y la negociación de marketing. El sitio ofrece una gran cantidad de materiales de diseño, mobiliario blando y plantillas de propuestas PPT, plantillas de carteles, etc. para ayudar a los diseñadores y propietarios de viviendas a generar rápidamente propuestas de diseño de alta calidad. La herramienta de diseño de mobiliario en línea de Meiman puede utilizarse en tan solo 10 segundos...
hace 9 meses
036.5K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - El asistente de programación inteligente de Ant Open Source

Neovate Code es un asistente de programación inteligente de código abierto del Departamento de Tecnología de Experiencia Alipay de Ant Group, que mejora la eficiencia del desarrollo mediante tecnología de inteligencia artificial. Con funciones de desarrollo conversacional, los desarrolladores pueden describir los requisitos a través del lenguaje natural, Neovate Code puede entender y generar la generación correspondiente....
hace 6 meses
036.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Modelo de diálogo de audio dúplex completo (FLM-Audio) de código abierto creado por WisdomSource en colaboración con el Instituto Tecnológico de Nanyang (NTI).

FLM-Audio es un macromodelo de diálogo de audio full-duplex nativo publicado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con Spin Matrix y la Universidad Tecnológica Nanyang de Singapur, que admite tanto el chino como el inglés. Al adoptar una arquitectura full-duplex nativa, puede combinar la escucha, el habla y el monólogo en cada paso temporal...
hace 6 meses
036.1K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - ¡El último modelo de generación de música por IA de MiniMax!

MiniMax Music 1.5 es una herramienta avanzada de generación de música por IA que permite generar hasta 4 minutos de música a partir de la descripción en lenguaje natural del usuario. El modelo es compatible con una amplia gama de estilos musicales y personalización del estado de ánimo, y genera tonos vocales naturales y completos, transiciones suaves y arreglos ricamente estratificados....
hace 6 meses
035.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - framework de código abierto para la creación de cuerpos inteligentes móviles de la Universidad Jiaotong de Shanghai

MobiAgent es una cadena de herramientas de código abierto para cuerpos inteligentes móviles del Laboratorio IPADS de la Universidad Jiaotong de Shanghai, que ayuda a los usuarios a construir sus propios asistentes inteligentes móviles. Mediante el registro de la trayectoria de funcionamiento del usuario y la generación de datos de alta calidad, entrena cuerpos inteligentes capaces de entender órdenes en lenguaje natural. Entre sus principales características se incluyen...
hace 6 meses
035.8K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modelo multimodal de código abierto para Meituan y la Universidad Jiaotong de Shanghai

OneCAT es un nuevo modelo multimodal unificado lanzado por Meituan junto con la Universidad Jiaotong de Shanghai, que adopta una arquitectura de descodificador puro que integra a la perfección la comprensión multimodal, la generación de texto a imagen y las funciones de edición de imágenes. El modelo abandona el diseño de los modelos multimodales tradicionales que dependen de codificadores y desambiguadores visuales externos mediante...
hace 6 meses
035.6K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Un modelo de pensamiento paralelo introducido por Ask o4 que abre 8 vías de pensamiento al mismo tiempo

Ask White o4 es un innovador modelo de pensamiento paralelo que abre 8 vías de pensamiento al mismo tiempo, analiza el problema desde múltiples perspectivas y filtra automáticamente la solución óptima. El modelo incorpora técnicas avanzadas de aprendizaje por refuerzo Long-CoT y aprendizaje por recompensa de procesos, tiene potentes capacidades de razonamiento profundo y rinde bien en tareas complejas.
hace 7 meses
035.4K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - Modelos generativos 3D a gran escala de código abierto de Microsoft

TRELLIS.2 es el modelo generativo 3D a gran escala de código abierto de Microsoft con 4.000 millones de parámetros, centrado en la generación de imágenes 3D de alta fidelidad. Utilizando la innovadora estructura de vóxel disperso "O-Voxel", puede manejar eficientemente la topología compleja y las características nítidas, para generar información 3D de alta calidad con material PBR completo ...
hace 3 meses
035K
阶跃深研 - 阶跃星辰推出的AI深入研究工具

Steps Deep Research - AI Deep Research Tool by Steps Star

Step Deep Research es una eficaz herramienta de investigación de IA lanzada por Step Star, que puede completar de forma autónoma investigaciones sobre temas complejos y generar informes profesionales en poco tiempo. La herramienta está diseñada para finanzas, consultoría, sanidad, derecho y otros campos, y ha destacado en las reseñas del sector por sus capacidades de búsqueda en profundidad e integración de información.
hace 7 meses
034.8K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - Un modelo generativo para la generación de acciones del código abierto Tongyi Wanxiang

Wan2.2-Animate es un modelo de generación de acción de código abierto de Tongyi Wanxiang, que admite dos modos de imitación de acción y juego de rol. Los usuarios sólo tienen que introducir una imagen del personaje y un vídeo de referencia, el modelo puede migrar los movimientos y expresiones del personaje del vídeo al personaje de la imagen, dando al personaje de la imagen una expresión dinámica ...
hace 6 meses
034.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network

DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...
hace 5 meses
034.3K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - Modelo de edición de imágenes por IA de código abierto por el equipo de Ali

Qwen-Image-Layered es un modelo de edición de imágenes de AI de código abierto del equipo Ali que descompone de forma inteligente imágenes ordinarias en capas transparentes independientes para lograr una edición de precisión similar a la de Photoshop. El modelo es de código abierto mediante el protocolo Apache 2.0 y admite un control flexible de las capas...
hace 3 meses
034K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Motor de entrenamiento de grandes modelos de código abierto de Shanghai AI Lab

XTuner V1 es una nueva generación de motor de entrenamiento de modelos de gran tamaño de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, diseñado para el entrenamiento de modelos de Expertos Mixtos (MoE) dispersos a escala ultra grande. Desarrollado sobre la base de PyTorch FSDP, logra un alto rendimiento mediante la optimización multidimensional de la memoria, la comunicación y la carga....
hace 6 meses
033.9K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...
hace 5 meses
033.8K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Modelo de generación multimodal de audio unificado de código abierto Ant

Ming-UniAudio es el modelo de generación multimodal de audio unificado de código abierto de Ant Group que admite entrada y salida mixta de texto, audio, imagen y vídeo. Utilizando la arquitectura de transformadores multiescala y expertos mixtos (MoE) , a través del mecanismo de enrutamiento consciente de la modalidad para manejar eficientemente el cross-modal...
hace 5 meses
033.6K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - Modelo multimodal de edición y generación de imágenes de IA de código abierto de la HKUST

DreamOmni2 es un modelo multimodal de edición y generación de imágenes de IA de código abierto creado por el equipo de Jiajia en la HKUST. Puede procesar simultáneamente comandos de texto e imagen y admite múltiples imágenes de referencia, lo que proporciona a los creadores formas más flexibles de crear. El modelo se entrena mediante un proceso de síntesis de datos en tres fases, un entrenamiento conjunto de generación/edición...
hace 5 meses
033.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Modelado de texto a voz de código abierto de extremo a extremo de Faceted Intelligence

VoxCPM 1.5 es un modelo de generación de voz de código abierto publicado por Facade Intelligence, basado en la tecnología de conversión de texto a voz (TTS) sin necesidad de divisor, con varias innovaciones y mejoras. Adoptando una arquitectura autorregresiva de difusión de extremo a extremo, genera formas de onda de habla continua directamente a partir del texto, evitando las limitaciones de los métodos tradicionales de segmentación...
hace 3 meses
033.4K