Últimos recursos sobre IA

共 2916 篇文章
LoopTool - 上海交大联合小红书开源的自动化工具调用数据进化框架

LoopTool - Herramienta automatizada de código abierto de la Universidad Jiaotong de Shanghai y Little Red Book para llamar al marco de evolución de datos.

LoopTool es un marco automatizado de evolución de datos de llamada a herramientas de código abierto creado por la Universidad Jiao Tong de Shanghai y el equipo del Pequeño Libro Rojo, diseñado para mejorar la capacidad de llamada a herramientas de grandes modelos lingüísticos. Optimiza la generación de datos y la formación de modelos mediante la iteración en bucle cerrado, utilizando modelos de código abierto (por ejemplo, Qwen3-32B) como...
hace 2 meses
030.6K
AgentEvolver - 阿里通义实验室开源的智能体进化系统

AgentEvolver - Sistema de código abierto de Ali Tongyi Lab para inteligencias en evolución

AgentEvolver es un sistema de evolución del cuerpo inteligente de código abierto de Alibaba Tongyi Lab. Mediante los tres mecanismos de autocuestionamiento, autonavegación y autoatribución, consigue el aprendizaje autónomo y la evolución de las inteligencias.AgentEvolver adopta una arquitectura orientada a servicios que combina el sandbox ambiental, LLM y sc...
hace 2 meses
036.5K
MemOS - 开源的AI记忆管理与调度平台,共享长期记忆

MemOS - Plataforma de código abierto de gestión y programación de la memoria de la IA para compartir recuerdos a largo plazo

MemOS es un marco de programación y gestión de memoria de código abierto para grandes modelos de lenguaje (LLM) como MemTensor. Considerando la memoria como un recurso tan importante como la potencia aritmética, unifica la gestión del texto plano, el estado de activación y la memoria de parámetros mediante unidades de memoria MemCube estandarizadas.
hace 2 meses
030.7K
WithAnyone - 复旦联合阶跃星辰开源的AI合照生成模型

WithAnyone - Fudan salto conjunto estrella de código abierto AI modelo de generación de fotos

WithAnyone es un modelo de generación de fotos de IA desarrollado conjuntamente por la Universidad de Fudan y StepStar, que resuelve el problema habitual de "copiar y pegar" en la generación de imágenes de IA tradicional y consigue una generación de imágenes multipersona más natural y controlable. El modelo se basa en el conjunto de datos a gran escala MultiID-2M ...
hace 2 meses
030K
ChatTutor - 开源的AI教学辅助工具,可视化互动学习

ChatTutor - Ayuda pedagógica de AI de código abierto para visualizar el aprendizaje interactivo

ChatTutor es un código abierto AI ayuda a la enseñanza, centrándose en el aprendizaje interactivo visual en las materias STEM. A través de la arquitectura del cuerpo multi-inteligente para lograr el diálogo Q & A y la función de dibujo dinámico, se puede dibujar en la pizarra en tiempo real gráficos matemáticos, circuitos de física o mapas mentales, para ayudar a los usuarios a entender intuitivamente el general abstracto....
hace 2 meses
013.6K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - Sistema operativo de memoria a largo plazo de código abierto por Team Shanda

EverMemOS es un sistema operativo de memoria a largo plazo de código abierto lanzado por el equipo de Shanda dirigido por Chen Tianqiao, diseñado para que las inteligencias artificiales resuelvan el problema de la rotura de memoria causada por la ventana de contexto fija de los grandes modelos de lenguaje. El sistema se basa en el mecanismo de memoria del cerebro humano, utilizando una arquitectura de cuatro capas (capa de agente, capa de memoria, capa de índice...
hace 2 meses
019.2K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

Astron Agent - Plataforma de desarrollo de flujos de trabajo inteligentes de código abierto para empresas de KDDI

Astron Agent es una plataforma de desarrollo de flujo de trabajo inteligente de grado empresarial de código abierto de KDDI , centrándose en ayudar a las empresas a construir rápidamente una aplicación de agente AI aterrizable . Utilizando la pila de tecnología Java + Spring Boot , soporte para el despliegue privado ligero (configuración mínima de 2 núcleos 4G) , incorporado ...
hace 2 meses
017.8K
Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee - Proyecto de modelo multimodal de gran tamaño de código abierto Tencent Mixed Meta y Tsinghua

Bee es una solución de big model multimodal de código abierto de pila completa lanzada conjuntamente por el equipo de Tencent Mixed Element y la Universidad de Tsinghua para reducir la brecha de rendimiento entre los modelos de código abierto y los de código cerrado mediante la mejora de la calidad de los datos. El proyecto contiene tres logros fundamentales: el conjunto de datos CoT de dos capas de alta calidad a escala de 15 millones Honey-Data...
hace 2 meses
015.9K
InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar - Marco de generación de vídeo autorregresivo espaciotemporal unificado de código abierto Byte

InfinityStar es un marco autorregresivo espaciotemporal unificado de código abierto de ByteDance, diseñado para la generación de imágenes y vídeos de alta resolución. Utilizando un enfoque autorregresivo discreto, puede gestionar simultáneamente tareas de texto a imagen, texto a vídeo e imagen a vídeo en un único modelo. El marco se evalúa en VBench ...
hace 2 meses
015.9K
Koina - 慕尼黑工大联合密歇根大开源的去中心化机器学习平台

Koina: plataforma descentralizada de aprendizaje automático de código abierto desarrollada por la Universidad Técnica de Múnich en colaboración con la Universidad de Michigan.

Koina es una plataforma de aprendizaje automático descentralizada y de código abierto cuyo objetivo es simplificar el análisis de datos proteómicos. Ha sido desarrollada por un equipo de la Universidad Técnica de Múnich (Alemania) y la Universidad de Michigan (EE.UU.). La plataforma integra más de 30 modelos principales (por ejemplo, ProSIT, MS²PIP) a través de una interfaz estandarizada y admite...
hace 2 meses
017.3K
BestBlogs - 开源的AI内容聚合平台,精选优质技术内容

BestBlogs - Plataforma de agregación de contenidos de AI de código abierto con una selección de contenidos técnicos de calidad.

BestBlogs es una plataforma centrada en ofrecer contenidos de alta calidad a profesionales de la tecnología, emprendedores, gestores de productos, etc. Recopila artículos, podcasts, vídeos y otros contenidos multiformato de más de 400 blogs de alta calidad a través de canales RSS y tecnología de rastreo. Su punto fuerte es el uso de la inteligencia...
hace 2 meses
015.2K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - Plataforma de desarrollo y gestión de aplicaciones de agentes de IA de código abierto, basada en LazyLLM

LazyCraft es una plataforma de desarrollo y gestión de aplicaciones de agentes de IA de código abierto creada por Shangtang basada en el marco de código abierto LazyLLM, que proporciona soluciones integrales de desarrollo de aplicaciones de IA para empresas y desarrolladores. Ayuda a los desarrolladores a construir y lanzar rápidamente grandes aplicaciones modelo con bajo umbral y bajo coste....
hace 2 meses
021.4K
Kosong - Moonshot AI开源的全新AI Agent开发框架

Kosong - Nuevo marco de desarrollo de agentes de IA de código abierto de Moonshot AI

Kosong es un nuevo marco de desarrollo de agentes de IA de código abierto de Moonshot AI, que proporciona a los desarrolladores un soporte subyacente ligero, flexible y altamente escalable para crear aplicaciones de cuerpos inteligentes de próxima generación. Con un motor de programación de herramientas asíncrono que programa eficientemente múltiples herramientas...
hace 2 meses
019.4K
SenseNova-SI - 商汤科技开源的空间智能大模型系列

SenseNova-SI - Una familia de grandes modelos de inteligencia espacial de código abierto de ShangTang Technology

SenseNova-SI es un gran modelo de inteligencia espacial de código abierto lanzado por ShangTech, que se centra en mejorar la capacidad de la IA para la comprensión y el razonamiento espaciales. El modelo destaca en seis dimensiones básicas, como la medición espacial, la reconstrucción, el juicio de relaciones, la transformación de perspectivas, el análisis de deformaciones y el razonamiento espacial, superando...
hace 2 meses
015.4K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - herramienta de línea de comandos de código abierto que permite renderizar archivos Markdown en el terminal

Glow es una herramienta de línea de comandos de código abierto para la representación elegante de archivos Markdown en el terminal. La herramienta permite resaltar bloques de código , fórmulas matemáticas y otros elementos complejos , proporcionando una gran cantidad de características tales como estilos personalizados , visualización de paginación , soporte de ratón y así sucesivamente.
hace 2 meses
017.1K
NocoBase - 免费开源的AI无代码开发平台,可视化构建应用

NocoBase - Plataforma de desarrollo de IA sin código, gratuita y de código abierto, para crear aplicaciones de forma visual.

NocoBase se basa en la plataforma de desarrollo sin código de código abierto impulsado por IA , el apoyo a la rápida construcción de sistemas de negocio , sin programación se puede completar a través de la configuración del desarrollo de aplicaciones . El proyecto utiliza el protocolo Apache-2.0 , proporciona despliegue privado y escalabilidad flexible , adecuado para la gestión empresarial , plataformas de colaboración y otros campos ...
hace 2 meses
013.7K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - Una nueva generación de modelos de edición de imágenes lanzada por RabbitShow Intelligence y la Universidad de Pekín

UniWorld V2 es un modelo de edición de imágenes de nueva generación lanzado conjuntamente por RabbitZhan Intelligence y el equipo UniWorld de la Universidad de Pekín. Presenta ventajas significativas en el campo de la edición de imágenes, especialmente en la comprensión del chino y la ejecución de comandos complejos. El modelo puede representar con precisión fuentes chinas artísticas y...
hace 2 meses
017.7K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - Herramienta de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos con inteligencia artificial

SmartResume es la herramienta inteligente de código abierto de Alibaba para el análisis sintáctico y la optimización de currículos que extrae eficazmente información estructurada, como datos básicos, formación y experiencia laboral, de documentos PDF, imágenes u Office. Mediante la integración de tecnología OCR y metadatos PDF...
hace 2 meses
018.4K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - El primer gran modelo de edición de audio de código abierto a nivel LLM de Step-Star

Step-Audio-EditX es un macromodelo de edición de audio de código abierto, desarrollado por el equipo Step-Star, que se centra en la manipulación precisa del contenido de audio mediante tecnología de inteligencia artificial. El modelo puede ajustar dinámicamente el estado de ánimo del audio, el estilo de habla (como petulante, acento de anciano, etc.) y los elementos paralingüísticos (como risas, suspiros...
hace 2 meses
018.9K
Open-o3 Video - 北大联合字节开源的视频推理模型

Open-o3 Video - Un modelo de razonamiento en vídeo de código abierto de la Universidad de Pekín United Bytes

Open-o3 Video es un modelo de inferencia de vídeo de código abierto desarrollado conjuntamente por la Universidad de Pekín y ByteDance, centrado en mejorar la inferencia de vídeo mediante pruebas temporales y espaciales. Al etiquetar explícitamente las pruebas clave con marcas de tiempo y cuadros delimitadores, ayuda al modelo a comprender e interpretar mejor el contenido del vídeo.
hace 2 meses
016.2K
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit: NVIDIA y la Universidad de Toronto abren un marco de edición de imágenes basado en IA

ChronoEdit, un marco de edición de imágenes de IA de código abierto desarrollado conjuntamente por NVIDIA y la Universidad de Toronto, redefine la tarea de edición de imágenes como una tarea de generación de vídeo para garantizar que los resultados de la edición sean coherentes temporal y físicamente. Mediante la destilación de un modelo de generación de vídeo preentrenado con 14B...
hace 2 meses
022.3K
Petri - Anthropic开源的 AI 安全审计框架

Petri - Marco de auditoría de seguridad de IA de código abierto de Anthropic

Petri es un marco de auditoría de seguridad de IA de código abierto desarrollado por Anthropic que evalúa sistemáticamente la seguridad y la alineación del comportamiento de los modelos de IA. Mediante la simulación de un escenario real en el que un auditor automatizado participa en múltiples rondas de diálogo con un modelo objetivo, seguido de un agente juez que actúa sobre el modelo de...
hace 2 meses
017.7K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear: una novedosa arquitectura híbrida de atención lineal de código abierto en el Lado Oscuro de la Luna

Kimi Linear es una nueva arquitectura híbrida de atención lineal de código abierto de Dark Side of the Moon, con Kimi Delta Attention (KDA) como núcleo, que optimiza el modelo de atención tradicional mediante un mecanismo de control más preciso, mejorando significativamente la eficiencia del hardware y la capacidad de control de la memoria...
hace 2 meses
028.5K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Modelo de síntesis de voz conversacional de código abierto de Soul AI Lab

SoulX-Podcast es el modelo avanzado de síntesis de voz conversacional multihablante de código abierto de Soul AI Lab diseñado para generar contenidos de podcast de alta calidad. SoulX-Podcast tiene la capacidad de generar múltiples rondas de diálogo y puede simular un diálogo fluido en escenarios reales de podcasting, soportando mandarín, inglés y múltiples...
hace 2 meses
029.3K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - Modelo básico encarnado de código abierto basado en datos de generación de modelos mundiales

GigaBrain-0 es el primer modelo de base encarnada Visión-Lenguaje-Acción (VLA) integral de China que utiliza datos de generación de modelos mundiales para lograr una generalización real de la máquina, y está publicado conjuntamente como código abierto por GigaVision y el Centro de Innovación en Robótica Humanoide de Hubei. Adopta la arquitectura híbrida Transformer, que fusiona ...
hace 2 meses
018.1K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci: el modelo de gran lenguaje omnimodal de código abierto de NVIDIA

OmniVinci es un modelo lingüístico a gran escala, totalmente modal y de código abierto desarrollado por NVIDIA que resuelve el problema de la fragmentación modal en modelos multimodales mediante la innovación arquitectónica y la optimización de datos. La alineación de las incrustaciones visuales y sonoras se mejora mediante OmniAlignNet, que utiliza la captura de grupos incrustada temporalmente....
hace 2 meses
022.2K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - Plataforma financiera multiinteligencia de código abierto con múltiples agentes trabajando juntos

ValueCell es una plataforma de aplicaciones financieras de código abierto con múltiples cuerpos inteligentes que mejora la eficiencia del análisis financiero y la gestión de inversiones a través de la tecnología de IA. Simulando un equipo de inversión profesional, múltiples inteligencias de IA trabajan juntas, cubriendo análisis de mercado, análisis de sentimiento, investigación fundamental, trading automático y otras funciones, proporcionando a los usuarios una completa...
hace 2 meses
043.2K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - La máquina de la Fuerza Espíritu de código abierto inteligencia corporal modelo VLA plataforma de servicios de investigación de ventanilla única.

Dexbotic es el modelo de código abierto Visual-Lingüística-Acción (VLA) de la plataforma de servicios de investigación de ventanilla única de inteligencia incorporada de Dexmal, que resuelve los problemas de fragmentación y baja eficiencia de la investigación en el campo de la inteligencia incorporada. Basado en PyTorch, Dexbotic es una plataforma de servicios de investigación de ventanilla única para resolver los problemas de fragmentación y baja eficiencia en el campo de la inteligencia corporal....
hace 2 meses
019.7K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - Modelo de generación de vídeo de código abierto LongCat de la Misión

LongCat-Video es un modelo de generación de vídeo de 1.360 millones de parámetros de código abierto del equipo LongCat, que utiliza el protocolo de código abierto del MIT y soporta tres tareas principales: vídeo generado por texto, vídeo generado por gráficos y continuación de vídeo. El modelo, a través de la estrategia de generación "de grueso a fino" y el mecanismo de atención dispersa por bloques, puede ...
hace 2 meses
037.9K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - Modelo multimodal de edición y generación de imágenes de IA de código abierto de la HKUST

DreamOmni2 es un modelo multimodal de edición y generación de imágenes de IA de código abierto creado por el equipo de Jiajia en la HKUST. Puede procesar simultáneamente comandos de texto e imagen y admite múltiples imágenes de referencia, lo que proporciona a los creadores formas más flexibles de crear. El modelo se entrena mediante un proceso de síntesis de datos en tres fases, un entrenamiento conjunto de generación/edición...
hace 3 meses
024.5K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Mixed World Model 1.1 - Tencent Mixed World lanza un gran modelo reconstruido en 3D de código abierto

WorldMirror 1.1 (WorldMirror) es una reconstrucción 3D de código abierto de grandes modelos lanzada por el equipo WorldMirror de Tencent, que es una versión mejorada de la serie WorldMirror. Admite imágenes multivista, vídeos y entradas multimodales a priori como la posición de la cámara, la referencia interna, el mapa de profundidad, etc. Rompe con la reconstrucción 3D tradicional que sólo se basa en...
hace 3 meses
024.1K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks

VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...
hace 3 meses
021.6K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - Modelo de análisis sintáctico de documentos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Pekín

MinerU2.5 es un modelo de lenguaje visual desacoplado desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai y el equipo de la Universidad de Pekín, centrado en el procesamiento eficiente del análisis sintáctico de imágenes de documentos de alta resolución. La principal innovación radica en el diseño en dos fases de la "detección de la disposición global seguida del reconocimiento del contenido local": la primera fase...
hace 3 meses
031.9K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros, mediante la fusión de un codificador visual dinámico de alta resolución y un modelo lingüístico ERNIE ligero, al tiempo que mantiene una alta precisión y reduce significativamente la sobrecarga computacional.
hace 3 meses
030.3K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.

UniPixel es un novedoso modelo multimodal propuesto conjuntamente por la Universidad Politécnica de Hong Kong, Tencent, la Academia China de Ciencias y Vivo para lograr la comprensión del lenguaje visual a nivel de píxel. Al unificar las capacidades de referenciación y segmentación de objetos, admite diversas tareas de granularidad fina, como la segmentación de imágenes, la segmentación de vídeos, la comprensión de regiones y la comprensión de pi...
hace 3 meses
024.7K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network

DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...
hace 3 meses
025.6K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...
hace 3 meses
025.6K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...
hace 3 meses
017.7K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Modelo de representación de texto genérico de código abierto de Tencent Youtu

Youtu-Embedding es un modelo de representación de texto universal de código abierto de Youtu Labs de Tencent, diseñado para aplicaciones de nivel empresarial. El texto se mapea en un espacio vectorial de alta dimensión mediante redes neuronales profundas, de modo que las frases semánticamente similares están más cerca unas de otras en ese espacio, logrando una recuperación semántica precisa.
hace 3 meses
024.1K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - Modelo de lenguaje visual multimodal de código abierto de ByteHop

SAIL-VL2 es un modelo de lenguaje visual multimodal de código abierto del equipo Byte Jump, centrado en el modelado conjunto de entradas multimodales como imágenes y texto. Utilizando la arquitectura de mezcla dispersa de expertos (MoE) y la estrategia de entrenamiento progresivo, logra un alto rendimiento en escalas de parámetros de 2B a 8B, especialmente en las áreas de comprensión gráfica, matemática...
hace 3 meses
018K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - Socio de IA consciente del contexto activo y de código abierto de Bytes

MineContext es un socio activo de IA consciente del contexto, de código abierto por el equipo de ByteDance Viking, para ayudar a los usuarios a gestionar eficientemente cantidades masivas de información y mejorar la eficiencia del trabajo del conocimiento. Sobre la tecnología de captura de pantalla y comprensión de contenido, registra automáticamente las operaciones diarias del usuario (como navegar por la web, editar documentos, etc.), apoya...
hace 3 meses
031.4K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - Proyecto de código abierto de la NUS para generar automáticamente vídeos de demostración de trabajos académicos

Paper2Video es un proyecto de código abierto para la generación automática de vídeos de presentación de trabajos académicos en el Show Lab de la Universidad Nacional de Singapur. Utilizando el marco de inteligencia múltiple PaperTalker, los artículos se transforman en vídeos de presentación completos que contienen diapositivas, subtítulos, voz en off y avatar del orador....
hace 3 meses
023.7K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - Modelos de síntesis de voz ligeros y gratuitos compatibles con la ejecución sin conexión a la CPU

NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....
hace 3 meses
027K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - Racer de código abierto de programación libre de modelos específicos

KAT-Dev-72B-Exp es un modelo de gran lenguaje específico de programación de código abierto lanzado por el equipo Racer, optimizado sobre la base de técnicas de aprendizaje por refuerzo, que alcanzó una tasa de precisión de 74,6% en la prueba de referencia SWE-Bench Verified, actualmente el mejor rendimiento entre los modelos de código abierto. El modelo utiliza...
hace 3 meses
022.2K
吴恩达的《Agentic AI》最新智能体免费课程

Un curso gratuito sobre las últimas inteligencias de Agentic AI por Ernst Woo

Agentic AI es el último curso sobre cuerpos inteligentes lanzado por Ernest Ng.El curso se centra en el diseño y construcción de cuerpos inteligentes, abarcando los cuatro patrones de diseño de reflexión, uso de herramientas, planificación y colaboración de cuerpos multi-inteligentes. Los alumnos dominarán cómo hacer que los cuerpos inteligentes comprueben las salidas, se sintonicen de forma autónoma a través de explicaciones teóricas y prácticas de código...
hace 3 meses
031.8K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - Proyecto de colaboración libre y de código abierto para crear redes de agentes de IA

OpenAgents es el proyecto de código abierto que crea una red de agentes de IA y facilita la colaboración abierta entre agentes. Se proporciona una infraestructura de red básica para que los agentes de IA puedan conectarse y colaborar sin problemas. Los usuarios pueden crear rápidamente su propia red de agentes, ampliar la funcionalidad mediante una arquitectura modular,...
hace 3 meses
021.5K
Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - Modelo lingüístico universal de código abierto del Grupo Ant para billones de parámetros.

Ling-1T es un modelo de lenguaje universal de un billón de parámetros de código abierto de Ant Group, que pertenece al producto estrella de la serie Ling 2.0 de grandes modelos de Bering. El modelo adopta una arquitectura MoE muy eficiente, admite 128.000 ventanas de contexto y supera al GPT en 7 pruebas comparativas, como la generación de código, el razonamiento matemático y las pruebas lógicas....
hace 3 meses
041.8K
聆音EchoCare - 香港科学院开源的超声基座大模型

EchoCare - Modelo grande de base de ultrasonidos de código abierto de la Academia de Ciencias de Hong Kong

EchoCare es un gran modelo de base de ecografía desarrollado por el Centro de Inteligencia Artificial e Innovación Robótica (CAIR) del Instituto de Innovación e Investigación de Hong Kong, Academia China de Ciencias (CAS), entrenado en el mayor conjunto de datos de imágenes de ecografía del mundo (más de 4,5 millones de imágenes) que abarca múltiples centros, regiones, etnias y más de 50...
hace 3 meses
021.2K
SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - framework de código abierto de la Universidad Jiao Tong de Shanghai para generar escenas 3D a partir de una sola imagen

SceneGen es un método de código abierto para generar escenas 3D a partir de una sola imagen de la Universidad Jiao Tong de Shanghai. A partir de una sola imagen de escena y una máscara de recursos de destino, se genera eficazmente una escena completa que contiene múltiples recursos 3D, incluida la estructura geométrica de los recursos, la textura y la ubicación espacial relativa.
hace 3 meses
020K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Modelo de generación multimodal de audio unificado de código abierto Ant

Ming-UniAudio es el modelo de generación multimodal de audio unificado de código abierto de Ant Group que admite entrada y salida mixta de texto, audio, imagen y vídeo. Utilizando la arquitectura de transformadores multiescala y expertos mixtos (MoE) , a través del mecanismo de enrutamiento consciente de la modalidad para manejar eficientemente el cross-modal...
hace 3 meses
024.3K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - ¡Herramienta gratuita de creación de manga AI para un proceso de creación completo!

AIMangaStudio es una herramienta gratuita de creación de manga AI que proporciona a los creadores una tubería completa de creación de manga, incluyendo la generación de la trama, el diseño de sub-escenas, la configuración de caracteres y otras funciones, que pueden simplificar el proceso de producción desde el guión hasta la página de manga. Soporta la generación en lenguaje natural de guiones de cómic, incluyendo trama, diálogos...
hace 3 meses
027.4K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Sistema de interacción por voz full-duplex de código abierto de Little Red Book

FireRedChat es un sistema de interacción de voz full-duplex de código abierto para Xiaohongshu con capacidad de diálogo bidireccional en tiempo real y soporte para interrupciones controladas. Utilizando un diseño modular , incluyendo módulo de control de transcripción , módulo de interacción y gestor de diálogo , etc., soporta arquitectura en cascada y semi-cascada , despliegue flexible.
hace 3 meses
029.2K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - Wisdom Source Research Institute modelo de encarnación generalizado de ontología cruzada de muestra cero de código abierto

RoboBrain-X0 es el primer modelo encarnado de código abierto del mundo que admite la generalización entre ontologías de muestra cero, de código abierto por el Wisdom Source Research Institute, que tiene una gran importancia para la industria. Puede controlar varios robots reales de distintas configuraciones para realizar tareas básicas sin necesidad de ajuste fino y, tras un pequeño ajuste fino de la muestra, demuestra la capacidad de reproducir ...
hace 3 meses
022.4K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - Modelo gratuito de generación de imágenes multimodales de código abierto de Tencent

HunyuanImage 3.0 (Hunyuan Image 3.0) es un modelo nativo de generación de imágenes multimodales publicado y de código abierto por Tencent. El tamaño de los parámetros del modelo de 80B, es actualmente los mejores resultados de evaluación, el mayor número de parámetros del modelo de generación de imágenes de código abierto. Hybrid Image 3.0 soporta la generación de imágenes en tiempo real, los usuarios pueden...
hace 3 meses
035.5K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - Modelo de diálogo de audio dúplex completo (FLM-Audio) de código abierto creado por WisdomSource en colaboración con el Instituto Tecnológico de Nanyang (NTI).

FLM-Audio es un macromodelo de diálogo de audio full-duplex nativo publicado por el Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín en colaboración con Spin Matrix y la Universidad Tecnológica Nanyang de Singapur, que admite tanto el chino como el inglés. Al adoptar una arquitectura full-duplex nativa, puede combinar la escucha, el habla y el monólogo en cada paso temporal...
hace 4 meses
025.9K
CWM - Meta FAIR开源的代码世界语言模型

CWM - Modelo Meta FAIR de lenguaje mundial de código abierto

CWM (Code World Model) es un modelo de lenguaje mundial de código abierto con 32.000 millones de parámetros publicado por el equipo Meta FAIR, diseñado para la generación y el razonamiento de código. Introduce el concepto de "modelo del mundo", que puede simular el proceso de ejecución del código, predecir los cambios de estado de las variables y avanzar...
hace 4 meses
023.8K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - El asistente de programación inteligente de Ant Open Source

Neovate Code es un asistente de programación inteligente de código abierto del Departamento de Tecnología de Experiencia Alipay de Ant Group, que mejora la eficiencia del desarrollo mediante tecnología de inteligencia artificial. Con funciones de desarrollo conversacional, los desarrolladores pueden describir los requisitos a través del lenguaje natural, Neovate Code puede entender y generar la generación correspondiente....
hace 4 meses
028.6K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face: el modelo de generación de animaciones faciales 3D de NVIDIA de código abierto

Audio2Face es una herramienta de IA de código abierto de NVIDIA capaz de transformar la señal de audio en animaciones faciales realistas en 3D. Mediante el análisis de las características del habla en el audio, como los fonemas y la entonación, genera una sincronización precisa de los labios y sutiles expresiones emocionales para dotar de viveza humana a los personajes virtuales.
hace 4 meses
026.9K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - Macromodelos de lenguaje visual multimodal de código abierto AliCloud Tongyi Qianqian

Qwen3-VL es un gran modelo de lenguaje visual multimodal de código abierto del equipo AliCloud Tongyi Qianqian, con 235.000 millones de referencias y unos 471 GB de archivos de modelo.Contiene versiones de instrucción y pensamiento, adopta el diseño intercalado MRope mejorado, DeepStack y otras tecnologías, que pueden utilizar eficazmente transformaciones visuales....
hace 4 meses
035.6K
Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - Modelo de seguridad de código abierto Ali Qwen

Qwen3Guard es un modelo de protección de seguridad afinado basado en el modelo base Qwen3, diseñado para la detección de seguridad. Proporciona una categorización de seguridad precisa de las solicitudes y respuestas, proporciona niveles de riesgo y es compatible con entornos en inglés, chino y multilingües.Qwen3Guard está disponible en dos pro...
hace 4 meses
030K
Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - Modelos de síntesis de voz de Ali Tongyi

Qwen3-TTS-Flash es un avanzado modelo de síntesis de voz introducido por Ali Tongyi, compatible con 17 tonos y 10 idiomas, que abarca mandarín, inglés, dialectos, etc. Tiene una excelente estabilidad y una gran expresividad del habla china e inglesa, y el modelo puede ajustar automáticamente el tono de voz para hacerlo más vivo.
hace 4 meses
032.9K
Lucy Edit - 开源的AI视频编辑工具,自然语言描述编辑

Lucy Edit - Herramienta de edición de vídeo con inteligencia artificial de código abierto, edición de descripciones en lenguaje natural

Lucy Edit es una herramienta de edición de vídeo de IA de código abierto desarrollada por Decart AI. Permite a los usuarios editar vídeo mediante sencillas descripciones en lenguaje natural, como "cambiar el personaje en un oso polar" o "convertir la escena en un estilo de dibujos animados 2D", sin necesidad de complejos ajustes finos ni del uso de máscaras...
hace 4 meses
028.6K
Kronos - 清华和微软联合开源的金融K线图基础模型

Kronos - Modelo de base de gráficos K financieros de código abierto conjunto de Tsinghua y Microsoft

Kronos es el primer modelo básico de gráfico K-line para el mercado financiero, desarrollado conjuntamente por la Universidad Tsinghua y Microsoft Research Asia. Mediante el análisis de los datos K-line de acciones, criptomonedas y otros activos, incluidos el precio de apertura, el precio máximo, el precio mínimo, el precio de cierre y el volumen, puede predecir futuros movimientos de precios.
hace 4 meses
039.6K