Últimos recursos sobre IA

共 2851 篇文章
ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

ChronoEdit: NVIDIA y la Universidad de Toronto abren un marco de edición de imágenes basado en IA

ChronoEdit, un marco de edición de imágenes de IA de código abierto desarrollado conjuntamente por NVIDIA y la Universidad de Toronto, redefine la tarea de edición de imágenes como una tarea de generación de vídeo para garantizar que los resultados de la edición sean coherentes temporal y físicamente. Mediante la destilación de un modelo de generación de vídeo preentrenado con 14B...
hace 1 mes
017.4K
Petri - Anthropic开源的 AI 安全审计框架

Petri - Marco de auditoría de seguridad de IA de código abierto de Anthropic

Petri es un marco de auditoría de seguridad de IA de código abierto desarrollado por Anthropic que evalúa sistemáticamente la seguridad y la alineación del comportamiento de los modelos de IA. Mediante la simulación de un escenario real en el que un auditor automatizado participa en múltiples rondas de diálogo con un modelo objetivo, seguido de un agente juez que actúa sobre el modelo de...
hace 1 mes
013K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

Kimi Linear: una novedosa arquitectura híbrida de atención lineal de código abierto en el Lado Oscuro de la Luna

Kimi Linear es una nueva arquitectura híbrida de atención lineal de código abierto de Dark Side of the Moon, con Kimi Delta Attention (KDA) como núcleo, que optimiza el modelo de atención tradicional mediante un mecanismo de control más preciso, mejorando significativamente la eficiencia del hardware y la capacidad de control de la memoria...
hace 1 mes
024.6K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Modelo de síntesis de voz conversacional de código abierto de Soul AI Lab

SoulX-Podcast es el modelo avanzado de síntesis de voz conversacional multihablante de código abierto de Soul AI Lab diseñado para generar contenidos de podcast de alta calidad. SoulX-Podcast tiene la capacidad de generar múltiples rondas de diálogo y puede simular un diálogo fluido en escenarios reales de podcasting, soportando mandarín, inglés y múltiples...
hace 1 mes
022.7K
GigaBrain-0 - 开源的具身基础模型,由世界模型生成数据驱动

GigaBrain-0 - Modelo básico encarnado de código abierto basado en datos de generación de modelos mundiales

GigaBrain-0 es el primer modelo de base encarnada Visión-Lenguaje-Acción (VLA) integral de China que utiliza datos de generación de modelos mundiales para lograr una generalización real de la máquina, y está publicado conjuntamente como código abierto por GigaVision y el Centro de Innovación en Robótica Humanoide de Hubei. Adopta la arquitectura híbrida Transformer, que fusiona ...
hace 1 mes
013.9K
OmniVinci - NVIDIA开源的全模态大语言模型

OmniVinci: el modelo de gran lenguaje omnimodal de código abierto de NVIDIA

OmniVinci es un modelo lingüístico a gran escala, totalmente modal y de código abierto desarrollado por NVIDIA que resuelve el problema de la fragmentación modal en modelos multimodales mediante la innovación arquitectónica y la optimización de datos. La alineación de las incrustaciones visuales y sonoras se mejora mediante OmniAlignNet, que utiliza la captura de grupos incrustada temporalmente....
hace 1 mes
017.2K
ValueCell - 开源的多智能体金融平台,多个Agent分工协作

ValueCell - Plataforma financiera multiinteligencia de código abierto con múltiples agentes trabajando juntos

ValueCell es una plataforma de aplicaciones financieras de código abierto con múltiples cuerpos inteligentes que mejora la eficiencia del análisis financiero y la gestión de inversiones a través de la tecnología de IA. Simulando un equipo de inversión profesional, múltiples inteligencias de IA trabajan juntas, cubriendo análisis de mercado, análisis de sentimiento, investigación fundamental, trading automático y otras funciones, proporcionando a los usuarios una completa...
hace 1 mes
032.4K
Dexbotic - 原力灵机开源的具身智能VLA模型一站式科研服务平台

Dexbotic - La máquina de la Fuerza Espíritu de código abierto inteligencia corporal modelo VLA plataforma de servicios de investigación de ventanilla única.

Dexbotic es el modelo de código abierto Visual-Lingüística-Acción (VLA) de la plataforma de servicios de investigación de ventanilla única de inteligencia incorporada de Dexmal, que resuelve los problemas de fragmentación y baja eficiencia de la investigación en el campo de la inteligencia incorporada. Basado en PyTorch, Dexbotic es una plataforma de servicios de investigación de ventanilla única para resolver los problemas de fragmentación y baja eficiencia en el campo de la inteligencia corporal....
hace 1 mes
014.9K
LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video - Modelo de generación de vídeo de código abierto LongCat de la Misión

LongCat-Video es un modelo de generación de vídeo de 1.360 millones de parámetros de código abierto del equipo LongCat, que utiliza el protocolo de código abierto del MIT y soporta tres tareas principales: vídeo generado por texto, vídeo generado por gráficos y continuación de vídeo. El modelo, a través de la estrategia de generación "de grueso a fino" y el mecanismo de atención dispersa por bloques, puede ...
hace 1 mes
030.1K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - Modelo multimodal de edición y generación de imágenes de IA de código abierto de la HKUST

DreamOmni2 es un modelo multimodal de edición y generación de imágenes de IA de código abierto creado por el equipo de Jiajia en la HKUST. Puede procesar simultáneamente comandos de texto e imagen y admite múltiples imágenes de referencia, lo que proporciona a los creadores formas más flexibles de crear. El modelo se entrena mediante un proceso de síntesis de datos en tres fases, un entrenamiento conjunto de generación/edición...
hace 2 meses
019.1K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

Mixed World Model 1.1 - Tencent Mixed World lanza un gran modelo reconstruido en 3D de código abierto

WorldMirror 1.1 (WorldMirror) es una reconstrucción 3D de código abierto de grandes modelos lanzada por el equipo WorldMirror de Tencent, que es una versión mejorada de la serie WorldMirror. Admite imágenes multivista, vídeos y entradas multimodales a priori como la posición de la cámara, la referencia interna, el mapa de profundidad, etc. Rompe con la reconstrucción 3D tradicional que sólo se basa en...
hace 2 meses
019.6K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks

VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...
hace 2 meses
018.3K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - Modelo de análisis sintáctico de documentos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Pekín

MinerU2.5 es un modelo de lenguaje visual desacoplado desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai y el equipo de la Universidad de Pekín, centrado en el procesamiento eficiente del análisis sintáctico de imágenes de documentos de alta resolución. La principal innovación radica en el diseño en dos fases de la "detección de la disposición global seguida del reconocimiento del contenido local": la primera fase...
hace 2 meses
025.8K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros, mediante la fusión de un codificador visual dinámico de alta resolución y un modelo lingüístico ERNIE ligero, al tiempo que mantiene una alta precisión y reduce significativamente la sobrecarga computacional.
hace 2 meses
022.3K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.

UniPixel es un novedoso modelo multimodal propuesto conjuntamente por la Universidad Politécnica de Hong Kong, Tencent, la Academia China de Ciencias y Vivo para lograr la comprensión del lenguaje visual a nivel de píxel. Al unificar las capacidades de referenciación y segmentación de objetos, admite diversas tareas de granularidad fina, como la segmentación de imágenes, la segmentación de vídeos, la comprensión de regiones y la comprensión de pi...
hace 2 meses
021K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network

DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...
hace 2 meses
021.6K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...
hace 2 meses
020K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...
hace 2 meses
014.2K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Modelo de representación de texto genérico de código abierto de Tencent Youtu

Youtu-Embedding es un modelo de representación de texto universal de código abierto de Youtu Labs de Tencent, diseñado para aplicaciones de nivel empresarial. El texto se mapea en un espacio vectorial de alta dimensión mediante redes neuronales profundas, de modo que las frases semánticamente similares están más cerca unas de otras en ese espacio, logrando una recuperación semántica precisa.
hace 2 meses
018.8K
SAIL-VL2 - 字节跳动开源的多模态视觉语言模型

SAIL-VL2 - Modelo de lenguaje visual multimodal de código abierto de ByteHop

SAIL-VL2 es un modelo de lenguaje visual multimodal de código abierto del equipo Byte Jump, centrado en el modelado conjunto de entradas multimodales como imágenes y texto. Utilizando la arquitectura de mezcla dispersa de expertos (MoE) y la estrategia de entrenamiento progresivo, logra un alto rendimiento en escalas de parámetros de 2B a 8B, especialmente en las áreas de comprensión gráfica, matemática...
hace 2 meses
014.7K
MineContext - 字节开源的主动式上下文感知AI伙伴

MineContext - Socio de IA consciente del contexto activo y de código abierto de Bytes

MineContext es un socio activo de IA consciente del contexto, de código abierto por el equipo de ByteDance Viking, para ayudar a los usuarios a gestionar eficientemente cantidades masivas de información y mejorar la eficiencia del trabajo del conocimiento. Sobre la tecnología de captura de pantalla y comprensión de contenido, registra automáticamente las operaciones diarias del usuario (como navegar por la web, editar documentos, etc.), apoya...
hace 2 meses
025.3K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - Proyecto de código abierto de la NUS para generar automáticamente vídeos de demostración de trabajos académicos

Paper2Video es un proyecto de código abierto para la generación automática de vídeos de presentación de trabajos académicos en el Show Lab de la Universidad Nacional de Singapur. Utilizando el marco de inteligencia múltiple PaperTalker, los artículos se transforman en vídeos de presentación completos que contienen diapositivas, subtítulos, voz en off y avatar del orador....
hace 2 meses
019.2K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - Modelos de síntesis de voz ligeros y gratuitos compatibles con la ejecución sin conexión a la CPU

NeuTTS Air es un modelo ligero de síntesis de voz de código abierto, desarrollado por el equipo Neuphonic, que puede ejecutarse en tiempo real en dispositivos locales (por ejemplo, teléfonos móviles, ordenadores portátiles, Raspberry Pi) sin depender de la nube. Utiliza la arquitectura Qwen de 0,5B parámetros y el códec NeuCodec de desarrollo propio....
hace 2 meses
022.3K
KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - Racer de código abierto de programación libre de modelos específicos

KAT-Dev-72B-Exp es un modelo de gran lenguaje específico de programación de código abierto lanzado por el equipo Racer, optimizado sobre la base de técnicas de aprendizaje por refuerzo, que alcanzó una tasa de precisión de 74,6% en la prueba de referencia SWE-Bench Verified, actualmente el mejor rendimiento entre los modelos de código abierto. El modelo utiliza...
hace 2 meses
017.1K