Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
DeepSeek-OCR - DeepSeek开源的光学字符识别模型

DeepSeek-OCR - Modelo de reconocimiento óptico de caracteres de código abierto DeepSeek

DeepSeek-OCR es un modelo avanzado de reconocimiento óptico de caracteres (OCR) de código abierto creado por el equipo de DeepSeek, que convierte texto en imágenes mediante la tecnología de "compresión óptica contextual" y utiliza fichas visuales para la compresión y descodificación con el fin de lograr un procesamiento eficaz de textos largos.
hace 6 meses
040.2K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCat Agente Interactivo de Código Abierto Revisión Benchmarks

VitaBench es el primer punto de referencia interactivo de evaluación de agentes para escenarios vitales complejos lanzado por el equipo LongCat de Meituan, que evalúa las capacidades integrales de grandes modelos de inteligencia en escenarios vitales reales. Los tres escenarios de vida de alta frecuencia de pedidos para llevar, cenas en restaurantes y viajes se utilizan como portadores para construir paquetes...
hace 6 meses
031.7K
MinerU2.5 - 上海AI Lab联合北大开源的文档解析模型

MinerU2.5 - Modelo de análisis sintáctico de documentos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Pekín

MinerU2.5 es un modelo de lenguaje visual desacoplado desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai y el equipo de la Universidad de Pekín, centrado en el procesamiento eficiente del análisis sintáctico de imágenes de documentos de alta resolución. La principal innovación radica en el diseño en dos fases de la "detección de la disposición global seguida del reconocimiento del contenido local": la primera fase...
hace 6 meses
045.7K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - Soluciones de códec de voz de código abierto Meituan LongCat

LongCat-Audio-Codec es una solución de códec de voz de código abierto del equipo LongCat de Meituan. La solución está diseñada para Speech Large Language Model (Speech LLM), a través del mecanismo de extracción en paralelo Token dual semántico y acústico , teniendo en cuenta las características semánticas y acústicas del habla ...
hace 6 meses
029.5K
PaddleOCR-VL - 百度开源的超轻量级视觉-语言模型

PaddleOCR-VL - Modelos visual-lingüísticos ultraligeros de código abierto de Baidu

PaddleOCR-VL es el modelo visual-lingüístico ultraligero de código abierto de Baidu, optimizado para el análisis sintáctico de documentos. El modelo contiene solo 0,9 mil millones de parámetros, mediante la fusión de un codificador visual dinámico de alta resolución y un modelo lingüístico ERNIE ligero, al tiempo que mantiene una alta precisión y reduce significativamente la sobrecarga computacional.
hace 6 meses
046.4K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - Modelo multimodal a nivel de píxel de código abierto de la Politécnica de Hong Kong, Tencent, la Academia China de las Ciencias y otros.

UniPixel es un novedoso modelo multimodal propuesto conjuntamente por la Universidad Politécnica de Hong Kong, Tencent, la Academia China de Ciencias y Vivo para lograr la comprensión del lenguaje visual a nivel de píxel. Al unificar las capacidades de referenciación y segmentación de objetos, admite diversas tareas de granularidad fina, como la segmentación de imágenes, la segmentación de vídeos, la comprensión de regiones y la comprensión de pi...
hace 6 meses
035.1K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - Marco de síntesis del habla multidialectal de código abierto de Tsinghua y Giant Network

DiaMoE-TTS es un marco de síntesis de voz multidialectal de código abierto desarrollado conjuntamente por la Universidad de Tsinghua y Giant Network, basado en el Alfabeto Fonético Internacional (IPA), para resolver los problemas de la escasez de datos dialectales, la inconsistencia ortográfica y la complejidad de los cambios fonológicos. A través de un front-end IPA unificado se estandariza la representación de fonemas, eliminando las diferencias entre dialectos ...
hace 6 meses
037.1K
Kandinsky 5.0 - 俄罗斯AI团队开源的视频生成模型系列

Kandinsky 5.0 - Serie de modelos de generación de vídeo de código abierto del equipo ruso de IA

Kandinsky 5.0 es la última serie de modelos de generación de vídeo desarrollada por el equipo ruso de IA, centrada en un diseño ligero y un alto rendimiento. El primer modelo de la serie, Kandinsky 5.0 Video Lite, solo tiene 2.000 millones de parámetros, pero supera a modelos similares de 14B, especialmente...
hace 6 meses
045.1K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom: modelo de generación de canciones de código abierto de Tencent en colaboración con HKCNU y NTU

SongBloom es un modelo de generación de canciones de código abierto desarrollado por Tencent AI Lab en colaboración con la Universidad China de Hong Kong (Shenzhen) y la Universidad de Nanjing, que resuelve el problema de la "plasticidad" en la generación de música por IA y consigue una generación de canciones estructuralmente completa y de alta calidad. Basta con introducir 10 segundos de audio de referencia y la letra correspondiente,...
hace 6 meses
035.9K
Pyscn - 专为Python开发者开源的免费AI代码质量分析工具

Pyscn - Herramienta gratuita de análisis de la calidad del código de IA de código abierto para desarrolladores de Python

Pyscn es una herramienta inteligente de análisis de la calidad del código diseñada para que los desarrolladores de Python detecten posibles problemas en el código con el fin de mejorar la mantenibilidad. Analiza código muerto mediante diagramas de flujo de control, identifica código duplicado mediante el algoritmo APTED+LSH, calcula métricas como el acoplamiento de módulos y la complejidad de los círculos...
hace 6 meses
028.7K