Proyecto AI de código abierto

Total 1020 artículos
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot: generación de imágenes en tiempo real escribiendo palabras clave (acceso gratuito al modelo Flux Schnell)

Descripción general BlinkShot es un generador de imágenes de IA en tiempo real de código abierto que utiliza la tecnología Together AI y Flux Schnell para permitir a los usuarios generar imágenes de alta calidad a medida que introducen indicaciones. La plataforma es completamente gratuita y admite la personalización del usuario y...
hace 10 meses
03.2K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus: herramienta de IA para generar vídeos cortos con un solo clic, mezcla por lotes gratuita

Introducción completa MoneyPrinterPlus es un proyecto de código abierto destinado a generar y mezclar todo tipo de vídeos cortos con un solo clic a través de la tecnología de IA y publicarlos automáticamente en múltiples plataformas de vídeo, como Jieyin, Shutterbugs, Xiaohongshu y Video Number. La herramienta admite modelos de voz locales y basados en la nube,...
hace 11 meses
03.2K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: Generar audiolibros, convertir libros electrónicos en audiolibros con Kokoro

Introducción general Audiblez es un proyecto de código abierto diseñado para convertir libros electrónicos (por ejemplo, en formato .epub) en audiolibros (por ejemplo, en formato .m4b). El proyecto utiliza la tecnología de síntesis de voz de alta calidad de Kokoro para soportar múltiples idiomas y múltiples voces. Los usuarios pueden...
hace 7 meses
03.2K
Novel:模仿Notion AI的开源写作编辑器

Novel: un editor de escritura de código abierto que imita a Notion AI

Introducción integral Este es un proyecto de código abierto desarrollado por Steven Tey llamado Novel, es un editor de texto WYSIWYG estilo Noción , integrado AI función de autocompletado que puede ayudar a los usuarios a mejorar la eficiencia de la entrada de texto . El proyecto proporciona documentación detallada e instrucciones de instalación ...
hace 1 año
03.2K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice: herramienta de clonación de voz multilingüe y sin muestras basada en xtts_v2 para Windows.

Descripción general Clone Voice es una herramienta de clonación de sonido de código abierto que proporciona una interfaz basada en web que permite a los usuarios clonar voces utilizando cualquier sonido o grabación de voz personal. La herramienta es fácil de usar, incluso sin una GPU NVIDIA, y se puede utilizar con una aplicación precompilada...
hace 10 meses
03.2K
EchoMimic:音频驱动人像照片生成说话视频(EchoMimicV2加速版安装包)

EchoMimic: retratos sonoros para generar vídeos parlantes (instalador acelerado de EchoMimicV2)

Introducción general EchoMimic es un proyecto de código abierto diseñado para generar animaciones de retratos realistas controladas por audio. Desarrollado por la división Terminal Technologies de Ant Group, el proyecto utiliza condiciones de puntos marcadores editables para generar vídeos de retratos dinámicos utilizando una combinación de audio y puntos marcadores faciales.EchoMimic...
hace 7 meses
03.2K
KG Gen:从纯文本中自动生成知识图谱的开源工具

KG Gen: herramienta de código abierto para la generación automática de grafos de conocimiento a partir de texto plano

Introducción general KGGen es una herramienta de código abierto desarrollada por el Stanford Trusted Artificial Intelligence Research Laboratory (STAIR Lab), alojada en GitHub, diseñada para generar automáticamente grafos de conocimiento a partir de texto arbitrario. Utiliza algoritmos avanzados de modelado del lenguaje y agrupación para...
hace 6 meses
03.2K
MetaGPT:多智能体协作框架,构建 AI 软件开发团队实现自然语言编程

MetaGPT: un marco de colaboración multiinteligencia para la creación de equipos de desarrollo de software de IA para la programación en lenguaje natural

Introducción exhaustiva MetaGPT es un innovador marco de trabajo para organismos multiinteligencia diseñado para simular el funcionamiento de una empresa de software de IA completa. Creado por geekan (Alexander Wu), el objetivo del proyecto es combinar modelos GPT con diferentes roles en una entidad colaborativa....
hace 5 meses
03.2K
留痕(WeChatMsg):微信聊天记录导出与分析工具

Leave a trace (WeChatMsg): herramientas de análisis y exportación de registros de chat de WeChat

Introducción general WeChatMsg es un proyecto de código abierto ubicado en la plataforma GitHub. La herramienta tiene como objetivo proporcionar a los usuarios de WeChat una manera de extraer y exportar los chats de WeChat en una variedad de documentos (HTML, Word, CSV), y apoyar la generación de chat de visualización de datos informe anual ...
hace 1 año
03.2K
MiniRAG:简化检索增强生成框架,实体图索引召回相关文本块

MiniRAG: Marco de Generación Mejorada de Recuperación Simplificada, Índice de Grafos de Entidades Recupera Bloques de Texto Relevantes

Una introducción exhaustiva MiniRAG es un marco de trabajo de Generación Aumentada de Recuperación (RAG) extremadamente sencillo que pretende permitir un buen rendimiento de la RAG incluso para modelos pequeños mediante la indexación de grafos heterogéneos y la recuperación mejorada por topología ligera. Ha sido desarrollado por el Laboratorio de Ciencia de Datos de la Universidad de Hong Kong (HKUDS) para ...
hace 7 meses
03.2K
MobileAgent:多代理协作的移动设备操作助手

MobileAgent: colaboración multiagente para el asistente de explotación de dispositivos móviles

Introducción general MobileAgent es un potente asistente de operación de dispositivos móviles diseñado para mejorar la eficiencia y la automatización de la operación de dispositivos móviles a través de la colaboración multi-agente y módulos de percepción visual mejorada. Está desarrollado por el equipo de X-PLUG y es compatible con Android y ...
hace 7 meses
03.2K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker: Haz Hablar a las Fotos | Audio Sincronizado con la Boca | Vídeo Sincronizado con la Boca Sintetizado | Gente Digital Gratis

Introducción general SadTalker es una herramienta de código abierto que combina una única foto de retrato estática con un archivo de audio para crear vídeos de avatares parlantes realistas para una amplia gama de escenarios, como mensajes personalizados, contenido educativo y mucho más. Utiliza de forma revolucionaria tecnologías de modelado 3D como ExpNet y PoseVA...
hace 6 meses
03.2K
Dify-WebUI:基于Dify API的桌面智能对话客户端,提供企业级AI对话能力

Dify-WebUI: un cliente de diálogo inteligente de escritorio basado en la API de Dify, que proporciona capacidades de diálogo AI de nivel empresarial.

Introducción general Dify-WebUI es una moderna aplicación de diálogo inteligente de escritorio basada en la API de Dify, diseñada para proporcionar a las empresas potentes capacidades de diálogo AI. La aplicación es compatible con una variedad de colores de temas preestablecidos para satisfacer las necesidades individuales de las empresas, y tiene una función de gestión de base de conocimientos para apoyar...
hace 7 meses
03.2K
YOLOv12:实时图像和视频目标检测的开源工具

YOLOv12: una herramienta de código abierto para la detección de objetivos de imagen y vídeo en tiempo real

Introducción completa YOLOv12 es un proyecto de código abierto desarrollado por el usuario de GitHub sunsmarterjie , centrándose en la tecnología de detección de objetivos en tiempo real . El proyecto se basa en YOLO (You Only Look Once) serie de marcos , la introducción de nota ...
hace 6 meses
03.2K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: herramienta inteligente de código abierto para grabar y resumir reuniones basada en OpenAI Whisper

Introducción general MeetingMind es una aplicación de IA avanzada diseñada para mejorar la eficiencia de la captura y el resumen de las reuniones de negocios. La aplicación integra la tecnología Whisper de OpenAI para una conversión precisa de voz a texto y utiliza IBM Watso...
hace 10 meses
03.2K
Watermark Removal:开源去除图像水印工具,图片去水印恢复原始图像

Eliminación de marca de agua:open source image watermark removal tool, picture watermark recovery original image

Introducción general Watermark Removal es un proyecto de código abierto que utiliza técnicas de aprendizaje automático y aprendizaje profundo para la restauración de imágenes, concretamente para eliminar marcas de agua de imágenes. El proyecto fue desarrollado por Chimzuruoke Okafor y se inspira en Con...
hace 6 meses
03.2K
CrewAI:多角色扮演协作智能框架,简化复杂任务

CrewAI: un marco de inteligencia colaborativa multirol para simplificar tareas complejas

Introducción exhaustiva CrewAI es un marco avanzado diseñado para orquestar la colaboración entre agentes de rol y de IA autónoma. Al facilitar la inteligencia colaborativa, CrewAI permite a los agentes trabajar juntos sin problemas para resolver tareas complejas. Tanto si está creando una plataforma de asistente inteligente, automatizando equipos de atención al cliente o...
hace 8 meses
03.2K
GPT Academic:最佳Arxiv学术论文翻译、纠错与代码解释

GPT Academic: Mejor artículo académico de Arxiv Traducción, corrección de errores e interpretación de códigos

Introducción general GPT Academic es una plataforma interactiva para grandes modelos lingüísticos optimizada para la investigación académica, que proporciona herramientas para interfaces interactivas pragmáticas con grandes modelos lingüísticos como GPT/GLM, optimizadas específicamente para la experiencia de traducción, lectura, pulido y redacción de documentos. Utiliza un diseño modular...
hace 9 meses
03.1K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: kit de herramientas de voz AI para implantación local

Introducción exhaustiva Easy-Voice-Toolkit es un conjunto de herramientas multifuncionales basado en el Open Source Speech Project, que proporciona una amplia gama de herramientas de audio automatizadas para el reconocimiento del habla, la transcripción del habla, la conversión del habla, la creación de conjuntos de datos y el entrenamiento de modelos. Los usuarios pueden utilizar estas herramientas de forma selectiva según sus necesidades...
hace 11 meses
03.1K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: un asistente de diálogo de voz de código abierto y baja latencia para la conversación y la comunicación naturales

Introducción Bailing (Bailing) es un asistente de diálogo por voz de código abierto diseñado para entablar un diálogo natural con los usuarios a través del habla. El proyecto combina tecnologías de reconocimiento del habla (ASR), detección de la actividad de la voz (VAD), modelado amplio del lenguaje (LLM) y síntesis del habla (TTS) para lograr...
hace 7 meses
03.1K
AIGCPanel:开源克隆数字人整合系统,一键部署免费数字人客户端

AIGCPanel: clon de código abierto del sistema de integración digital man, despliegue en un clic del cliente gratuito digital man.

Introducción completa AigcPanel es un sistema de producción humana digital AI de ventanilla única para todos los usuarios, desarrollado con la pila de tecnología electron+vue3+typescript, compatible con la implementación de un solo clic en Windows. El sistema está diseñado para ser fácil de usar como el núcleo, incluso...
hace 7 meses
03.1K
Mahilo:连接不同AI智能体框架实时协作的集成平台

Mahilo: una plataforma integrada para conectar diferentes marcos de inteligencia artificial y colaborar en tiempo real

Introducción general Mahilo es una plataforma de integración multi-inteligencia de código abierto, publicada en GitHub por el desarrollador Jayesh Sharma, diseñada para ayudar a los usuarios a conectar inteligencias de IA de diferentes marcos para apoyar la comunicación en tiempo real, la interacción persona-ordenador y la colaboración inteligente. La ...
hace 5 meses
03.1K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: un modelo de conversión de texto en habla de código abierto para la generación y clonación de habla de alta calidad

Introducción general Llasa-3B es un modelo de conversión de texto a voz (TTS) de código abierto desarrollado por el Laboratorio de Audio de la Universidad de Ciencia y Tecnología de Hong Kong (HKUST Audio). El modelo se basa en la arquitectura Llama 3.2B, que ha sido cuidadosamente ajustada para proporcionar una generación de voz de alta calidad que no sólo soporta múltiples...
hace 6 meses
03.1K
AI Toolkit by Ostris:Stable Diffusion与FLUX.1模型训练工具包

AI Toolkit de Ostris: Difusión estable con FLUX.1 Kit de herramientas de formación de modelos

Introducción general AI Toolkit de Ostris es un conjunto de herramientas de IA de código abierto centrado en el soporte de los modelos Stable Diffusion y FLUX.1 para tareas de entrenamiento y generación de imágenes. El conjunto de herramientas es creado y mantenido por el desarrollador Ostris, tor...
hace 5 meses
03.1K
LogoCreator:开源Logo生成器,使用AI智能生成专业品牌Logo

LogoCreator: generador de logotipos de código abierto que utiliza inteligencia artificial para generar logotipos de marca profesionales.

Introducción general LogoCreator es un generador de logotipos de código abierto basado en el modelo Together AI y Flux, centrado en proporcionar servicios de diseño de logotipos rápidos y profesionales para empresas y particulares. El proyecto es desarrollado y de código abierto por el desarrollador Nutlope en Git...
hace 8 meses
03.1K
SynthLight:对肖像图像进行自然光照渲染(未发布)

SynthLight: reproducción de imágenes de retratos con luz natural (inédito)

Descripción general SynthLight es una herramienta de reiluminación de retratos basada en un modelo de difusión. Aprende a volver a renderizar imágenes faciales sintéticas para conseguir ajustes de efectos de iluminación en fotos de retratos reales. La herramienta utiliza un motor de renderizado físico para generar conjuntos de datos que simulan transformaciones de la iluminación en diferentes condiciones de luz...
hace 7 meses
03.1K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit: Extraiga la compleja estructura del contenido PDF de la herramienta de código abierto

Introducción completa PDF-Extract-Kit es un proyecto de código abierto desarrollado por el equipo OpenDataLab , centrándose en la extracción eficiente de contenido de alta calidad a partir de documentos PDF complejos y diversos . Integra tecnología avanzada de análisis sintáctico de documentos para la detección de diseños, el reconocimiento de fórmulas ...
hace 6 meses
03.1K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: AI Generated PPT, Generación de presentaciones

Introducción completa AiPPT es una herramienta de generación de PPT basada en tecnología de inteligencia artificial, diseñada para ayudar a los usuarios a crear rápidamente presentaciones profesionales. Genera automáticamente diapositivas ricas en contenido y bellamente diseñadas introduciendo temas, cargando archivos o proporcionando URL, etc. Es compatible con gráficos nativos, animaciones y...
hace 6 meses
03.1K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI: herramienta de narración y edición automatizada generada por texto para cine y televisión

Introducción general NarratoAI es una herramienta totalmente automatizada que integra narración de películas y vídeos, edición automatizada, doblaje y generación de subtítulos. Se basa en la tecnología de modelado lingüístico a gran escala (LLM) para generar automáticamente copias y editar automáticamente vídeos con sus correspondientes locuciones y subtítulos, proporcionando a los usuarios un...
hace 11 meses
03.1K
Repomix:打包代码库为一个文本文件以便大模型检索

Repomix: empaquetado de la base de código en un archivo de texto para la recuperación de modelos de gran tamaño.

Introducción general Repomix (antes conocido como Repopack) es una herramienta de código abierto diseñada para empaquetar todo un código base en un único archivo compatible con IA. Esta herramienta permite a los desarrolladores poner fácilmente su código base a disposición de grandes modelos lingüísticos (como Claude, Chat...
hace 7 meses
03.1K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: transforma la letra en un modelo base de una canción completa, compatible con una amplia gama de estilos musicales.

Introducción general YuE es un modelo base de generación de canciones completas de código abierto que se centra en transformar letras de canciones en canciones completas. A diferencia de otros modelos que sólo generan fragmentos cortos de música no vocal, YuE es capaz de generar canciones completas con voz principal y coros de hasta varios minutos de duración. El modelo aborda la generación de música en...
hace 6 meses
03.1K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking: sistema de sincronización labial y edición de vídeo basado en audio

Introducción general VideoReTalking es un sistema innovador que permite al usuario generar vídeos faciales sincronizados con los labios a partir del audio de entrada, produciendo vídeos de salida de alta calidad y sincronizados con los labios incluso con diferentes emociones. El sistema divide este objetivo en tres tareas consecutivas: con expresiones típicas...
hace 8 meses
03.1K
NocoDB:在多种数据库上创建智能表格,开源Airtable替代方案

NocoDB: Creación de tablas inteligentes en múltiples bases de datos, alternativa de código abierto a Airtable

Introducción general NocoDB es una alternativa de código abierto a Airtable diseñada para proporcionar una herramienta de gestión de bases de datos en línea potente y fácil de usar. Con NocoDB, los usuarios pueden crear, leer, actualizar y eliminar fácilmente datos de bases de datos sin escribir código. La plataforma soporta ...
hace 10 meses
03.1K
Marco-o1:基于Qwen2-7B-Instruct微调的开源版OpenAI o1模型,探索开放式推理模型,解决复杂问题

Marco-o1: una versión de código abierto del modelo OpenAI o1 basado en Qwen2-7B-Instruye el ajuste fino para explorar modelos de inferencia abiertos para resolver problemas complejos.

Introducción Marco-o1 es un modelo de razonamiento abierto desarrollado por Alibaba International Digital Commerce Group (AIDC-AI) para resolver problemas complejos del mundo real. El modelo combina el ajuste fino de Chain of Thought (CoT), Monte Carlo Tree Search (MCTS) y estrategias de razonamiento innovadoras....
hace 8 meses
03.1K
OpenAI Codex CLI:OpenAI发布的终端命令行AI编码助手

OpenAI Codex CLI: OpenAI lanza un asistente de programación de IA en línea de comandos de terminal

Introducción general OpenAI Codex CLI es una herramienta de codificación de terminal de código abierto, desarrollada por OpenAI, diseñada para desarrolladores acostumbrados a los terminales. Genera código, edita archivos, ejecuta comandos e integra el control de versiones Git a través de comandos en lenguaje natural.Cod...
hace 4 meses
03.1K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen: plataforma de producción de cursos humanos digitales de código abierto, clonación de vídeos de conferencias humanas digitales de generación PPT con un solo clic

Introducción exhaustiva Easegen es una plataforma de creación de cursos humanos digitales de código abierto que tiene como objetivo mejorar la eficiencia de la producción y gestión de contenidos de enseñanza a través de la tecnología de IA. La plataforma proporciona una solución integral desde la producción de cursos, la gestión de vídeo hasta el interrogatorio inteligente, que permite a los usuarios crear cursos digitales de vídeo explicados por humanos....
hace 10 meses
03.1K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama: aplicación local de chat en tiempo real basada en Nuxt 3 y Ollama

Introducción general ChatOllama es un proyecto de aplicación de chat en línea de código abierto basado en un modelo lingüístico a gran escala (LLM), que admite numerosos modelos lingüísticos y la gestión de la base de conocimientos. Los usuarios pueden utilizar la plataforma para la gestión de modelos ( visualización de listas , descarga , eliminación ) , chatear con los modelos y otras funciones . El proyecto utiliza ...
hace 10 meses
03.1K
PhotoDoodle:文字指令为照片添加艺术涂鸦的AI工具

PhotoDoodle: herramienta de AI para añadir garabatos artísticos a fotos con comandos de texto

Introducción general PhotoDoodle es una herramienta de edición de imágenes de código abierto, desarrollada por ShowLab, centrada en la edición artística de fotos mediante tecnología de inteligencia artificial. Los usuarios pueden añadir un estilo de dibujos animados, efecto 3D, luz a fotos reales con sólo escribir...
hace 5 meses
03.1K
口袋AI:手机中运行的离线AI助手,适配 DeepSeek-R1 (5.37GB)

Pocket AI: un asistente de inteligencia artificial offline que se ejecuta en el teléfono, adaptado para DeepSeek-R1 (5,37 GB)

Introducción general Pocket AI (PocketPal AI versión china) es un potente asistente de IA offline diseñado para permitir a los usuarios hablar con la IA en cualquier momento y lugar. Se basa en Small Language Models (SLMs) y funciona en teléfonos móviles sin conexión a Internet, especialmente adaptado a la experiencia del usuario chino. Boca...
hace 6 meses
03.1K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev (Chat Nio): solución integral de B/C para aplicaciones de agregación de IA con facturación flexible y compatibilidad con el modelo de suscripción.

Introducción general CoAI.Dev (antes Chat Nio) es una plataforma de chat que integra múltiples modelos de IA y soporta streaming distribuido, generación de imágenes, sincronización y compartición de conversaciones entre dispositivos. Implementa un sistema de facturación por suscripción y Token, servicio de tránsito de claves y múltiples...
hace 9 meses
03.1K
OpenUtau:免费的开源歌声合成编辑工具

OpenUtau: herramienta gratuita de edición de síntesis de canciones de código abierto

Introducción general OpenUtau es una plataforma libre de código abierto de síntesis y edición de canciones diseñada para proporcionar a la comunidad UTAU una experiencia de edición moderna. Es el sucesor del software UTAU y resuelve los problemas de compatibilidad y complejidad del software original.OpenUtau soporta Wind...
hace 4 meses
03.1K
DeepChat:支持与多个聊天并发会话的AI对话客户端

DeepChat: cliente de diálogo con inteligencia artificial que admite sesiones simultáneas con múltiples chats.

Introducción general DeepChat es un proyecto de asistente inteligente de código abierto desarrollado por el equipo ThinkInAIXYZ en GitHub. Su objetivo es conectar a los usuarios con el mundo digital a través de una potente tecnología de IA para proporcionar una experiencia de chat eficiente y natural. Es compatible con Win...
hace 5 meses
03.1K
J.A.R.V.I.S.:具有上下文感知的智能代码助手,生成和修改代码,多IDE支持

J.A.R.V.I.S.: Asistente de Código Inteligente Contextualizado, Generación y Modificación de Código, Soporte Multi-IDE

Introducción general J.A.R.V.I.S. (Just A Rather Very Intelligent System) es un asistente de código inteligente diseñado para ayudar a los desarrolladores en la generación, modificación y discusión técnica de código utilizando múltiples modelos de lenguaje de última generación....
hace 7 meses
03.1K
Scira(MiniPerplx):模仿Perplexity的开源项目,集成AI对话、网页搜索、天气查询等功能

Scira (MiniPerplx): proyecto de código abierto que imita a Perplexity, integrando diálogo AI, búsqueda web, consulta meteorológica, etc.

Introducción general MiniPerplx (rebautizado Scira) es un motor de búsqueda minimalista basado en IA que integra una variedad de características útiles para proporcionar a los usuarios una gama completa de servicios de recuperación de información. El proyecto utiliza una moderna pila tecnológica que incluye Next.js, Tailwi...
hace 7 meses
03.1K
Ant Design X:快速构建AI聊天界面的工具包,支持模型集成和数据流管理。

Ant Design X: un conjunto de herramientas para construir rápidamente interfaces de chat de IA con soporte para la integración de modelos y la gestión del flujo de datos.

Introducción Ant Design X es un conjunto de herramientas de código abierto de Ant Group, diseñado para ayudar a los desarrolladores a crear rápidamente interfaces de diálogo basadas en IA. Proporciona un amplio conjunto de componentes y plantillas, soporta la integración de modelos compatibles con los estándares OpenAI, y es adecuado para una variedad de aplicaciones tales como servicio al cliente inteligente, asistentes de IA, y otros...
hace 9 meses
03.1K
UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用

UI-TARS Desktop: aplicación de escritorio de Intelligentsia para controlar ordenadores mediante lenguaje natural

Introducción general UI-TARS Desktop es una aplicación de agente de interfaz gráfica basada en UI-TARS (Visual Language Model) desarrollada por ByteDance. La aplicación permite a los usuarios controlar los ordenadores a través del lenguaje natural para una interacción humano-ordenador más intuitiva y eficiente.UI-TAR...
hace 7 meses
03.1K
Ortlin:与所有OpenAI模型和API交互的Web图形用户界面

Ortlin: una interfaz gráfica web para interactuar con todos los modelos y API de OpenAI.

Introducción general Ortlin es una interfaz gráfica de usuario basada en web diseñada para ayudar a cualquier persona, usuarios técnicos y no técnicos por igual, a interactuar fácilmente con las API de OpenAI y los modelos subyacentes. Es completamente gratuita y de código abierto, lo que permite a los usuarios aprovechar las ventajas de OpenAI sin complicaciones...
hace 10 meses
03.1K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

Conversión de voz basada en recuperación WebUI: un marco para la conversión de voz basada en recuperación | Simulación de voces cantadas en la vida real

WebUI de conversión de voz basado en VITS es un marco de conversión de voz basado en VITS fácil de usar que permite la conversión de voz entre cualquier altavoz, incluyendo covers de canciones y cambios de voz en tiempo real. Tiene bajo ...
hace 10 meses
03.1K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: conversión sin pérdidas de PDF a HTML, manteniendo el formato del texto, adecuado para trabajos académicos y composición de revistas.

Introducción completa pdf2htmlEX es una herramienta de código abierto diseñada para convertir archivos PDF a formato HTML , mediante el análisis del contenido del archivo PDF y el uso de HTML + CSS para restaurar con precisión su efecto visual , el documento PDF se ...
hace 9 meses
03.1K
Goku: 生成画面精细且一致的视频,适合创作包含人物、物体细节的广告视频

Goku: Genera vídeos detallados y coherentes, ideales para crear vídeos publicitarios con personajes y objetos detallados.

Introducción exhaustiva Goku es un modelo federado de generación de imágenes y vídeos basado en técnicas de transformación de flujos y diseñado para alcanzar un rendimiento de nivel industrial. Integra técnicas avanzadas de generación visual de alta calidad, como la recopilación de datos detallados, el diseño de modelos y la formulación de transformaciones de flujo.
hace 6 meses
03.1K
Quantum Swarm:多智能体集群协作框架

Quantum Swarm: un marco para la colaboración multiinteligente en clústeres

Quantum Swarm es un marco de inteligencia artificial de código abierto centrado en el desarrollo y la investigación de inteligencia poblacional AI. El proyecto es mantenido por el equipo de Quarm AI en GitHub y tiene como objetivo proporcionar una plataforma flexible y eficiente para construir y probar sistemas multiinteligencia.Quan...
hace 7 meses
03.1K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。

OpenWebUI-Monitor: Monitoriza las actividades de los usuarios de OpenWebUI, gestiona los límites de uso, soporta el despliegue con un solo clic.

Introducción General OpenWebUI-Monitor es un panel de control para monitorizar las actividades de los usuarios de OpenWebUI y gestionar las cuotas de uso. Te permite establecer eficientemente cuotas de usuario, ver datos de usuario e información visual en tiempo real, soporta despliegue con un clic, y facilita la gestión y monitorización de usuarios....
hace 9 meses
03.1K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk: ¡Genera expresivos vídeos parlantes con una sola imagen de avatar!

DreamTalk Introducción DreamTalk es un marco de generación de cabezas parlantes basado en modelos de difusión y expresión desarrollado conjuntamente por la Universidad Tsinghua, Alibaba Group y la Universidad Huazhong de Ciencia y Tecnología. Consta principalmente de tres partes: una red de reducción de ruido, un experto en labios consciente del estilo y un predictor de...
hace 8 meses
03.1K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, conversión de imágenes a Markdown, modelo visual OCR de alta precisión

Introducción general Zerox es un proyecto de código abierto diseñado para convertir PDF, DOCX, imágenes y otros documentos a formato Markdown a través de modelos visuales. El proyecto ha sido desarrollado por el equipo getomni-ai y proporciona una solución OCR (Reconocimiento Óptico de Caracteres) sencilla y eficiente.
hace 7 meses
03K
Sana:快速生成高分辨率图像,0.6B超小尺寸模型,低配笔记本GPU运行

Sana: generación rápida de imágenes de alta resolución, modelo de tamaño ultrapequeño de 0,6B, funcionamiento con GPU de portátil de bajo perfil

Introducción general Sana es un eficiente marco de generación de imágenes de alta resolución desarrollado por NVIDIA Labs, capaz de generar imágenes de hasta 4096 × 4096 de resolución en cuestión de segundos.Sana emplea un transformador de difusión lineal y tecnología de autocodificación de compresión profunda para...
hace 9 meses
03K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

API de extracción de texto (text-extract-api): extracción visual de información textual, herramienta de extracción anónima de PDF

Introducción general La API de extracción de texto (text-extract-api) es una potente herramienta diseñada para extraer y analizar el contenido de diversos formatos de documento (por ejemplo, PDF, Word, PPTX, etc.). La API utiliza tecnología punta de reconocimiento óptico de caracteres (OCR) y Ol...
hace 7 meses
03K
Agnai Chat:与个性化AI角色互动的开源聊天平台

Agnai Chat: una plataforma de chat de código abierto para interactuar con personajes de IA personalizados

Introducción general Agnai Chat es una plataforma de chat de IA de código abierto que permite a los usuarios crear personajes de IA personalizados para la interacción individual o multijugador. Es compatible con una amplia gama de servicios de IA, incluyendo OpenAI, Claude, Kobold, etc., y es adecuado para el entretenimiento, juegos de rol, educación o...
hace 4 meses
03K
AI Podcast Generator:自动抓取新闻生成音频播客

AI Podcast Generator: Captura automática de noticias para generar podcasts de audio

Introducción general AI Podcast Generator es una herramienta inteligente de generación de podcasts que utiliza tecnología avanzada de IA para crear automáticamente contenidos de audio atractivos a partir de fuentes web. El sistema genera narraciones de flujo natural capturando contenidos de noticias y convirtiéndolos en podcasts de audio. El proyecto se basa en la...
hace 9 meses
03K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: un modelo de lenguaje visual experto para la comprensión multimodal avanzada

Introducción exhaustiva DeepSeek-VL2 es una serie de modelos avanzados de lenguaje visual Mixture-of-Experts (MoE) que mejoran significativamente el rendimiento de su predecesor, DeepSeek-VL. Los modelos son útiles en preguntas y respuestas visuales, reconocimiento óptico de caracteres,...
hace 6 meses
03K
Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器

Text2Video-Zero: Generador de muestras de texto a vídeo cero lanzado por el equipo de investigación de IA de Picsart

Introducción general Text2Video-Zero es una implementación oficial de un generador de texto a vídeo de muestra cero para GitHub desarrollado por el equipo Picsart AI Research.El proyecto proporciona una forma de utilizar pistas de texto para generar texto con consistencia temporal y...
hace 10 meses
03K
PantoMatrix(EMAGE):全身手势生成框架,从音频生成全身手势的3D动画框架

PantoMatrix (EMAGE): marco de generación de gestos de cuerpo entero, marco de animación 3D para generar gestos de cuerpo entero a partir de audio.

综合介绍 PantoMatrix是一个先进的全身手势生成框架,能够从音频和部分手势生成完整的人体动作,包括面部、局部身体、手部和全身动作。该框架利用了最新的多模态数据集和深度学习技术,提供高质量的3D...
hace 9 meses
03K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

AutoAgent: un marco para crear y desplegar rápidamente inteligencias de IA a través del lenguaje natural

Introducción general AutoAgent es un marco de inteligencias de IA de código abierto desarrollado por el Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong (HKUDS) y alojado en GitHub.Permite a los usuarios crear y desplegar rápidamente inteligencias de IA personalizadas describiendo sus requisitos en lenguaje puramente natural, sin ninguna base de programación....
hace 2 meses
03K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: herramienta de animación para generar retratos dinámicos a partir de imágenes fijas y vídeos

Introducción general LivePortrait es una herramienta avanzada de animación dinámica de retratos AI desarrollada por Racer Technology. Utiliza una innovadora tecnología de IA para transformar imágenes fijas en vívidas animaciones de vídeo. Tanto si utiliza fotos reales, estilos de animación o retratos artísticos, LivePo...
hace 9 meses
03K
WrenAI:对话式数据分析AI助手,直接获取答案、SQL查询与分析报表

WrenAI: Asistente conversacional de IA para análisis de datos con acceso directo a respuestas, consultas SQL e informes analíticos

Introducción general WrenAI es un asistente SQL AI de código abierto diseñado específicamente para ayudar a los equipos de datos, equipos de productos y equipos de negocios a obtener información de datos a través de conversaciones en lenguaje natural. Es capaz de convertir el lenguaje natural en consultas SQL, generar gráficos, hojas de cálculo e informes,...
hace 7 meses
03K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: herramienta de conversión de texto a voz multilingüe (compatible con más de 7000 idiomas), rápida y controlable.

Introducción general IMS Toucan es un avanzado kit de herramientas de conversión de texto a voz (TTS) desarrollado por el Instituto de Procesamiento del Lenguaje Natural (IMS) de la Universidad de Stuttgart (Alemania). El kit de herramientas es compatible con más de 7000 idiomas y es rápido, controlable y requiere pocos recursos informáticos.IMS...
hace 6 meses
03K
Linly-Dubbing:智能视频多语言AI配音/翻译工具

Linly-Dubbing: herramienta inteligente de doblaje/traducción multilingüe de vídeo por IA

Introducción Linly-Dubbing es una herramienta inteligente de traducción y doblaje multilingüe diseñada para proporcionar a los usuarios servicios de traducción de subtítulos y doblaje de vídeo multilingüe de alta calidad mediante la integración de tecnología avanzada de IA. La herramienta es especialmente adecuada para la educación internacional, la localización de contenidos globales y otros escenarios, ayudando...
hace 7 meses
03K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: extracción de información estructurada para tablas complejas

El objetivo del reconocimiento de tablas es analizar tablas en imágenes, identificar con precisión las estructuras de las tablas y la ubicación de las celdas, y reducirlas a formatos de tabla estructurados (por ejemplo, HTML). En la actual era de la información, una gran cantidad de datos tabulares importantes sigue existiendo en estado no estructurado (por ejemplo, documentos escaneados con imágenes de tablas estadísticas...).
hace 5 meses
03K
RTranslator:语音实时翻译安卓应用,免费且支持离线使用

RTranslator: una aplicación de traducción de voz en tiempo real para Android, ¡gratis y sin conexión!

Introducción general RTranslator es una aplicación de traducción en tiempo real, prácticamente gratuita y de código abierto diseñada para dispositivos Android. Los usuarios pueden mantener su teléfono en el bolsillo mediante la conexión de un auricular Bluetooth y mantener una conversación con otros como si estuvieran hablando su propio idioma.RTransla...
hace 7 meses
03K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine: Predecir la probabilidad de acontecimientos futuros basándose en el conocimiento de las búsquedas

Introducción general Forecast AI es una magnífica plataforma de predicción basada en tecnología avanzada de inteligencia artificial. Utiliza potentes algoritmos de análisis de datos y aprendizaje automático para proporcionar a los usuarios predicciones muy precisas sobre acontecimientos futuros. Ya se trate de elecciones políticas, tendencias económicas o acontecimientos sociales, Forecast ...
hace 11 meses
03K
PhiData:构建拥有记忆、知识和工具的AI智能体

PhiData: creación de inteligencias artificiales con memoria, conocimientos y herramientas

Introducción general PhiData es un marco de trabajo diseñado para desarrollar asistentes de IA inteligentes. Permite a los asistentes de IA entablar conversaciones a largo plazo, proporcionar un contexto empresarial preciso y realizar diversas operaciones mediante capacidades mejoradas de memoria, integración de conocimientos e invocación de herramientas.PhiData no solo mejora los asistentes de IA....
hace 5 meses
03K
Micro Agent:AI编程智能体,自动生成代码并测试、修复代码

Microagente: inteligencia artificial de programación que genera código automáticamente y lo prueba y corrige.

Introducción general Micro-Agent es un asistente de codificación de IA de código abierto desarrollado por Builder.io, diseñado para proporcionar a los desarrolladores la capacidad de generar y probar código automáticamente. Genera casos de prueba mediante la comprensión de descripciones en lenguaje natural e itera el código hasta que todas las pruebas pasan, reduciendo...
hace 7 meses
03K
Meetily:生成会议纪要的AI助手,实时转录和生成会议摘要

Meetily: un asistente de IA para generar actas de reuniones, transcribir y generar resúmenes de reuniones en tiempo real.

Descripción general Meetily es un asistente de reuniones basado en IA desarrollado por Zackriya Solutions que captura el audio de las reuniones en tiempo real, realiza transcripciones de voz y genera resúmenes de las reuniones. Es único en el sentido de que todo el procesamiento se realiza localmente en el dispositivo, garantizando la privacidad del usuario...
hace 6 meses
03K