Proyecto AI de código abierto

Total 1020 artículos
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Sonic: Las imágenes de retratos con audio generan vídeos de demostración digitales con expresiones faciales vivas

Introducción general Sonic es una innovadora plataforma centrada en la percepción global del audio y diseñada para generar vívidas animaciones de retratos controladas por audio. Desarrollada por un equipo de investigadores de Tencent y la Universidad de Zhejiang, la plataforma utiliza información de audio para controlar las expresiones faciales y los movimientos de la cabeza con el fin de generar vídeos animados naturales y fluidos.S...
hace 7 meses
027.7K
Orion:小米开源的端到端自动驾驶推理与规划框架

Orion: marco de código abierto para la inferencia y planificación de la conducción autónoma de Xiaomi

Introducción Orion es un proyecto de código abierto desarrollado por Xiaomi Labs, centrado en la tecnología de conducción autónoma de extremo a extremo (E2E). Resuelve el problema del insuficiente razonamiento causal en escenarios complejos por parte de los métodos tradicionales de conducción autónoma mediante modelos de lenguaje visual (VLM) y planificadores generativos.Orion integra largas...
hace 6 meses
027.6K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: un modelo de código abierto para la detección visual de objetos en tiempo real

Introducción general RF-DETR es un modelo de detección de objetos de código abierto desarrollado por el equipo Roboflow. Se basa en la arquitectura Transformer y su característica principal es la eficiencia en tiempo real. Por primera vez, el modelo alcanza más de 60 AP de tiempo real en el conjunto de datos COCO de Microsoft....
hace 7 meses
027.6K
Qwen-Agent:基于Qwen的智能代理应用框架,包括工具调用、代码解释器、RAG和Chrome扩展。

Qwen-Agent: un marco basado en Qwen para aplicaciones de agentes inteligentes, que incluye llamadas a herramientas, intérpretes de código, RAG y extensiones de Chrome.

Introducción completa Qwen-Agent es un marco de aplicación de agente inteligente desarrollado sobre la base de Qwen 2.0 y superiores, con capacidades tales como seguimiento de comandos, uso de herramientas, planificación y memoria. El marco proporciona una variedad de aplicaciones de ejemplo como asistentes de navegador, intérpretes de código y asistentes personalizados....
hace 10 meses
027.5K
KG Gen:从纯文本中自动生成知识图谱的开源工具

KG Gen: herramienta de código abierto para la generación automática de grafos de conocimiento a partir de texto plano

Introducción general KGGen es una herramienta de código abierto desarrollada por el Stanford Trusted Artificial Intelligence Research Laboratory (STAIR Lab), alojada en GitHub, diseñada para generar automáticamente grafos de conocimiento a partir de texto arbitrario. Utiliza algoritmos avanzados de modelado del lenguaje y agrupación para...
hace 8 meses
027.5K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: generación dinámica y escalable de texto a vídeo largo

Introducción integral StreamingT2V es un proyecto público desarrollado por el equipo de investigación en IA de Picsart centrado en generar vídeos largos coherentes, dinámicos y escalables basados en descripciones textuales. Esta tecnología utiliza un enfoque autorregresivo avanzado que garantiza la coherencia temporal del vídeo con el texto descriptivo estrechamente...
hace 11 meses
027.5K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow: un marco minimalista para el desarrollo de aplicaciones de inteligencia artificial en 100 líneas de código

Introducción completa PocketFlow es un marco de desarrollo de aplicaciones de IA ligero con sólo 100 líneas de código, desarrollado por el equipo de The-Pocket y de código abierto en GitHub. Persigue un diseño minimalista , el núcleo de control de código en 100 líneas , sin dependencias externas ...
hace 7 meses
027.5K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: proyecto de código abierto que proporciona una capa de memoria inteligente para asistentes y agentes de inteligencia artificial.

Introducción general Mem0 (pronunciado "mem-zero") es un proyecto de código abierto que proporciona una capa de memoria inteligente para asistentes y agentes de IA. Recuerda las preferencias del usuario, se adapta a las necesidades individuales y mejora con el tiempo, por lo que es ideal para chatbots asistidos por el cliente, asistentes de IA y sistemas autónomos....
hace 1 año
027.5K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: análisis sintáctico de documentos de formato complejo y extracción de datos multimodales en metadatos y texto

Introducción completa NV Ingest (NVIDIA Ingest) es un conjunto de microservicios de acceso temprano diseñados para analizar cientos de miles de PDF complejos y desordenados sin estructurar y otros documentos empresariales. Puede convertir estos documentos en metadatos y texto para incrustarlos en...
hace 9 meses
027.4K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot: generación de imágenes en tiempo real escribiendo palabras clave (acceso gratuito al modelo Flux Schnell)

Descripción general BlinkShot es un generador de imágenes de IA en tiempo real de código abierto que utiliza la tecnología Together AI y Flux Schnell para permitir a los usuarios generar imágenes de alta calidad a medida que introducen indicaciones. La plataforma es completamente gratuita y admite la personalización del usuario y...
hace 1 año
027.4K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary: un proyecto de código abierto para mejorar la memoria a largo plazo del Agente mediante grafos de conocimiento

Introducción general Memary es un innovador proyecto de código abierto centrado en proporcionar soluciones de gestión de memoria a largo plazo para inteligencias autónomas. El proyecto ayuda a las inteligencias a superar las limitaciones de las ventanas contextuales tradicionales para lograr experiencias de interacción más inteligentes mediante grafos de conocimiento y módulos de memoria especializados.Memary adopta...
hace 9 meses
027.4K
InstantIR:受损图像修复与图像高清放大开源项目,最低16G显存

InstantIR: proyecto de código abierto de reparación de imágenes dañadas y zoom de alta definición, mínimo 16G de memoria de vídeo

Descripción general InstantIR es un innovador modelo de restauración de una sola imagen desarrollado por el equipo de InstantX, diseñado para resucitar sus imágenes dañadas con detalles de gran calidad y realismo, capaz de realizar una restauración de alta calidad de imágenes dañadas. La herramienta no sólo restaura los detalles de la imagen...
hace 11 meses
027.4K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: un marco de interacción multimodal por voz que reconoce el habla y se comunica mediante habla clonada, entre otras funciones.

Introducción completa Step-Audio es un marco de interacción del habla inteligente de código abierto diseñado para proporcionar capacidades de comprensión y generación del habla listas para usar en entornos de producción. El marco admite conversaciones en varios idiomas (por ejemplo, chino, inglés, japonés), habla emocional (por ejemplo, feliz, triste), dialectos regionales (por ejemplo, cantonés, szechuan ...
hace 8 meses
027.4K
Open Deep Research:LangChain开源的深度研究智能助手

Open Deep Research: el asistente inteligente de código abierto de LangChain para la investigación profunda

Introducción exhaustiva Open Deep Research es un asistente de investigación basado en web capaz de generar informes de investigación exhaustivos sobre cualquier tema. El sistema utiliza un flujo de trabajo de "planificar y hacer" que permite a los usuarios planificar y revisar la estructura del informe antes de pasar a la fase de investigación, que lleva mucho tiempo...
hace 6 meses
027.4K
Midjourney Proxy:代理/逆向Midjourney Discord频道,实现AI绘图API调用(免费测试)

Midjourney Proxy: proxy/reversión del canal Midjourney Discord para llamadas a la API de mapeo de IA (prueba gratuita).

Introducción completa Midjourney Proxy es un proyecto de código abierto diseñado para proporcionar servicios de proxy para el canal Discord de Midjourney, convirtiendo las funciones de dibujo AI en forma de API. El proyecto es completamente gratuito y de código abierto , soporte para el intercambio de caras con un solo clic , mezcla de imágenes , nacimiento de gráficos ...
hace 10 meses
027.4K
YuE:将歌词转化为完整歌曲的基础模型,支持多种音乐风格

YuE: transforma la letra en un modelo base de una canción completa, compatible con una amplia gama de estilos musicales.

Introducción general YuE es un modelo base de generación de canciones completas de código abierto que se centra en transformar letras de canciones en canciones completas. A diferencia de otros modelos que sólo generan fragmentos cortos de música no vocal, YuE es capaz de generar canciones completas con voz principal y coros de hasta varios minutos de duración. El modelo aborda la generación de música en...
hace 9 meses
027.3K
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: modelo AI dedicado al reconocimiento OCR, PDF a Markdown (código abierto/API)

Introducción completa Datalab ofrece una gama de modelos avanzados de IA centrados en OCR, análisis de diseño, conversión de PDF a Markdown y mucho más. Estos modelos no sólo son de alto rendimiento, sino también fáciles de usar y de código abierto. Los modelos Marker de la plataforma pueden...
hace 11 meses
027.3K
wechat-article-exporter:一键部署微信公众号文章批量导出工具

wechat-article-exporter: implementación con un solo clic de la herramienta de exportación de artículos por lotes de números públicos de wechat

Introducción completa wechat-article-exporter es una herramienta de código abierto diseñada para ayudar a los usuarios a exportar por lotes artículos WeChat número público. La herramienta es compatible con la exportación de audio y vídeo incrustado en el artículo sin la construcción de cualquier entorno , puede 100% restaurar el estilo del artículo , y el apoyo a la parte privada ...
hace 12 meses
027.2K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

Auto-Deep-Research: colaboración multiagente para realizar búsquedas bibliográficas y generar informes de investigación

Introducción general Auto-Deep-Research es una herramienta de IA de código abierto desarrollada por el Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong (HKUDS), cuyo objetivo es ayudar a los usuarios a automatizar tareas de investigación en profundidad. Se basa en el marco AutoAgent y admite múltiples modelos lingüísticos de gran tamaño...
hace 6 meses
027.2K
RMBG-2-Studio:批量移除图像和视频背景的开源程序,基于RMBG 2.0优化

RMBG-2-Studio: programa de código abierto para la eliminación por lotes de fondos de imágenes y vídeos, optimizado para RMBG 2.0

Introducción general RMBG-2-Studio es una aplicación mejorada de eliminación y sustitución de fondos desarrollada sobre la base del modelo BRIA-RMBG-2.0. La aplicación está diseñada para proporcionar a los usuarios capacidades de procesamiento de fondo de imagen eficientes y precisas para una variedad de tipos de imágenes, incluyendo comercio electrónico, juegos y...
hace 10 meses
027.2K
ChatGPT-on-WeChat:基于大模型构建的智能对话机器人,支持微信等多对话平台接入

ChatGPT-on-WeChat: un robot de diálogo inteligente construido a partir de un modelo de gran tamaño, compatible con WeChat y otras plataformas de acceso multidiálogo.

Introducción general El proyecto ChatGPT-on-WeChat es un gran robot de diálogo inteligente basado en modelos, que admite el acceso multiplataforma a WeChat personal, número público de WeChat, aplicación WeChat empresarial, Flybook, Nail, etc. Los usuarios pueden elegir GPT3.5, GPT-4, Claude, Man...
hace 10 meses
027.2K
Llasa 1~8B:高品质语音生成和克隆的开源文本转语音模型

Llasa 1~8B: un modelo de conversión de texto en habla de código abierto para la generación y clonación de habla de alta calidad

Introducción general Llasa-3B es un modelo de conversión de texto a voz (TTS) de código abierto desarrollado por el Laboratorio de Audio de la Universidad de Ciencia y Tecnología de Hong Kong (HKUST Audio). El modelo se basa en la arquitectura Llama 3.2B, que ha sido cuidadosamente ajustada para proporcionar una generación de voz de alta calidad que no sólo soporta múltiples...
hace 8 meses
027.1K
LangBot:开源大模型即时通信机器人,支持多微信、QQ、飞书等多平台部署AI机器人

LangBot: robot de mensajería instantánea de código abierto de modelo grande, compatible con múltiples WeChat, QQ, Flybook y otros despliegues multiplataforma de robots de IA.

LangBot es una plataforma bot de mensajería instantánea basada en modelos de gran tamaño que admite múltiples plataformas de mensajería y modelos de gran tamaño. La plataforma se adapta a QQ, WeChat (WeChat empresarial, WeChat personal), Flybook, Discord, OneBot y otras plataformas de mensajería, y es compatible con Open...
hace 8 meses
027.1K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具

Hunyuan3D-2: herramienta de código abierto de Tencent para la generación de modelos 3D de alta resolución

Introducción general Hunyuan3D-2 es un proyecto de código abierto desarrollado por Tencent para generar modelos 3D de alta resolución a partir de texto o imágenes. Consta de dos componentes principales: modelo de generación de formas (Hunyuan3D-DiT) y modelo de generación de texturas (Hunyuan3D...
hace 7 meses
027.1K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: un modelo de generación de voz que imita la voz de una persona real hablando (paquete de aceleración ChatTTS one-click)

Introducción general ChatTTS es un modelo generativo del habla diseñado para escenarios de diálogo. Genera un habla natural y expresiva, admite varios idiomas y varios hablantes, y es adecuado para diálogos interactivos. Para ello, el modelo predice y controla con precisión características rítmicas como la risa, las pausas y las interjecciones,...
hace 8 meses
027.1K
n8n自托管AI入门套件:快速搭建本地AI环境的开源模板

n8n Self-hosted AI Starter Kit: una plantilla de código abierto para crear rápidamente un entorno local de IA

Introducción completa El n8n Self-Hosted AI Starter Kit es una plantilla Docker Compose de código abierto diseñada para inicializar rápidamente una IA local completa y un entorno de desarrollo de código bajo. Creado por el equipo de n8n, el paquete combina la plataforma autoalojada n8n con una gama de...
hace 8 meses
027.1K
AutoGen:微软开发的多智能体对话框架

AutoGen: un marco de diálogo corporal multiinteligente desarrollado por Microsoft

Introducción general AutoGen es un marco de código abierto desarrollado por un equipo de investigadores de Microsoft centrado en simplificar la creación de grandes aplicaciones de modelos de lenguaje (LLM) mediante el diálogo entre cuerpos multiinteligentes. Permite a los desarrolladores crear agentes de IA que pueden dialogar entre sí y colaborar para resolver tareas. Este enfoque no sólo mejora el rendimiento de los LLM...
hace 9 meses
027.1K
AI reads books:AI逐页阅读PDF书籍,自动提取知识要点并生成总结

La IA lee libros: la IA lee libros en PDF página por página, extrae automáticamente los puntos clave del conocimiento y genera resúmenes.

Introducción completa AI-reads-books-page-by-page es un desarrollo basado en Python de la herramienta inteligente de análisis de libros PDF, que puede automatizar el análisis página por página de libros PDF, extraer los puntos clave de conocimiento, y después del intervalo de página especificado para generar etapa...
hace 9 meses
027.1K
AutoAgent:通过自然语言快速创建并部署AI智能体的框架

AutoAgent: un marco para crear y desplegar rápidamente inteligencias de IA a través del lenguaje natural

Introducción general AutoAgent es un marco de inteligencias de IA de código abierto desarrollado por el Laboratorio de Inteligencia de Datos de la Universidad de Hong Kong (HKUDS) y alojado en GitHub.Permite a los usuarios crear y desplegar rápidamente inteligencias de IA personalizadas describiendo sus requisitos en lenguaje puramente natural, sin ninguna base de programación....
hace 4 meses
027K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: herramienta inteligente de procesamiento de información web, API gratuita para la captura de contenidos web

WebPilot Introducción general Webpilot es un "asistente web" gratuito y de código abierto que le permite comunicarse libremente con cualquier página web o realizar tareas automatizadas. No es necesario cambiar de página o copiar y pegar, basta con seleccionar texto o introducir comandos, webpilot...
hace 1 año
027K
Dia:生成超现实多人对话的文本转语音模型

Dia: un modelo texto-voz para generar diálogos multijugador hiperrealistas

Introducción general Dia es un modelo de texto a voz (TTS) de código abierto desarrollado por Nari Labs y centrado en la generación de audio de diálogo hiperrealista. Transforma guiones de texto en diálogos realistas de varios caracteres en un solo proceso, admite el control de emociones y entonación, e incluso genera representaciones no verbales....
hace 6 meses
026.9K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

Diffusers Image Outpaint: herramienta de extensión de imagen AI de código abierto súper potente, image outpainting (pintado de imágenes)

Introducción general Diffusers Image Outpaint es una potente herramienta de expansión de imágenes AI creada por fffiloni, miembro de la comunidad Hugging Face. La herramienta utiliza técnicas avanzadas de modelado de difusión para...
hace 1 año
026.9K
OpenWebUI-Monitor:监控OpenWebUI用户活动,管理使用限额,支持一键部署。

OpenWebUI-Monitor: Monitoriza las actividades de los usuarios de OpenWebUI, gestiona los límites de uso, soporta el despliegue con un solo clic.

Introducción General OpenWebUI-Monitor es un panel de control para monitorizar las actividades de los usuarios de OpenWebUI y gestionar las cuotas de uso. Te permite establecer eficientemente cuotas de usuario, ver datos de usuario e información visual en tiempo real, soporta despliegue con un clic, y facilita la gestión y monitorización de usuarios....
hace 11 meses
026.9K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS: revolucionarias herramientas de generación y clonación de voz

Introducción general GPT-SoVITS es una herramienta de conversión y síntesis de voz de código abierto que combina el modelo GPT y la tecnología de cambio de voz SoVITS. La herramienta admite la conversión de texto a voz sobre la marcha con cero y pocas muestras, y la migración de estilo de voz con sólo 5 segundos de muestras de audio. Entre sus funciones se incluyen la ...
hace 1 año
026.9K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: generación de efectos sonoros sincronizados y bandas sonoras para secuencias de vídeo, herramienta de coformación multimodal vídeo-audio.

Introducción general MMAudio es un proyecto de código abierto cuyo objetivo es generar audio sincronizado de alta calidad mediante el entrenamiento multimodal conjunto. Desarrollado por Ho Kei Cheng et al. en la Universidad China de Hong Kong, la función principal del proyecto es generar audio sincronizado a partir de la entrada de vídeo y/o texto.MM...
hace 10 meses
026.9K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: herramienta de conversión de voz en subtítulos, cliente ligero con interfaces integradas para Cutscene, Racer y Must-Cut.

Introducción completa AsrTools es una herramienta inteligente de voz a texto con interfaces incorporadas de grandes jugadores como Cutscene, QuickScope y MustScope, que soporta procesamiento por lotes multihilo eficiente sin necesidad de GPU o configuraciones tediosas. Se basa en el desarrollo PyQt5, interfaz hermosa y fácil de usar, capaz de salida SRT y TXT palabras de formato ...
hace 1 año
026.8K
Tabby:可集成到 VSCode 的本地自托管AI编程助手

Tabby: un asistente nativo de programación de inteligencia artificial que se integra en VSCode

Introducción general Tabby es un asistente de programación de IA de código abierto desarrollado por el equipo TabbyML que los usuarios pueden desplegar ellos mismos localmente o en un servidor. Ofrece funciones similares a GitHub Copilot, como el autocompletado de código y las preguntas y respuestas...
hace 6 meses
026.8K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现

Agent.exe: Permite que la IA controle directamente tu ordenador, una implementación de código abierto del ordenador de control de Claude.

Introducción general Agent.exe es una aplicación Electron de código abierto que utiliza la API Sonnet Claude 3.5 de Anthropic para permitir a los usuarios controlar su ordenador local directamente a través de la IA. El proyecto fue desarrollado por K...
hace 10 meses
026.8K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

Deep Live Cam: herramienta de código abierto para el intercambio de rostros en tiempo real con IA, una foto para el intercambio de rostros en tiempo real

Introducción general Deep Live Cam es una herramienta de inteligencia artificial de código abierto diseñada para permitir la sustitución de caras en tiempo real y la generación de vídeos falsos a partir de una sola foto. Utilizando algoritmos avanzados de aprendizaje profundo, la herramienta es capaz de reemplazar caras en tiempo real durante transmisiones en directo o videollamadas, protegiendo la privacidad del usuario y añadiendo diversión...
hace 11 meses
026.8K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: una API unificada para integrar la generación de voz bien conocida, la transcripción de voz y el modelado de voz

Introducción general Orate es un conjunto de herramientas de IA centrado en la generación y transcripción de voz. Proporciona una API unificada que se integra a la perfección con los principales proveedores de IA, como OpenAI, ElevenLabs y AssemblyAI, para ayudar a...
hace 8 meses
026.7K
DUIX:实时互动的智能数字人,支持多平台一键部署

DUIX: personas digitales inteligentes e interactivas en tiempo real con soporte de despliegue multiplataforma con un solo clic

Introducción general DUIX (Dialogue User Interface System) es una plataforma digital de interacción humana potenciada por IA creada por Silicon Intelligence. Con capacidades de interacción humana digital de código abierto, los desarrolladores pueden integrar fácilmente modelos a gran escala, reconocimiento automático del habla (ASR...
hace 9 meses
026.7K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror: despliegue en un clic de sitios espejo Grok rentables

Introducción completa Grok-Mirror es una estación de espejo doméstica Grok3 de despliegue rápido sin servidor basada en la construcción de una estación de espejo Grok operable. Permite a los usuarios implementar quioscos Grok locales con un solo clic a través de Docker.Grok es una inteligencia artificial de xAI...
hace 7 meses
026.7K
AI RSS生成器:通过AI将网页内容转换为RSS订阅源的工具

AI RSS Generator: una herramienta para convertir contenidos web en canales RSS mediante IA

Introducción general AI RSS es una herramienta innovadora para convertir contenidos web en fuentes RSS mediante tecnología de IA. Consta de dos partes principales: un complemento del navegador y un servidor. El complemento del navegador permite a los usuarios seleccionar listas de páginas web y generar archivos de descripción de datos estructurados (SDD)...
hace 9 meses
026.7K
ChatFree(ChatAnywhere-2):使用GPT API创建的本地Copilot,支持任意窗口中补全对话

ChatFree (ChatAnywhere-2): Copiloto nativo creado utilizando la API GPT, con soporte para diálogos complementarios en cualquier ventana.

Introducción general ChatFree es un proyecto de código abierto que pretende liberar las aplicaciones de IA de los usuarios de las limitaciones de los navegadores para que se ejecuten localmente. Creado utilizando la API GPT, Copilot está diseñado para soportar una amplia gama de software ofimático como Office, Word, WPS, etc. El proyecto fue desarrollado por ...
hace 10 meses
026.7K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify: la clásica herramienta de código abierto para colorear fotos y vídeos en blanco y negro mediante técnicas de IA

Introducción exhaustiva DeOldify es un proyecto de código abierto basado en tecnología de aprendizaje profundo dedicado a la coloración y restauración inteligente de fotos y vídeos en blanco y negro. El proyecto utiliza un innovador método de entrenamiento NoGAN para resolver con éxito los defectos comunes de las redes GAN tradicionales en el proceso de coloreado de imágenes....
hace 10 meses
026.7K
Refly:基于自由画布上流程编排的AI写作平台,自动化生成文章

Refly: una plataforma de redacción basada en IA que orquesta procesos sobre un lienzo libre para la generación automatizada de artículos.

Introducción completa Refly es un motor de creación nativo de IA basado en canvas gratuito diseñado para ayudar a los usuarios a convertir ideas en contenido de alta calidad a través del diálogo multihilo, la integración de la base de conocimientos, la memoria contextual y la tecnología de búsqueda inteligente. La plataforma cubre más de 20 plantillas de escenarios profesionales, incluyendo...
hace 8 meses
026.7K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

No estructurados: preprocesamiento de documentos no estructurados de código abierto, herramientas de tratamiento de datos no estructurados

Introducción completa Unstructured-IO proporciona un conjunto de componentes de código abierto para el procesamiento y preprocesamiento de imágenes y documentos de texto como PDF, HTML, documentos de Word, etc. Su principal objetivo es simplificar y optimizar los flujos de trabajo de procesamiento de datos, especialmente para grandes modelos de lenguaje (LL...
hace 1 año
026.6K
tldraw:开源无限画布白板SDK,AI生成简约线框图和UML图

tldraw: SDK de código abierto para pizarras de lienzo ilimitadas, AI para generar wireframes minimalistas y diagramas UML.

Descripción general tldraw es una herramienta de dibujo colaborativo gratuita e instantánea que proporciona un lienzo ilimitado donde los usuarios pueden dibujar gráficos rápidamente, escribir texto y colaborar al instante. Con una interfaz intuitiva y un rendimiento excelente, es adecuada para la colaboración en equipo y el trabajo remoto. Apoyado por la comunidad de código abierto, tldr...
hace 11 meses
026.6K
RD-Agent:自动化数据驱动研发工具,通过AI技术推动以数据为导向的研发过程

RD-Agent: una herramienta automatizada de I+D basada en datos que facilita los procesos de I+D basados en datos mediante tecnología de IA.

Introducción general RD-Agent es una herramienta de código abierto de Microsoft diseñada para automatizar y optimizar el proceso de investigación y desarrollo (I+D). La herramienta se centra en escenarios basados en datos para mejorar la eficacia del desarrollo de modelos y datos mediante técnicas de inteligencia artificial.RD-Agent integra la investigación...
hace 7 meses
026.6K
HippoRAG:基于长时记忆的多跳知识检索框架

HippoRAG: un marco de recuperación de conocimientos multisalto basado en la memoria a largo plazo

Introducción general HippoRAG es un marco de código abierto desarrollado por el grupo OSU-NLP de la Ohio State University, inspirado en los mecanismos de la memoria humana a largo plazo. Combina técnicas de Retrieval Augmented Generation (RAG), Knowledge Graph y Personalised PageRank para ayudar a los grandes modelos lingüísticos...
hace 7 meses
026.5K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: proyecto de código abierto que permite a la IA manejar ordenadores a distancia y controlarlos mediante lenguaje natural

Introducción general NeoAI es una innovadora herramienta de código abierto AI asistente que permite a los usuarios controlar y gestionar fácilmente sus ordenadores a través del diálogo en lenguaje natural. Sin escribir ningún código, los usuarios pueden hacer la búsqueda de archivos, automatización de tareas, gestión de dispositivos y mucho más con sólo el diálogo diario.NeoAI...
hace 9 meses
026.5K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: un modelo de lenguaje visual experto para la comprensión multimodal avanzada

Introducción exhaustiva DeepSeek-VL2 es una serie de modelos avanzados de lenguaje visual Mixture-of-Experts (MoE) que mejoran significativamente el rendimiento de su predecesor, DeepSeek-VL. Los modelos son útiles en preguntas y respuestas visuales, reconocimiento óptico de caracteres,...
hace 8 meses
026.5K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Aprendizaje por refuerzo de bajo coste para la capacidad de generalización de modelos de lenguaje visual

Introducción exhaustiva R1-V es un proyecto de código abierto cuyo objetivo es lograr avances en el modelado del lenguaje visual (VLM) mediante el aprendizaje por refuerzo (RL) de bajo coste. El proyecto utiliza mecanismos de recompensa verificables para motivar a los VLM a aprender habilidades genéricas de conteo. Sorprendentemente, R1-V's 2B ...
hace 8 meses
026.4K
PDF Craft:PDF扫描文件转Markdown的开源工具

PDF Craft: herramientas de código abierto para convertir documentos PDF escaneados a Markdown

Introducción general PDF Craft es una herramienta de código abierto diseñada para escanear PDF de libros y convertirlos al formato Markdown. Fue desarrollado por oomol-lab y está alojado en GitHub para los usuarios que les gusta organizar sus libros electrónicos. La herramienta funciona a través de este ...
hace 7 meses
026.4K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing: un asistente de diálogo de voz de código abierto y baja latencia para la conversación y la comunicación naturales

Introducción Bailing (Bailing) es un asistente de diálogo por voz de código abierto diseñado para entablar un diálogo natural con los usuarios a través del habla. El proyecto combina tecnologías de reconocimiento del habla (ASR), detección de la actividad de la voz (VAD), modelado amplio del lenguaje (LLM) y síntesis del habla (TTS) para lograr...
hace 9 meses
026.4K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Creación de vídeos narrados breves o resúmenes de vídeos largos en un solo clic mediante modelos Gemini

Introducción general AI2SRT es un proyecto de código abierto que utiliza el gran modelo GeminiAI para generar vídeos narrados cortos y resúmenes de vídeo para vídeos largos con un solo clic, a la vez que admite subtítulos de transcripción de audio y vídeo. El proyecto pretende simplificar el proceso de creación de contenidos de vídeo y proporcionar funciones eficaces de generación y traducción de subtítulos. Los usuarios pueden pasar...
hace 10 meses
026.4K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AI Hedge Fund: sistema de negociación automatizado de código abierto que utiliza inteligencias múltiples para tomar decisiones complejas de negociación en fondos de cobertura.

Introducción general AI Hedge Fund es un fondo de cobertura de inteligencia artificial que utiliza un sistema multiagente para tomar decisiones comerciales. El sistema trabaja en colaboración con varios agentes especializados, como agentes de datos de mercado, agentes cuantitativos, agentes de gestión de riesgos y agentes de gestión de carteras, para...
hace 9 meses
026.4K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: AI Generated PPT, Generación de presentaciones

Introducción completa AiPPT es una herramienta de generación de PPT basada en tecnología de inteligencia artificial, diseñada para ayudar a los usuarios a crear rápidamente presentaciones profesionales. Genera automáticamente diapositivas ricas en contenido y bellamente diseñadas introduciendo temas, cargando archivos o proporcionando URL, etc. Es compatible con gráficos nativos, animaciones y...
hace 8 meses
026.3K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: Sistema de preguntas y respuestas de base de conocimientos local con flujo de procesamiento RAG altamente integrado

QAnything Introducción Completa QAnything (Question and Answer based on Anything) es un sistema de preguntas y respuestas de base de conocimiento local lanzado por NetEase, que admite todo tipo de formatos de archivo y bases de datos, y se puede instalar sin conexión para utilizar...
hace 1 año
026.3K
YOLOE:实时视频检测和分割物体的开源工具

YOLOE: una herramienta de código abierto para la detección de vídeo en tiempo real y la segmentación de objetos

YOLOE es un proyecto de código abierto desarrollado por el Grupo de Inteligencia Multimedia (THU-MIG) de la Escuela de Software de la Universidad de Tsinghua, cuyo nombre completo es "You Only Look Once Eye". Está basado en el framework PyTorch , pertenece a la serie de extensiones YOLO ...
hace 6 meses
026.3K
Audiblez:生成有声书,使用Kokoro将电子书转换为有声读物

Audiblez: Generar audiolibros, convertir libros electrónicos en audiolibros con Kokoro

Introducción general Audiblez es un proyecto de código abierto diseñado para convertir libros electrónicos (por ejemplo, en formato .epub) en audiolibros (por ejemplo, en formato .m4b). El proyecto utiliza la tecnología de síntesis de voz de alta calidad de Kokoro para soportar múltiples idiomas y múltiples voces. Los usuarios pueden...
hace 9 meses
026.3K
sensitive-word:敏感词过滤工具,高效DFA算法实现

sensitive-word: herramienta de filtrado de palabras sensibles, aplicación eficaz del algoritmo DFA

Introducción completa Sensitive Word Filtering Tool (Sensitive Word) es una herramienta Java de alto rendimiento para el filtrado de palabras sensibles basada en la implementación del marco del algoritmo DFA . La herramienta es capaz de detectar y filtrar eficientemente palabras sensibles , soporta una variedad de conversión de formatos y estrategias de reemplazo personalizadas. Su objetivo de diseño es proporcionar ...
hace 1 año
026.2K
FinGPT:开源金融大语言模型平台,助力金融分析与预测

FinGPT: Plataforma de código abierto de modelización de grandes lenguajes financieros para análisis y predicción financiera

Introducción general FinGPT es una plataforma de modelización de gran lenguaje financiero de código abierto desarrollada por la AI4Finance Foundation, diseñada para que el sector financiero resuelva tareas financieras complejas e impulse la innovación en fintech.FinGPT utiliza técnicas de adaptación ligera y enfoques de aprendizaje de refuerzo....
hace 9 meses
026.2K
MegaTTS3:合成中英文语音的轻量模型

MegaTTS3: un modelo ligero para sintetizar el habla china e inglesa

Introducción general MegaTTS3 es una herramienta de síntesis de voz de código abierto desarrollada por ByteDance en colaboración con la Universidad de Zhejiang, centrada en la generación de voz china e inglesa de alta calidad. Su modelo central tiene sólo 0,45 B de parámetros, es ligero y eficiente, admite la generación de habla mixta china e inglesa y la clonación del habla. El proyecto está alojado en ...
hace 7 meses
026.2K
Agent Inbox:与AI智能体进行人机交互的管理界面

Agent Inbox: una interfaz de gestión para la interacción persona-ordenador con inteligencias IA

Introducción general Agent Inbox es un proyecto de código abierto desarrollado por el equipo LangChain para proporcionar una nueva experiencia de usuario para interactuar con inteligencias AI. El proyecto permite a los usuarios gestionar y optimizar las interacciones con múltiples inteligencias IA a través de una interfaz centralizada.Ag...
hace 9 meses
026.1K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use: creación de herramientas inteligentes de automatización web para que las inteligencias artificiales manejen fácilmente los navegadores

Introducción exhaustiva Browser-Use es una innovadora herramienta de automatización web de código abierto diseñada específicamente para permitir que los modelos lingüísticos (LLM) interactúen de forma natural con los sitios web. Proporciona un marco potente y flexible que admite una amplia gama de modelos lingüísticos convencionales, como GPT-4, Claud...
hace 10 meses
026.1K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose: inteligencias de programación escalables de código abierto que automatizan tareas de programación de procesos completos.

Introducción general Goose es una herramienta de agente de IA de código abierto desarrollada por Block, Inc. diseñada para ayudar a los desarrolladores a automatizar las tareas de desarrollo cotidianas. Es compatible con una amplia gama de modelos de lenguaje de gran tamaño (LLM) e interactúa con los usuarios a través de la línea de comandos o interfaces de aplicaciones de escritorio.Goose puede realizar una amplia gama de tareas de agente...
hace 8 meses
026.1K
Linly-Talker:数字人智能对话系统,结合大语言模型与视觉模型,实现互动新体验

Linly-Talker: sistema de diálogo inteligente para personas digitales que combina grandes modelos lingüísticos y modelos visuales para nuevas experiencias interactivas.

Introducción general Linly-Talker es un innovador sistema digital de diálogo humano que combina grandes modelos lingüísticos (LLM) con modelos visuales para crear un enfoque novedoso de la interacción persona-ordenador. El sistema integra diversas tecnologías como Whisper, Linly, Micros...
hace 8 meses
026.1K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot: un asistente de IA para la generación de descripciones de texto Flujos de trabajo ComfyUI

Introducción general ComfyUI-Copilot es un nodo personalizado impulsado por IA diseñado para el marco ComfyUI, con el objetivo de mejorar la eficiencia de la depuración y el despliegue de algoritmos de IA a través de la interacción del lenguaje natural. Está desarrollado por el equipo AIDC-AI (Alibaba) y derivado de GitHu...
hace 8 meses
026.1K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: ajuste de grandes modelos para mejorar el razonamiento corporal inteligente y la toma de decisiones

Introducción general OpenManus-RL es un proyecto de código abierto desarrollado por UIUC-Ulab junto con el equipo OpenManus de la comunidad MetaGPT, alojado en GitHub. El proyecto mejora el modelado lingüístico a gran escala (LLM) mediante técnicas de aprendizaje por refuerzo (RL)....
hace 7 meses
026.1K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita: un marco de código abierto para construir aplicaciones modulares de GAR y probar rápidamente diversas estrategias de GAR.

Introducción general Cognita es un marco de código abierto desarrollado por TrueFoundry para simplificar el desarrollo de aplicaciones basadas en RAG (Retrieval-Augmented Generation). El framework proporciona un entorno estructurado, mod...
hace 9 meses
026.1K
Klavis AI:面向AI应用的模型上下文协议(MCP)集成工具

Klavis AI: herramienta de integración del protocolo de contexto de modelo (MCP) para aplicaciones de IA

Introducción general Klavis AI es una plataforma de código abierto centrada en simplificar el uso y la integración del Protocolo de Contexto de Modelo (MCP), un estándar abierto que permite a las aplicaciones de IA conectarse dinámicamente con herramientas y fuentes de datos externas.Klavis AI proporciona a Slack...
hace 5 meses
026.1K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: asistente de clonación de voz de IA de extremo a extremo, asistente de diálogo de voz en tiempo real, proyecto derivado de Fish Speech

Introducción exhaustiva Fish Speech Derivative Project Fish Agent es un revolucionario sistema de clonación del habla AI de extremo a extremo desarrollado en base a la arquitectura modelo V0.1 3B. Como sistema de procesamiento de clonación del habla de extremo a extremo, su característica más importante es el uso de...
hace 9 meses
026.1K
99AI:集成多模态AI服务的商业化Web应用(免费开源)

99AI: una aplicación web comercial que integra servicios de IA multimodal (código abierto gratuito)

Introducción general 99AI es un proyecto de aplicación web de IA de código abierto cuyo objetivo es proporcionar una plataforma de servicios de IA integrada de bajo umbral y fácil de desplegar. El proyecto admite diálogos inteligentes, modelos multimodales, plazas de aplicaciones, búsquedas en red e integra pintura, música y vídeo de IA....
hace 11 meses
026K
微信视频号下载器:快速下载微信视频号视频,支持多种格式和平台

WeChat Video No. Downloader: Descarga rápidamente WeChat Video No. de vídeo, soporta múltiples formatos y plataformas

Introducción completa WeChat Video No. Downloader es un proyecto de código abierto diseñado para ayudar a los usuarios a descargar rápidamente el contenido de vídeo de los números de vídeo WeChat. La herramienta es compatible con una gran variedad de formatos de vídeo y plataformas, y los usuarios pueden utilizarla fácilmente en sistemas Windows y macOS. El proyecto está desarrollado por ltaoo y alojado en...
hace 9 meses
026K